DESIGN.md:Google Stitch 最被低估的功能

TL; DR 关键要点
- DESIGN.md 是一个对 Agent 友好的 Markdown 文件,用于记录和同步设计规则(调色板、字体、间距、组件模式),让 AI 在生成 UI 时能自动保持品牌一致性。
- 它的逻辑类似于开发领域的 Agents.md:通过一个人类和 AI 都能读写的配置文件,为 AI 设定规则。
- Google Stitch 在 2026 年 3 月发布了 5 项重大功能升级,而 DESIGN.md 是其中最不起眼但从长远来看最具战略价值的一项。
- DESIGN.md 可以自动从任何 URL 中提取设计系统,并可在不同项目之间导入/导出,彻底消除重复设置设计令牌的浪费时间。
- 这次升级在 Twitter 上获得了超过 1590 万次浏览,Figma 的股价当天应声下跌 8.8%。
为什么一个 Markdown 文件能让 Figma 股价下跌 8.8%?
2026 年 3 月 19 日,Google Labs 宣布了对 Stitch 的重大升级。消息发布后,Figma 股价应声下跌 8.8% 1。Twitter 上相关讨论的浏览量超过 1590 万次。
本文适合产品设计师、前端开发者、正在使用或关注 AI 设计工具的创业者,以及所有需要保持品牌视觉一致性的内容创作者。
大多数报道都聚焦在无限画布、语音交互等“看得见”的功能上。但真正改变行业格局的,或许是最不起眼的东西:DESIGN.md。本文将深入探讨这个“最被低估的功能”究竟是什么,它为何对 AI 时代的设计工作流至关重要,以及你今天就可以开始使用的实用方法。

Google Stitch 2026 升级:5 大功能全面解析
在深入 DESIGN.md 之前,我们先快速了解一下本次升级的全貌。Google 将 Stitch 从一个 AI UI 生成工具,升级成了一个完整的“氛围设计”(vibe design)平台 2。氛围设计意味着你不再需要从线框图开始,而是可以用自然语言描述业务目标、用户情绪乃至灵感来源,AI 直接生成高保真 UI。
五大核心功能包括:
- AI 原生画布(AI-Native Canvas):全新的无限画布,支持图像、文本、代码混合输入,为想法从早期概念到交互原型提供充足空间。
- 更智能的设计 Agent(Smarter Design Agent):能够理解整个项目的演进历史,跨版本进行推理,并通过 Agent Manager 管理多个并行设计方向。
- 语音(Voice):基于 Gemini Live,你可以直接对着画布说话,AI 实时提供设计评审、生成变体、调整配色方案。
- 即时原型(Instant Prototypes):一键将静态设计转换为可点击的交互原型,AI 根据用户点击自动生成下一个屏幕。
- DESIGN.md(设计系统文件):一个对 Agent 友好的 Markdown 文件,用于导入和导出设计规则。
前四个功能令人兴奋;第五个功能则引人深思。而往往是那些引人深思的东西,才真正改变游戏规则。
DESIGN.md 是什么?为何它和 Agents.md 一样重要?
如果你熟悉开发领域,一定知道 Agents.md。它是一个放置在代码仓库根目录的 Markdown 文件,用来告诉 AI 编程助手“这个项目的规则是什么”:代码风格、架构规范、命名约定。有了它,Claude Code、Cursor 等工具在生成代码时就不会“自由发挥”,而是会遵循团队既定的标准 3。
DESIGN.md 做的正是同样的事情,只不过对象从代码变成了设计。
它是一个 Markdown 格式的文件,记录了一个项目的完整设计规则:配色方案、字体层级、间距系统、组件模式、交互规范 4。人类设计师可以阅读它,AI 设计 Agent 也能阅读它。当 Stitch 的设计 Agent 读取你的 DESIGN.md 后,它生成的每一个 UI 界面都会自动遵循相同的视觉规则。
没有 DESIGN.md,AI 生成的 10 个页面可能有 10 种不同的按钮样式。有了它,10 个页面看起来就像出自同一个设计师之手。

这就是为什么 AI 商业分析师 Bradley Shimmin 指出,当企业使用 AI 设计平台时,需要“确定性元素”来指导 AI 的行为,无论是企业设计规范还是标准化的需求数据集 5。DESIGN.md 正是承载这种“确定性元素”的最佳载体。
为什么 DESIGN.md 是最被低估的功能
在 Reddit 的 r/FigmaDesign 子版块上,用户们热烈讨论着 Stitch 的升级。大多数人关注的是画布体验和 AI 生成质量 6。但 Muzli Blog 的深度分析却一针见血地指出:DESIGN.md 的价值在于,它消除了每次切换工具或启动新项目时都需要重建设计令牌的麻烦。“这不是理论上的效率提升;它真正节省了一天多的设置工作” 7。
设想一个真实场景:你是一名创业者,用 Stitch 设计了产品 UI 的第一个版本。三个月后,你需要制作一个新的营销落地页。没有 DESIGN.md,你不得不再次告诉 AI 你的品牌色是什么,标题用什么字体,按钮的圆角半径是多少。有了 DESIGN.md,你只需要导入这个文件,AI 立即“记住”你所有的设计规则。
更关键的是,DESIGN.md 不仅仅在 Stitch 内部流通。通过 Stitch 的 MCP Server 和 SDK,它可以连接到 Claude Code、Cursor、Antigravity 等开发工具 8。这意味着设计师在 Stitch 中定义的视觉规范,在开发者编写代码时也能自动遵循。设计与开发之间的“翻译”鸿沟,被一个 Markdown 文件弥合了。
如何开始使用 DESIGN.md:3 步指南
使用 DESIGN.md 的门槛极低,这也是它吸引力的一部分。以下是创建它的三种主要方式:
方法 1:从现有网站自动提取
在 Stitch 中输入任何 URL,AI 会自动分析该网站的配色方案、字体、间距和组件模式,生成一个完整的 DESIGN.md 文件。如果你的新项目想与现有品牌的视觉风格保持一致,这是最快的方法。
方法 2:从品牌资产生成
上传你的品牌 Logo、VI 手册截图或任何视觉参考,Stitch 的 AI 会从中提取设计规则并生成 DESIGN.md。对于尚未有系统设计规范的团队来说,这相当于 AI 为你进行了一次设计审计。
方法 3:手动编写
高级用户可以直接使用 Markdown 语法编写 DESIGN.md,精确指定每一条设计规则。这种方法提供最强的控制力,适合有严格品牌指南的团队。
如果你更喜欢在开始前收集整理大量的品牌资产、竞品截图和灵感参考,YouMind 的项目(Board)功能可以帮助你将所有这些散落的 URL、图片、PDF 集中保存和检索。整理好素材后,使用 YouMind 的 Craft 编辑器直接编写和迭代你的 DESIGN.md 文件。原生的 Markdown 支持意味着你无需在不同工具之间切换。

常见错误提醒:
- 不要将 DESIGN.md 写成“愿景文档”。它需要具体的数值(例如
primary-color: #1A73E8),而不是模糊的描述(例如“使用品牌蓝色”)。
- 定期更新。DESIGN.md 是一个活文档,设计规则应与产品迭代同步演进。
- 不要试图在一个文件中涵盖所有场景。从核心颜色、字体、间距开始,然后逐步扩展。
AI 设计工具对比:哪款最适合你?
Google Stitch 的升级让 AI 设计工具的格局更加拥挤。以下是几款主流工具的定位对比:
工具 | 最佳使用场景 | 免费版本 | 核心优势 |
|---|---|---|---|
AI 原生 UI 设计 + 原型 | ✅ | DESIGN.md 设计系统 + MCP 生态 | |
专业团队协作设计 | ✅ | 成熟的组件库和插件生态 | |
AI 辅助编程 | ✅ | 代码生成 + 上下文理解 | |
设计资产收集 + 规范编写 | ✅ | 项目(Board)多源整合 + Craft Markdown 编辑 | |
快速生成前端组件 | ✅ | React/Next.js 生态整合 |
值得注意的是,这些工具并非相互排斥。一个完整的 AI 设计工作流可能涉及:使用 YouMind 项目(Board)收集灵感和品牌资产,使用 Stitch 生成 UI 和 DESIGN.md,然后通过 MCP 连接到 Cursor 进行开发。工具之间的互操作性,正是 DESIGN.md 这种标准化文件的价值所在。
常见问题解答
Q: DESIGN.md 和传统设计令牌有什么区别?
A: 传统设计令牌通常以 JSON 或 YAML 格式存储,主要面向开发者。DESIGN.md 采用 Markdown 格式,同时兼顾了人类设计师和 AI Agent,具有更好的可读性,并且能够包含更丰富的上下文信息,例如组件模式和交互规范。
Q: DESIGN.md 只能在 Google Stitch 中使用吗?
A: 不是。DESIGN.md 本质上是一个 Markdown 文件,可以在任何支持 Markdown 的工具中编辑。通过 Stitch 的 MCP Server,它还可以与 Claude Code、Cursor、Antigravity 等工具无缝集成,实现设计规则在整个工具链中的同步。
Q: 非设计师可以使用 DESIGN.md 吗?
A: 当然可以。Stitch 支持从任何 URL 自动提取设计系统并生成 DESIGN.md,因此你不需要任何设计背景。创业者、产品经理和前端开发者都可以使用它来建立和维护品牌视觉一致性。
Q: Google Stitch 目前是免费的吗?
A: 是的。Stitch 目前处于 Google Labs 阶段,免费使用。它基于 Gemini 3 Flash 和 3.1 Pro 模型。你可以访问 stitch.withgoogle.com 开始体验。
Q: 氛围设计(vibe design)和氛围编程(vibe coding)有什么关系?
A: 氛围编程是使用自然语言描述意图,让 AI 生成代码;而氛围设计是使用自然语言描述情绪和目标,让 AI 生成 UI 设计。两者共享相同的理念,Stitch 通过 MCP 将它们整合,形成了从设计到开发的完整 AI 原生工作流。
总结
Google Stitch 的最新升级,表面上是发布了 5 项功能,实则是 Google 在 AI 设计领域的一次战略布局。无限画布为创意提供了空间,语音交互让协作更自然,即时原型加速了验证。但 DESIGN.md 做的,是更基础的事情:它解决了 AI 生成内容最大的痛点——一致性。
一个 Markdown 文件,将 AI 从“随机生成”变成了“规则生成”。这种逻辑,与 Agents.md 在编程领域的作用如出一辙。随着 AI 能力越来越强,“为 AI 设定规则”的能力也变得越来越有价值。
如果你正在探索 AI 设计工具,我建议你从 Stitch 的 DESIGN.md 功能开始。提取你现有品牌的設計系統,生成你的第一个 DESIGN.md 文件,然后将其导入到你的下一个项目。你会发现,品牌一致性不再是一个需要人工监督的问题,而是一个由文件自动确保的标准。
想更高效地管理你的设计资产和灵感吗?试试 YouMind,将散落的参考资料集中到一个项目(Board)中,让 AI 帮你整理、检索和创作。
参考文献
[1] Figma 股价在 Google Labs 更新 Stitch 设计工具后下跌
[2] Google 官方博客:用 Stitch 进行 AI 设计
[4] AI 设计新标准:DESIGN.md 是什么?如何编写?
[5] Google Stitch 和向 AI 驱动开发的转变
[6] Reddit:Google 刚刚发布了 Stitch,它可能真的会威胁到 Figma
对这篇文章有疑问?
免费使用 AI 提问相关文章

为什么 AI Agents 总是健忘?深入探究 MemOS 记忆系统
你可能遇到过这样的场景:你花了半小时向 AI Agent 介绍了项目背景,结果第二天开启新会话,它又从头问你“你的项目是关于什么的?”。或者更糟,一个复杂的、多步骤的任务进行到一半,Agent 突然“忘记”了已经完成的步骤,开始重复操作。 这并非个例。根据 Zylos Research 2025 年的报告,近 65% 的企业 AI 应用故障可归因于上下文漂移或记忆丢失 。问题的根源在于,当前大多数 Agent 框架仍然依赖 Context Window 来维持状态。会话越长,Token 开销越大,关键信息也越容易被淹没在冗长的对话历史中。 本文适用于正在构建 AI Agent 的开发者、使用 LangChain / CrewAI 等框架的工程师,以及所有被 Token 账单震惊过的技术人。我们将深入分析开源项目 MemOS 如何以“记忆操作系统”的思路解决这一痛点,并横向对比主流记忆方案,助你做出技术选型决策。 要理解 MemOS 解决了什么问题,我们首先需要搞清楚 AI Agent 的记忆困境究竟在哪里。 Context Window 不等于记忆。 很多人认为 Gemini 的 1M Token 窗口或 Claude 的 200K 窗口“足够大”,但窗口大小和记忆能力是两码事。JetBrains Research 在 2025 年底的一项研究明确指出,随着上下文长度增加,LLM 利用信息的效率会显著下降 。将整个对话历史塞进 Prompt,不仅让 Agent 难以找到关键信息,还会导致“Lost in the Middle”现象,即上下文中间部分的内容召回效果最差。 Token 成本呈指数级膨胀。 一个典型的客服 Agent,每次交互大约消耗 3,500 个 Token 。如果每次都需要重新加载完整的对话历史和知识库上下文,一个拥有 10,000 日活用户的应用,每月 Token 成本很容易突破五位数。这还不算多轮推理和工具调用带来的额外消耗。 经验无法积累和复用。 这是最容易被忽视的问题。如果一个 Agent 今天帮助用户解决了一个复杂的数据清洗任务,下次遇到类似问题时,它并不会“记住”这个解决方案。每一次交互都是一次性的,无法形成可复用的经验。正如腾讯新闻的一篇分析所言:“没有记忆的 Agent,只是一个高级聊天机器人” 。 这三个问题叠加,构成了当前 Agent 开发中最棘手的基础设施瓶颈。 由中国初创公司 MemTensor 开发。它在 2024 年 7 月的世界人工智能大会(WAIC)上首次发布了 Memory³ 分层大模型,并于 2025 年 7 月正式开源 MemOS 1.0,目前已迭代至 v2.0 “星尘”。该项目采用 Apache 2.0 开源协议,在 GitHub 上持续活跃。 MemOS 的核心理念可以用一句话概括:将记忆从 Prompt 中抽离,作为系统层面的独立组件运行。 传统做法是将所有对话历史、用户偏好、任务上下文统统塞进 Prompt,让 LLM 在每次推理时“重新阅读”所有信息。MemOS 则采取了截然不同的方式。它在 LLM 和应用之间插入了一个“记忆操作系统”层,负责记忆的存储、检索、更新和调度。Agent 不再需要每次都加载完整历史,而是由 MemOS 根据当前任务的语义,智能地检索出最相关的记忆片段注入上下文。 这种架构带来了三个直接的好处: 首先,Token 消耗显著降低。 LoCoMo 基准测试的官方数据显示,MemOS 相较于传统全量加载方式,Token 消耗降低约 60.95%,其中记忆 Token 节省达到 35.24% 。机器之心的一篇报道则提到,整体准确率提升了 38.97% 。换句话说,用更少的 Token 实现了更好的效果。 其次,跨会话记忆持久化。 MemOS 支持自动从对话中提取关键信息并持久化存储。下次开启新会话时,Agent 可以直接访问之前积累的记忆,无需用户重新解释背景。数据以 SQLite 形式存储在本地,100% 本地运行,确保数据隐私。 第三,多 Agent 记忆共享。 多个 Agent 实例可以通过同一个 user_id 共享记忆,实现上下文的自动交接。这对于构建多 Agent 协作系统是至关重要的能力。 MemOS 最令人眼前一亮的,是它的“记忆演进链”。 大多数记忆系统都停留在“存储”和“检索”:保存对话历史,并在需要时检索出来。MemOS 则在此之上增加了一层抽象。对话内容并非原封不动地累积,而是经历三个阶段的演进: 第一阶段:对话 → 结构化记忆。 原始对话会被自动提取成结构化的记忆条目,包括关键事实、用户偏好、时间戳等元数据。MemOS 使用其自研的 MemReader 模型(提供 4B/1.7B/0.6B 尺寸)来完成这一提取过程,比直接使用 GPT-4 进行总结更高效、准确。 第二阶段:记忆 → 任务。 当系统识别出某些记忆条目与特定的任务模式相关联时,它会自动将这些记忆聚合成任务(Task)级别的知识单元。例如,如果你反复要求 Agent 执行“Python 数据清洗”,相关的对话记忆就会被归类到一个 Task 模板中。 第三阶段:任务 → 技能。 当一个 Task 被反复触发并验证有效后,它会进一步演进为可复用的技能(Skill)。这意味着 Agent 之前遇到过的问题,下次很可能不会再问,而是直接调用已有的 Skill 来执行。 这种设计巧妙地模拟了人类的学习过程:从具体的经验到抽象的规则,再到自动化的技能。MemOS 论文将这种能力称为“记忆增强生成”(Memory-Augmented Generation),并在 arXiv 上发表了两篇相关论文 。 实际数据也印证了这种设计的有效性。在 LongMemEval 评估中,MemOS 的跨会话推理能力比 GPT-4o-mini 基线提升了 40.43%;在 PrefEval-10 个性化偏好评估中,提升更是高达惊人的 2568% 。 如果你想将 MemOS 集成到你的 Agent 项目中,这里提供一个快速上手指南: 第一步:选择部署方式。 MemOS 提供两种模式。云端模式允许你直接在 注册 API Key,通过几行代码即可集成。本地模式则通过 Docker 部署,所有数据本地 SQLite 存储,适用于数据隐私要求高的场景。 第二步:初始化记忆系统。 核心概念是 MemCube(记忆立方体),每个 MemCube 对应一个用户或一个 Agent 的记忆空间。多个 MemCube 可以通过 MOS(Memory Operating System)层统一管理。以下是代码示例: ``python from memos.mem_os.main import MOS from memos.configs.mem_os import MOSConfig # 初始化 MOS config = MOSConfig.from_json_file("config.json") memory = MOS(config) # 创建用户并注册记忆空间 memory.create_user(user_id="your-user-id") memory.register_mem_cube("path/to/mem_cube", user_id="your-user-id") # 添加对话记忆 memory.add( messages=[ {"role": "user", "content": "My project uses Python for data analysis"}, {"role": "assistant", "content": "Understood, I will remember this background information"} ], user_id="your-user-id" ) # 稍后检索相关记忆 results = memory.search(query="What language does my project use?", user_id="your-user-id") `` 第三步:集成 MCP 协议。 MemOS v1.1.2 及更高版本全面支持 Model Context Protocol (MCP),这意味着你可以将 MemOS 作为 MCP Server 使用,让任何支持 MCP 的 IDE 或 Agent 框架直接读写外部记忆。 常见坑点提醒: MemOS 的记忆提取依赖于 LLM 推理。如果底层模型能力不足,记忆质量会受影响。Reddit 社区有开发者反映,使用小参数量本地模型时,记忆准确率不如调用 OpenAI API 。建议在生产环境中,至少使用 GPT-4o-mini 级别的模型作为记忆处理后端。 在日常工作中,Agent 级别的记忆管理解决了“机器如何记忆”的问题,但对于开发者和知识工作者而言,“人类如何高效积累和检索信息”同样重要。 的项目功能提供了互补的思路:你可以将研究资料、技术文档、网页链接统一保存到一个知识空间中,AI 助手会自动整理并支持跨文档问答。例如,在评估 MemOS 时,你可以将 GitHub README、arXiv 论文、社区讨论一键剪藏到同一个项目,然后直接提问“MemOS 和 Mem0 的基准差异是什么?”,AI 会从你保存的所有资料中检索答案。这种“人机协作积累”的模式与 MemOS 的 Agent 记忆管理相得益彰。 自 2025 年以来,Agent 记忆领域涌现出多个开源项目。这里对比四种最具代表性的方案: 知乎 2025 年的一篇文章《AI 记忆系统横评》对这些方案进行了详细的基准复现,结论是 MemOS 在 LoCoMo 和 LongMemEval 等评估集上表现最稳定,是“唯一一个同时拥有官方评估、GitHub 交叉测试和社区复现结果的记忆操作系统” 。 如果你的需求并非 Agent 级别的记忆管理,而是个人或团队的知识积累与检索, 则提供了另一个维度的解决方案。它的定位是“学习 → 思考 → 创造”的一体化工作室,支持保存网页、PDF、视频、播客等各种来源,AI 自动整理并支持跨文档问答。相较于 Agent 记忆系统侧重于“让机器记住”,YouMind 更侧重于“帮助人高效管理知识”。不过需要注意的是,YouMind 目前不提供类似 MemOS 的 Agent 记忆 API;它们解决的是不同层面的需求。 选择建议: Q: MemOS 和 RAG (Retrieval-Augmented Generation) 有什么区别? A: RAG 侧重于从外部知识库中检索信息并注入 Prompt,本质上仍然是“每次查找,每次插入”的模式。MemOS 则将记忆作为系统级组件进行管理,支持记忆的自动提取、演进和技能化。两者可以互补使用,MemOS 处理对话记忆和经验积累,RAG 处理静态知识库检索。 Q: MemOS 支持哪些 LLM?部署有什么硬件要求? A: MemOS 支持通过 API 调用 OpenAI、Claude 等主流模型,也支持通过 Ollama 集成本地模型。云端模式无硬件要求;本地模式推荐 Linux 环境,内置的 MemReader 模型最小尺寸为 0.6B 参数,普通 GPU 即可运行。Docker 部署开箱即用。 Q: MemOS 的数据安全如何?记忆数据存储在哪里? A: 在本地模式下,所有数据存储在本地 SQLite 数据库中,100% 本地运行,不上传到任何外部服务器。在云端模式下,数据存储在 MemOS 官方服务器上。对于企业用户,建议采用本地模式或私有化部署方案。 Q: AI Agent 的 Token 成本普遍有多高? A: 以典型的客服 Agent 为例,每次交互大约消耗 3,150 个输入 Token 和 400 个输出 Token。根据 2026 年 GPT-4o 的定价,一个拥有 10,000 日活用户、平均每个用户每天 5 次交互的应用,每月 Token 成本在 2,000 到 5,000 美元之间。使用 MemOS 等记忆优化方案,可以将这个数字降低 50% 以上。 Q: 除了 MemOS,还有哪些方法可以降低 Agent 的 Token 成本? A: 主流方法包括 Prompt 压缩(例如 LLMLingua)、语义缓存(例如 Redis 语义缓存)、上下文总结和选择性加载策略。Redis 2026 年的技术博客指出,语义缓存可以在查询高度重复的场景中完全绕过 LLM 推理调用,带来显著的成本节约 。这些方法可以与 MemOS 配合使用。 AI Agent 的记忆问题,本质上是一个系统架构问题,而非单纯的模型能力问题。MemOS 给出的答案是:将记忆从 Prompt 中解放出来,作为独立的操作系统层运行。实践数据证明了这条路径的可行性:Token 消耗降低 61%,时间推理提升 159%,并在四大评估集上取得 SOTA。 对于开发者而言,最值得关注的是 MemOS 的“对话 → 任务 → 技能”演进链。它将 Agent 从一个“每次从头开始”的工具,转变为一个能够积累经验、持续进化的系统。这可能是 Agent 从“能用”走向“好用”的关键一步。 如果你对 AI 驱动的知识管理和信息积累感兴趣,欢迎免费试用 ,体验“学习 → 思考 → 创造”的一体化工作流。 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10]

Lenny 公开 350+ 份新闻通讯数据集:如何使用 MCP 将其与您的 AI 助手集成
你可能听说过 Lenny Rachitsky 这个名字。这位前 Airbnb 产品负责人于 2019 年开始撰写他的 Newsletter,现在拥有超过 110 万订阅者,年收入超过 200 万美元,使其成为 Substack 上排名第一的商业 Newsletter 。他的播客也位列科技类播客前十名,嘉宾包括硅谷顶尖的产品经理、增长专家和创业者。 2026 年 3 月 17 日,Lenny 做了一件前所未有的事:他将自己所有的内容资产作为 AI 可读的 Markdown 数据集开放。凭借 350 多篇深度 Newsletter 文章、300 多份完整的播客文字稿、一个配套的 MCP 服务器和一个 GitHub 仓库,现在任何人都可以使用这些数据构建 AI 应用程序 。 本文将涵盖该数据集的完整内容、如何通过 MCP 服务器将其集成到你的 AI 工具中、社区已构建的 50 多个创意项目,以及你如何利用这些数据创建自己的 AI 知识助手。本文适用于内容创作者、Newsletter 作者、AI 应用开发者和知识管理爱好者。 这并非简单的“内容搬运”。Lenny 的数据集经过精心组织,专为 AI 消费场景设计。 在数据规模方面,免费用户可以访问包含 10 篇 Newsletter 文章和 50 份播客文字稿的入门包,并通过 连接到入门级 MCP 服务器。而付费订阅者则可以访问完整的 349 篇 Newsletter 文章和 289 份播客文字稿,以及完整的 MCP 访问权限和一个私有 GitHub 仓库 。 在数据格式方面,所有文件均为纯 Markdown 格式,可直接用于 Claude Code、Cursor 和其他 AI 工具。仓库中的 index.json 文件包含结构化元数据,如标题、发布日期、字数、Newsletter 副标题、播客嘉宾信息和剧集描述。值得注意的是,最近 3 个月内发布的 Newsletter 文章不包含在数据集中。 在内容质量方面,这些数据涵盖了产品管理、用户增长、创业策略和职业发展等核心领域。播客嘉宾包括 Airbnb、Figma、Notion、Stripe 和 Duolingo 等公司的高管和创始人。这并非随机抓取的网络内容,而是经过 7 年积累并由 110 万人验证的高质量知识库。 全球 AI 训练数据集市场在 2025 年达到 35.9 亿美元,预计到 2034 年将增长到 231.8 亿美元,复合年增长率为 22.9% 。在这个数据即燃料的时代,高质量、小众的内容数据变得极其稀缺。 Lenny 的做法代表了一种新的创作者经济模式。传统上,Newsletter 作者通过付费墙来保护内容价值。然而,Lenny 却反其道而行之:他将内容作为“数据资产”开放,允许社区在其之上构建新的价值层。这不仅没有减少他的付费订阅(事实上,数据集的传播吸引了更多关注),反而围绕他的内容创建了一个开发者生态系统。 与其他内容创作者的做法相比,这种“内容即 API”的方法几乎是前所未有的。正如 Lenny 自己所说:“我认为以前没有人做过这样的事情。” 这种模式的核心洞察是:当你的内容足够好,数据结构足够清晰时,社区会帮助你创造出你从未想象过的价值。 想象一下这个场景:你是一位产品经理,正在准备一份关于用户增长策略的演示文稿。你无需花费数小时筛选 Lenny 的历史文章,而是可以直接要求 AI 助手从 300 多个播客节目中检索所有关于“增长循环”的讨论,并自动生成一份包含具体示例和数据的摘要。这就是结构化数据集带来的效率飞跃。 将 Lenny 的数据集集成到你的 AI 工作流程中并不复杂。以下是具体步骤。 访问 并输入你的订阅邮箱以获取登录链接。免费用户可以下载入门包 ZIP 文件或直接克隆公共 GitHub 仓库: ``plaintext git clone https://github.com/LennysNewsletter/lennys-newsletterpodcastdata.git `` 付费用户可以登录以访问包含完整数据集的私有仓库。 MCP (Model Context Protocol) 是 Anthropic 推出的一种开放标准,允许 AI 模型以标准化方式访问外部数据源。Lenny 的数据集提供了官方 MCP 服务器,你可以直接在 Claude Code 或其他支持 MCP 的客户端中进行配置。免费用户可以使用入门级 MCP,而付费用户则可以获得完整数据的 MCP 访问权限。 配置完成后,你可以在 AI 对话中直接搜索和引用 Lenny 的所有内容。例如,你可以提问:“在 Lenny 的播客嘉宾中,谁讨论了 PLG (Product-Led Growth) 策略?他们的核心见解是什么?” 获取数据后,你可以根据自己的需求选择不同的构建路径。如果你是开发者,可以使用 Claude Code 或 Cursor 直接基于 Markdown 文件构建应用程序。如果你更倾向于知识管理,可以将这些内容导入到你偏好的知识库工具中。 例如,你可以在 中创建一个专门的 项目,并将 Lenny 的 Newsletter 文章链接批量保存到其中。YouMind 的 AI 将自动组织这些内容,你可以随时提问、检索和分析整个知识库。这种方法特别适合不编码但希望通过 AI 高效消化大量内容的创作者和知识工作者。 需要注意一个常见的误解:不要试图一次性将所有数据倾倒到一个 AI 聊天窗口中。更好的方法是按主题分批处理,或者让 AI 通过 MCP 服务器按需检索。 Lenny 之前只发布了播客文字稿数据,社区就已经构建了 50 多个项目。以下是最具代表性的 5 类应用。 游戏化学习:LennyRPG。 产品设计师 Ben Shih 将 300 多个播客文字稿转化为 Pokémon 风格的 RPG 游戏 。玩家在像素世界中遇到播客嘉宾,通过回答产品管理问题来“战斗”和“捕获”他们。Ben 使用 Phaser 游戏框架、Claude Code 和 OpenAI API,在短短几周内完成了从概念到发布的整个开发过程 。 跨领域知识迁移:Tiny Stakeholders。 由 Ondrej Machart 开发的 将播客中的产品管理方法论应用于育儿场景。这个项目展示了高质量内容数据的一个有趣特性:好的框架和思维模型可以跨领域迁移。 结构化知识提取:Lenny Skills Database。 Refound AI 团队从播客档案中提取了 ,每项技能都附有具体的上下文和来源引用 。他们使用 Claude 进行预处理,并使用 ChromaDB 进行向量嵌入,使整个过程高度自动化。 社交媒体 AI Agent:Learn from Lenny。 是一个运行在 X (Twitter) 上的 AI Agent,它根据播客档案回答用户的产品管理问题,每次回复都包含原始来源。 视觉内容再创作:Lenny Gallery。 将每个播客剧集的核心见解转化为精美的图表,将一个小时的播客变成可分享的视觉摘要。 这些项目的共同特点是它们并非简单的“内容搬运”,而是在原始数据的基础上创造了新的价值形式。 面对像 Lenny 这样的大规模内容数据集,不同的工具适用于不同的用例。以下是主流解决方案的对比: 如果你是开发者,Claude Code + MCP 服务器是最直接的路径,允许在对话中实时查询完整数据。如果你是内容创作者或知识工作者,不希望编码但希望通过 AI 消化这些内容,YouMind 的 项目 功能更适合:你可以批量导入文章链接,然后使用 AI 提问和分析整个知识库。YouMind 目前更适合“收集 → 整理 → AI 问答”的知识管理场景,但尚不支持直接连接外部 MCP 服务器。对于需要深度代码开发的项目,仍然推荐 Claude Code 或 Cursor。 问:Lenny 的数据集是完全免费的吗? 答:不完全是。免费用户可以访问包含 10 篇 Newsletter 和 50 份播客文字稿的入门包,以及入门级 MCP 访问权限。完整的 349 篇文章和 289 份文字稿需要付费订阅 Lenny 的 Newsletter(每年约 150 美元)。最近 3 个月内发布的文章不包含在数据集中。 问:什么是 MCP 服务器?普通用户可以使用吗? 答:MCP (Model Context Protocol) 是 Anthropic 在 2024 年底推出的一种开放标准,允许 AI 模型以标准化方式访问外部数据。它目前主要通过 Claude Code 和 Cursor 等开发工具使用。如果普通用户不熟悉命令行,可以先下载 Markdown 文件并导入到 YouMind 等知识管理工具中,以使用 AI 问答功能。 问:我可以使用这些数据训练自己的 AI 模型吗? 答:数据集的使用受 文件的约束。目前,这些数据主要用于 AI 工具中的上下文检索(例如 RAG),而不是直接用于模型微调。建议在使用前仔细阅读 GitHub 仓库中的许可协议。 问:除了 Lenny,还有其他 Newsletter 作者发布过类似的数据集吗? 答:目前,Lenny 是第一位以如此系统的方式(Markdown + MCP + GitHub)开放完整内容的头部 Newsletter 作者。这种做法在创作者经济中是前所未有的,但可能会激励更多创作者效仿。 问:创作挑战的截止日期是什么时候? 答:Lenny 发起的创作挑战截止日期是 2025 年 4 月 15 日。参与者需要基于数据集构建项目,并在 Newsletter 评论区提交链接。获胜者将获得一年免费的 Newsletter 订阅。 Lenny Rachitsky 发布 350 多篇 Newsletter 文章和 300 多份播客文字稿数据集,标志着内容创作者经济的一个重要转折点:高质量内容不再仅仅是供阅读的,它正在成为可编程的数据资产。通过 MCP 服务器和结构化的 Markdown 格式,任何开发者和创作者都可以将这些知识集成到他们的 AI 工作流程中。社区已经通过 50 多个项目展示了这种模式的巨大潜力。 无论你是想构建一个 AI 驱动的知识助手,还是更高效地消化和组织 Newsletter 内容,现在都是一个很好的行动时机。你可以访问 获取数据,或者尝试使用 将你关注的 Newsletter 和播客内容导入到你的个人知识库中,让 AI 帮助你完成从信息收集到知识创造的整个闭环。 [1] [2] [3] [4] [5] [6] [7]

Grok Imagine 视频生成评测:三冠王实力对决五大模型对比
2026 年 1 月,xAI 的 在一个月内生成了 12.45 亿个视频。这个数字在一年前是不可想象的,当时 xAI 甚至还没有视频产品。从零到巅峰,Grok Imagine 仅用了七个月就实现了这一目标。 更值得注意的是排行榜数据。在 Arcada Labs 运营的 视频评测中,Grok Imagine 斩获三项第一:视频生成竞技场 Elo 1337(领先第二名模型 33 分),图像转视频竞技场 Elo 1298(击败 Google Veo 3.1、Kling 和 Sora),以及视频编辑竞技场 Elo 1291。没有其他模型能同时在所有这三个类别中名列前茅。 本文适用于正在选择 AI 视频生成工具的创作者、营销团队和独立开发者。你将找到 Grok Imagine、Google Veo 3.1、Kling 3.0、Sora 2 和 Seedance 2.0 这五大主流模型的全面交叉对比,包括定价、核心功能、优缺点和场景推荐。 DesignArena 采用 Elo 评分系统,用户通过匿名盲测在两个模型的输出之间进行投票。这种机制与评估大型语言模型的 LMArena(前身为 LMSYS Chatbot Arena)一致,被业界认为是与实际用户偏好最接近的排名方法。 Grok Imagine 的三个 Elo 分数代表了不同的能力维度。视频生成 Elo 1337 衡量的是直接从文本提示生成视频的质量;图像转视频 Elo 1298 测试的是将静态图像转换为动态视频的能力;视频编辑 Elo 1291 则评估在现有视频上进行风格迁移、添加/删除元素以及其他操作的性能。 这三种能力的结合形成了一个完整的视频创作闭环。对于实际工作流程而言,你不仅需要“生成一个好看的视频”,还需要快速从产品图片中创建广告素材(图像转视频),并在不从头开始的情况下微调生成结果(视频编辑)。Grok Imagine 是目前唯一在这三个阶段都排名第一的模型。 值得注意的是,Kling 3.0 在一些独立的基准测试中重新获得了文本转视频类别的领先地位。 AI 视频生成排名每周都在变化,但 Grok Imagine 在图像转视频和视频编辑类别中的优势目前依然稳固。 以下是截至 2026 年 3 月,五大主流 AI 视频生成模型的核心参数对比。数据来源于官方平台定价页面和第三方评测。 核心功能: 文本转视频、图像转视频、视频编辑、视频扩展(Extend from Frame)、多宽高比支持(1:1, 16:9, 9:16, 4:3, 3:4, 3:2, 2:3)。基于 xAI 自研的 Aurora 自回归引擎,使用 110,000 块 NVIDIA GB200 GPU 训练。 定价结构: 免费用户有基本配额限制;X Premium(8 美元/月)提供基本访问权限;SuperGrok(30 美元/月)解锁 720p 和 10 秒视频,每日约 100 个视频的限制;SuperGrok Heavy(300 美元/月)每日限制 500 个视频。API 定价为 4.20 美元/分钟。 优点: 生成速度极快,输入提示后几乎瞬间返回图像流,并可一键将每张图像转换为视频。视频编辑能力是其独特卖点:你可以使用自然语言指令在现有视频上进行风格迁移、添加或删除物体以及控制运动路径,而无需重新生成。支持的宽高比最多,适合同时制作横版、竖版和方形素材。 缺点: 最大分辨率仅为 720p,对于需要高清交付的品牌项目来说是一个显著的缺点。视频编辑输入上限为 8.7 秒。多次链式扩展后图像质量明显下降。内容审核政策备受争议,“Spicy Mode”曾引起国际关注。 核心功能: 文本转视频、图像转视频、首尾帧控制、视频扩展、原生音频(对话、音效、背景音乐同步生成)。支持 720p、1080p 和 4K 输出。通过 Gemini API 和 Vertex AI 提供。 定价结构: Google AI Plus 7.99 美元/月 (Veo 3.1 Fast),AI Pro 19.99 美元/月,AI Ultra 249.99 美元/月。Veo 3.1 Fast 的 API 定价为 0.15 美元/秒,Standard 为 0.40 美元/秒,均包含音频。 优点: 目前唯一支持真正原生 4K 输出的模型(通过 Vertex AI)。音频生成质量业界领先,对话自动唇形同步,音效与屏幕动作同步。首尾帧控制使得逐镜头工作流程更易管理,适合需要镜头连续性的叙事项目。Google Cloud 基础设施提供企业级 SLA。 缺点: 标准时长仅为 4/6/8 秒,远短于 Grok Imagine 和 Kling 3.0 的 15 秒上限。宽高比仅支持 16:9 和 9:16。Vertex AI 上的图像转视频功能仍处于预览阶段。4K 输出需要高级订阅或 API 访问,普通用户难以触及。 核心功能: 文本转视频、图像转视频、多镜头叙事(一次性生成 2-6 个镜头)、通用参考(支持多达 7 张参考图像/视频以锁定角色一致性)、原生音频、唇形同步。由快手开发。 定价结构: 免费层级每日提供 66 积分(约 1-2 个 720p 视频),Standard 5.99 美元/月,Pro 37 美元/月(3000 积分,约 50 个 1080p 视频),Ultra 更高。API 每秒价格为 0.029 美元,是五大模型中最便宜的。 优点: 性价比无与伦比。Pro 套餐每个视频成本约为 0.74 美元,远低于其他模型。多镜头叙事是杀手级功能:你可以在结构化提示中描述多个镜头的主题、时长和运镜,模型会自动处理镜头间的转场和剪辑。支持原生 4K 输出。文本渲染能力是所有模型中最强的,适合电商和营销场景。 缺点: 免费层级有水印,不能用于商业用途。高峰时段排队时间可能超过 30 分钟。生成失败仍会消耗积分。与 Grok Imagine 相比,缺乏视频编辑功能(只能生成,不能修改现有视频)。 核心功能: 文本转视频、图像转视频、故事板镜头编辑、视频扩展、角色一致性引擎。Sora 1 已于 2026 年 3 月 13 日正式退役,Sora 2 成为唯一版本。 定价结构: 免费层级已于 2026 年 1 月停止。ChatGPT Plus 20 美元/月(有限配额),ChatGPT Pro 200 美元/月(优先访问)。API 定价:720p 0.10 美元/秒,1080p 0.30-0.70 美元/秒。 优点: 物理模拟能力是所有模型中最强的。重力、流体、材质反射等细节极其逼真,适合高度写实的场景。支持长达 60 秒的视频生成,远超其他模型。故事板功能允许逐帧编辑,赋予创作者精确的控制力。 缺点: 价格门槛是五大模型中最高的。200 美元/月的 Pro 订阅让个人创作者望而却步。服务稳定性问题频发:2026 年 3 月曾多次出现视频卡在 99% 完成度、“服务器过载”等错误。没有免费层级意味着无法在付费前充分评估。 核心功能: 文本转视频、图像转视频、多模态参考输入(最多 12 个文件,涵盖文本、图像、视频、音频)、原生音频(音效 + 音乐 + 8 种语言唇形同步)、原生 2K 分辨率。由字节跳动开发,于 2026 年 2 月 12 日发布。 定价结构: Dreamina 免费层级(每日免费积分,带水印),即梦基础会员 69 元人民币/月(约 9.60 美元),Dreamina 国际付费计划。API 通过 BytePlus 提供,定价约为 0.02-0.05 美元/秒。 优点: 12 个文件的多模态输入是独家功能。你可以同时上传角色参考图、场景照片、动作视频片段和背景音乐,模型会综合所有参考生成视频。这种程度的创作控制力在其他模型中完全缺失。原生 2K 分辨率对所有用户可用(不像 Veo 3.1 的 4K 需要高级订阅)。69 元人民币/月的入门价格是 Sora 2 Pro 的二十分之一。 缺点: 中国以外的访问体验仍有摩擦,Dreamina 国际版直到 2026 年 2 月下旬才上线。内容审核相对严格。学习曲线相对陡峭,充分利用多模态输入需要时间探索。最大时长为 10 秒,短于 Grok Imagine 和 Kling 3.0 的 15 秒。 选择 AI 视频生成模型的核心问题不是“哪个最好”,而是“你在优化哪个工作流程?” 以下是基于实际场景的推荐: 批量制作社交媒体短视频:选择 Grok Imagine 或 Kling 3.0。 你需要快速产出各种宽高比的素材,频繁迭代,且对分辨率要求不高。Grok Imagine 的“生成 → 编辑 → 发布”闭环最流畅;Kling 3.0 的免费层级和低成本适合预算有限的个人创作者。 品牌广告和产品宣传片:选择 Veo 3.1。 当客户要求 4K 交付、音视频同步和镜头连续性时,Veo 3.1 的首尾帧控制和原生音频是不可替代的。Google Cloud 的企业级支持也使其更适合有合规要求的商业项目。 电商产品视频和带文字素材:选择 Kling 3.0。 文字渲染能力是 Kling 的独特优势。产品名称、价格标签、宣传文案可以在视频中清晰呈现,这是其他模型难以持续做到的。0.029 美元/秒的 API 价格也使得大规模生产成为可能。 电影级概念预览和物理模拟:选择 Sora 2。 如果你的场景涉及复杂的物理交互(水面反射、布料动力学、碰撞效果),Sora 2 的物理引擎仍然是行业标准。60 秒的最大时长也适合完整的场景预览。但请准备好 200 美元/月的预算。 多素材参考的创意项目:选择 Seedance 2.0。 当你拥有角色设计图、场景参考、动作视频片段和背景音乐,并希望模型综合所有素材生成视频时,Seedance 2.0 的 12 文件多模态输入是唯一的选择。适合动画工作室、音乐视频制作和概念艺术团队。 无论你选择哪个模型,提示词质量直接决定输出质量。Grok Imagine 的官方建议是“像给摄影指导写剧本一样写提示词”,而不是简单堆砌关键词。 一个有效的视频提示词通常包含五个层面:场景描述、主体动作、运镜、光线与氛围、风格参考。 例如,“桌上的一只猫”和“一只橙色的猫慵懒地从木质餐桌边缘探出头,暖色侧光,浅景深,缓慢推近镜头,电影颗粒质感”会产生截然不同的结果。后者为模型提供了足够的创作锚点。 如果你想快速上手而不是从零摸索,收录了 400 多个社区精选视频提示词,涵盖电影级、产品广告、动画、社交内容等多种风格,支持一键复制,直接使用。这些经过社区验证的提示词模板可以显著缩短你的学习曲线。 问:Grok Imagine 视频生成免费吗? 答:有免费配额,但非常有限。免费用户每 2 小时约有 10 次图像生成,视频需要从图像转换。完整的 720p/10 秒视频功能需要 SuperGrok 订阅(30 美元/月)。X Premium(8 美元/月)提供基本访问权限,但功能有限。 问:2026 年最便宜的 AI 视频生成工具是哪个? 答:根据 API 每秒成本,Kling 3.0 最便宜(0.029 美元/秒)。根据订阅入门价格,Seedance 2.0 的即梦基础会员 69 元人民币/月(约 9.60 美元)性价比最高。两者都提供免费层级供评估。 问:Grok Imagine 和 Sora 2 哪个更好? 答:这取决于你的需求。Grok Imagine 在图像转视频和视频编辑方面排名更高,生成速度更快,且更便宜(SuperGrok 30 美元/月 vs. ChatGPT Pro 200 美元/月)。Sora 2 在物理模拟和长视频(最长 60 秒)方面更强。如果你需要快速迭代短视频,选择 Grok Imagine;如果你需要电影级的真实感,选择 Sora 2。 问:AI 视频生成模型排名可靠吗? 答:DesignArena 和 Artificial Analysis 等平台采用匿名盲测 + Elo 评分系统,类似于国际象棋的排名系统,在统计学上是可靠的。然而,排名每周都在变化,不同基准测试的结果可能有所不同。建议将排名作为参考而非唯一的决策依据,并根据你自己的实际测试做出判断。 问:哪个 AI 视频模型支持原生音频生成? 答:截至 2026 年 3 月,Grok Imagine、Veo 3.1、Kling 3.0、Sora 2 和 Seedance 2.0 都支持原生音频生成。其中,Veo 3.1 的音频质量(对话唇形同步、环境音效)被多项评测认为是最好的。 2026 年,AI 视频生成进入了真正的多模型竞争时代。Grok Imagine 在七个月内从零到 DesignArena 三冠王的历程证明,新入局者可以完全颠覆格局。然而,“最强”不等于“最适合你”:Kling 3.0 的 0.029 美元/秒让批量生产成为现实,Veo 3.1 的 4K 原生音频为品牌项目树立了新标准,Seedance 2.0 的 12 文件多模态输入开辟了全新的创意途径。 选择模型的关键在于明确你的核心需求:无论是迭代速度、输出质量、成本控制还是创意灵活性。最高效的工作流程往往不是押宝单一模型,而是根据项目类型灵活组合使用。 想快速上手 Grok Imagine 视频生成?访问 ,获取 400 多个社区精选视频提示词,一键复制,涵盖电影级、广告、动画等多种风格,助你跳过提示词探索阶段,直接产出高质量视频。 [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19]