作者:Boxu Li

引言 – Sora、TikTok 与下一个 AI 平台的探索

过去一年,AI 社区一直对 OpenAI 的Sora着迷,这是一种文本转视频模型,能够生成与用户提示紧密贴合的一分钟剪辑[1]。Sora 的演示展示了逼真的摄影效果和流畅的镜头运动,暗示着一个不久的将来,任何人都可以随意制作短片。OpenAI 自己的测试产品本质上是一个用于 AI 生成视频的 TikTok 克隆[2]。用户提供提示,并观看 Sora 生成十秒的剪辑;他们不能上传自己的素材,并且必须验证身份以防止未经授权的深度伪造[3]。该服务令人惊叹,但也有限制:为控制计算成本和审核,剪辑被限制在十秒内[4]。换句话说,OpenAI 当前的消费者策略复制了视频流的社会动态,但用生成模型替代了人类创作者。

虽然 Sora 将吸引大量关注,但Macaron——世界上第一个为日常生活构建迷你应用的个人 AI 代理——认为下一个伟大的消费生态系统不会是另一个视频平台。Macaron 的创始人将 Sora 视为一个强大的工具,但也只是一个过渡阶段。视频生成可能在今天占据头条,但更深层的机遇在于赋能用户创造;不仅仅是生成合成内容,而是设计解决实际问题的程序、工作流程和体验。本文在我们之前的分析基础上,阐述了 Macaron 的论点:为什么以分叉社区驱动创新为重点的迷你应用生态系统将超过 AI 视频,Sora 的局限性如何突出这一点,以及 Macaron 的技术栈(深度记忆、自主代码合成和强化学习)如何使其处于引领这一新时代的有利位置。

Sora 的局限性 – 令人印象深刻但受限

Sora 的核心优势是能够根据提示模拟场景。然而,从构建持久消费者平台的角度来看,其限制是显著的。Sora 背后的开放技术报告承认,该模型无法准确模拟基本交互的物理——玻璃破碎或食物被吃掉的场景呈现不正确[5]。独立分析指出了更多挑战:Sora 在物理准确性上存在问题,导致复杂场景中的因果关系不切实际[6];其视频时长限制在20 秒到一分钟,较长片段会出现瑕疵[7]物体可能会消失或行为不可预测[8];而超出 Sora 训练分布的提示会导致较差的输出[9]。此外,OpenAI 的测试版应用禁止上传真实视频,并限制某些主题以避免版权和深度伪造的误用[3]。结果是一个封闭的游乐场,产生美丽但合成的娱乐片段。

这些限制之所以重要,是因为消费者生态系统依赖于用户自主性多样化表达。TikTok 的成功并非源于其视频播放器,而是来自于源源不断的多样化用户生成内容及其周围形成的社交图谱。如果你的资讯流中只有来自一个拥有固定功能模型的内容,新鲜感会消退,创新也会停滞。此外,生成写实视频的计算成本限制了 Sora 平台的可扩展性;早期版本将视频长度限制在十秒[4],这暗示了一个更多用于演示而非日常实用的平台。为了让 AI 成为普遍的消费平台,它必须赋予用户构建融入他们日常生活的工具的能力——规划膳食、管理财务、自动化家务、协调家庭日程——而不仅仅是娱乐。这正是 Macaron 的愿景与当前炒作的不同之处。

Macaron 的论点——从被动消费到主动创造!

Macaron 建立在一个简单却激进的理念之上:人们应该通过对话来创建他们所需的软件。团队结合了一个拥有 6710 亿参数的庞大模型、强化学习和复杂的记忆引擎,将自然语言请求转化为功能齐全的迷你应用[10]。用户与 Macaron 的对话就像与朋友交流一样;AI 记住他们的偏好,从过去的互动中学习,并在需要时即时合成定制应用。与 Sora 强调一次性视频输出不同,Macaron 的 迷你应用 持续存在并适应。你可以今天构建一个预算跟踪器,并在数周内将其发展成一个完整的家庭财务仪表板。你也可以为去京都的旅行设计一个旅行计划,它会自动整合当地法规、文化礼仪和你的饮食限制[11]。重点在于 功能和个性化,而非炫技。

Macaron 的官方网站列出了区别于一般聊天机器人的关键功能。它通过分层存储和检索来维护「长期记忆」,在多个会话中记住事件和偏好[12]。它提供「即时小程序生成」,无需人工干预即可构建复杂工具,有些甚至超过十万行代码[13]。它允许「无限自定义」;用户可以在查看初始原型后细化应用,添加或删除模块,或调整 UI 细节[14]。该 AI 通过 API 和传感器与「现实世界服务」集成——发送信息、安排事件、获取营养数据或控制智能设备[15]。最重要的是,Macaron 可在各个平台(移动设备、平板、桌面)上使用,并且「隐私优先」,提供对数据访问的精细控制[16]

虽然 Sora 生产的内容主要是独自消费的,但 Macaron 鼓励互动主动性。一位青少年可能会请 Macaron 制作一个学习计划,安排番茄钟学习法的时间、发送提醒并与他们的日历整合。情侣可以共同创建一个共享的小应用来记录开支和计划约会之夜。在每种情况下,用户最终都得到一个解决实际问题的工具,而不仅仅是一张图片或视频被划过。因此,Macaron 的定位不是一个娱乐平台,而是一个创作平台——一个对话触发代码合成的沙盒,软件根据你的生活量身定制。这种定位使 Macaron 成为可持续 AI 生态系统的更佳选择。

技术基础:为何 Macaron 能实现

  1. 自然语言到程序的流程管道

在 Macaron 的核心,是一个自主代码合成管道。当用户描述一个应用时,Macaron 首先解析请求以识别领域(健康、金融、教育)、功能(图表、提醒、语言翻译)、约束(货币、语言、时间范围)和时间线[17]。解析器使用融合当前对话和长期记忆的双编码器架构,并通过强化学习进行微调。结构化后,发动机从一个特定领域模块的库中组合函数——预算计算、日历集成、间隔重复算法、营养分析——并使用模板图和约束求解器将它们拼接成一个连贯的程序[18]。对于日本和韩国用户,代码生成器会自动执行当地数据隐私法:敏感的金融数据保持本地化,插入加密调用,并默认禁用网络访问[19]。这种结合神经程序合成与符号推理及监管约束的混合方法,实现了安全、可靠的应用生成。

  • 安全执行和自动修复

执行任意生成的代码并非易事。Macaron 在沙盒中运行每个小应用程序,限制文件系统访问、CPU 和内存使用,并阻止网络连接,除非明确允许[20]。在运行之前,静态分析和类型检查会捕获注入攻击、无限循环和数据类型不匹配[21]。在执行过程中,运行时监控器会跟踪资源使用和功能正确性;如果出现问题,Macaron 的自动修复模块会回滚到稳定状态或即时修补代码[22]。这种基础设施确保小应用程序可以复杂但安全,让用户可以放心地进行实验,而无需担心设备崩溃或数据泄露。

  • 内存引擎和长期个性化

Macaron 的「记忆引擎」可以说是其最具差异化的功能。代理将记忆组织为短期、情景和长期存储[23]。一个压缩的 transformer 通过自动编码和强化学习学习总结过去的对话为固定长度的向量[24]。检索使用带有产品量化的近似最近邻搜索,以实现低于 50 毫秒的延迟[25]。查询通过上下文和预测的用户目标扩展:例如询问东京的烟花节会触发检索有关门票、日期和天气的记忆[26]。跨领域的门控机制学习将检索概率分配到特定领域的索引中,从而实现跨语言和跨领域的推荐[27]。强化学习训练的门控策略决定哪些记忆要存储、合并或忘记,基于任务完成、用户满意度、隐私和计算成本[28]。通过这种机制,Macaron 不仅能记住重要的事情,还能根据文化习惯调整其行为——日本用户偏好简约和隐私,而韩国用户则欣赏定制化和主动建议[29]

  • 强化学习助力持续改进

与基于提示的助手不同,Macaron 的行为通过强化学习不断调整。每个 mini-app 会话都会根据错误率、用户满意度和文化适宜性产生奖励信号[30]。课程学习使系统能够逐步处理更复杂的编程任务[31]。时间信用分配将结果与对话中较早做出的决策联系起来,使代理能够将信用或责任归于特定的记忆检索或模块选择[32]。分层强化学习通过将高层控制器(选择使用哪个模块)与低层策略(组合模板、检索记忆)分离来管理复杂性[33]。这些技术共同确保 Macaron 随着更多用户构建 mini-app 而不断改进,这是一种类似于传统社交平台中网络效应的正反馈循环。

超越视频:Mini‑App 的广度

Macaron 可以创建哪些类型的小应用?Playbook 提供了数十个示例。日常生活中,有像 Recipe Finder Pro 这样的工具,可以扫描食材并建议菜肴,还有 Calorie CounterHoliday Gift GuidePlant Care Guide[34]。对于家庭,Macaron 提供 Cat Food MatcherLunar New Year Shopping ListBaby Food JourneyFamily Protection Plan 等更多选择[35]。面向成长的应用包括 Campus Romance GuideGreenWave Energy(清洁能源见解)、Social Chat CoachCollege Major InsightsTask ChampionDate Night Planner[36]。爱好类应用从 Your Perfect Book FinderEsports Trivia ChallengeSnake Champion 小游戏和 Tokyo Travel Guide[37]。每个应用程序可以在对话中进一步定制;例如,Recipe Finder 可以根据饮食限制或当地市场供应进行调整[38]

这种多样性突显了为什么 Macaron 将 AI 视频视为市场的一小部分。该平台不仅限于娱乐,还涵盖 健康、金融、教育、旅行、关系、爱好和实用工具等领域,在这些领域 AI 能够提供实实在在的价值。下图对比了 Macaron 小应用与假设的 AI 视频平台的领域覆盖情况。图中显示,Macaron 的应用(蓝色条)在健康、金融和实用工具等领域的覆盖率很高,而 AI 视频服务(橙色条)主要面向娱乐[38]

图 1:Macaron 小应用与 AI 视频平台的领域覆盖对比。Macaron 的工具跨越多个领域(健康、金融、教育、旅行、娱乐、实用工具),而 AI 视频平台主要服务于娱乐领域。 视频数据为概念性,仅供说明用。

通过强调小程序,Macaron 不仅提供更广泛的实用性,还创建了消费者生态系统的骨架。每个小程序都可以与其他程序互相交互:日程规划器可以调用财务模块检查预算限制;旅行指南可以调用翻译工具;健身应用可以与饮食计划同步。这种可组合性鼓励了重用和协同。相比之下,Sora 的视频大多是独立消费的,无法通过组合产生新的功能。

复刻与社区的力量

Macaron 愿景中的一个重要组成部分是「分叉」——这一概念借鉴自开源软件开发,即复制一个项目并独立发展。在小应用的背景下,分叉意味着拿现有的小应用,分享其规格和代码,并根据自己的需求进行定制。例如,一个用户的「食谱搜索器」可能通过替换食材选择和添加蛋白质追踪器,分叉成「素食餐天才」。另一个用户的「任务冠军」可以分叉成与物联网设备集成的「家务安排器」。由于 Macaron 的代码合成管道生成的代码是可读且模块化的,这些分叉可以通过对话(「把计时器改短,加个清单,与我的智能咖啡机集成」)或图形界面进行编辑。因此,分叉实现了「草根创新」:每个新应用都是无数衍生品的种子。

这种动态创造了一种类似于开源社区的网络效应。创建的迷你应用越多,模块和模板库的规模就越大,从而加快新应用的合成速度。每个分支都贡献了改进——修复漏洞、新功能、本地化内容——这些改进会回馈到生态系统中。下图概念性地展示了这种效应。蓝线代表一年内原始分支的数量;橙线显示了从这些分支中产生的衍生迷你应用。随着时间的推移,衍生创作呈现出超线性增长,展示了分支如何加速创新。

*图2:**分支网络效应的概念表现。*用户分支现有迷你应用并创建衍生版本,应用总数呈现超线性增长,展示了社区参与如何加速创新。

分叉也促进了个性化和文化相关性。一位日本用户可能会分叉一个英文预算小应用,以支持日元货币、本地税收规则和简约界面。一位韩国用户可能会分叉一个通用旅行计划应用,以包含本地推荐、敬语和假期安排。由于 Macaron 的记忆引擎和代码合成管道结合了跨语言编码器[39][40],这些本地化无需重写整个应用程序即可实现。因此,分叉民主化了软件创建:个人和社区可以根据自己的情况调整工具,而不是依赖于一个集中的团队。

社区作为消费者生态系统的最终形态

每一代消费技术都以消费开始——电视、广播、YouTube——并成熟为创造和参与。在上一时代,TikTok 通过简化视频创作赢得了人们的喜爱。在 AI 时代,Macaron 相信,赢得胜利的平台将是那个能够实现大众参与构建工具的平台,而不仅仅是内容。几个因素支持这一论点:

  1. 自主性胜过新奇感:第一次看到照片级真实感的 AI 视频时,你会感到惊讶。到第十次时,你可能会感到无聊。然而,构建一个帮助你安排日程、规划膳食或学习新语言的工具则能持续提供价值。作为创造者的拥有感——这是我创建的——可以增强用户的依赖性和习惯养成。
  2. 长尾多样性:单一的生成模型只能产生它被训练过的内容。相比之下,用户生成的小应用程序可以涵盖无限的小众领域:如农历婚礼规划师、泡菜发酵追踪器、卡拉OK评分游戏。这种多样性对于可持续生态系统至关重要。
  3. 通过重用和分叉实现网络效应:如上所述,每个小应用程序都可以成为其他应用的构建模块。库越大,构建新工具就越容易,每个用户获得的价值也越大。
  4. 与现实世界的整合:Macaron 的小应用程序可以调用 API、集成传感器并执行操作。它们可以预订航班、发送礼物、调节恒温器或分析银行对账单。而 Sora 的视频则无法做到。在数字与实体融合的世界中,整合能力将决定成功。
  5. 隐私和个性化:Macaron 在法规要求时会本地存储数据,并给予用户对记忆的控制[15]。它不要求身份验证,也不会作为社交信息流的一部分收集行为信号[16]。随着 AI 变得更加个性化,信任将变得至关重要。

远见情境:在可分叉的世界里的一天!

为了展示 Macaron 的愿景,想象一下 2030 年,当个人 AI 生态系统已经成熟。你醒来时,Macaron 根据你的睡眠质量(来自你的可穿戴设备)和工作日程调整了你的晨间例行小应用。它建议你进行 15 分钟的冥想,因为它检测到你今天会很忙。在早餐时,你查看了你的财务小应用。这个应用最初是由别人创建的,你通过分叉添加了日元转换和可视化支出地图等功能。应用注意到你上个月在使用食谱查找器后,杂货支出减少了,建议将节省下来的费用捐赠给当地食品银行,并通过你的银行 API 处理交易。

午餐时,你和同事们集思广益地策划一个副项目。你打开 Macaron,描述了一个游戏化的语言学习工具。几分钟内,Macaron 利用一个间隔重复小应用和一个测验生成器的模块综合出了一个原型。你分叉它以添加对韩语敬语的支持,并与远在世界另一端的朋友分享。他再次分叉它以纳入越南语词汇。一个月后,数百人对其进行了增强。这种快速迭代之所以可能,是因为代码是模块化的、安全可运行的,并可以通过对话进行改进。

在晚上,你打开你的旅行小程序来计划一个周末旅行。这个应用最初由东京的某人创建,但经过多次分叉以适应不同地区。它会自动检查你的日程表,建议避开台风季地区的路线,并预订住宿。当它推荐餐厅时,会交叉参考你记忆中存储的过敏和饮食限制信息,完全无需手动输入。当你最终确定计划时,Macaron会悄悄更新其记忆引擎,并可能提议将你的行程分享为模板。这种不断的创造 → 分享 → 分叉 → 个性化循环使软件开发成为一种社区化和动态的活动。

拥抱浪潮:Macaron的路线图

Macaron的领导层理解技术是随着浪潮而发展的。他们并没有忽视Sora;他们认识到高保真视频生成将很快普及,并将在合适的地方将视频模块集成到Macaron的小程序中。但他们认为仅靠视频是不够的。团队正在三个领域进行大量投资:

  1. 扩展模块库:Macaron 正在不断添加特定领域的模块(如烹饪、金融、教育、家庭自动化),以加速代码合成。每个新模块都可以在应用中重复使用,增加未来创作的丰富性。
  2. 降低入门门槛:Macaron 旨在让分叉和编辑小应用像编辑文档一样简单。图形编辑器和引导对话将使非技术用户能够调整逻辑、数据流和 UI 元素。文档、教程和社区展示将激励新手成为创作者。
  3. 培育社区市场:长期愿景是创建一个市场,用户可以在其中发布、评分并协作改进小应用。类似于 GitHub,但围绕日常生活展开,市场将设有排行榜、趋势工具和类别。声誉系统会奖励高质量创作者,隐私控制确保敏感数据绝不离开本地设备。

通过保持灵活性并倾听用户反馈,Macaron 可以适应新的 AI 技术浪潮。如果像 Sora 这样的多模态模型变得廉价且普及,Macaron 将把它们作为模块进行整合:您的旅行计划器可能会自动生成旅行的精彩视频;您的健身小应用可能会创建激励视频。但核心仍然是用户赋能。Macaron 设想 AI 不是内容工厂,而是一个共同设计者,将您的创意变为现实。

比较增长:小应用生态系统与 AI 视频平台

为了形象化说明为什么 Macaron 认为小应用生态系统将超过 AI 视频平台,我们考察了这两种方法的相对增长轨迹。下图展示了未来十年用户创建的小应用(包括分叉)与 AI 生成视频的概念性增长。假设小应用的增长受益于网络效应、模块重用和较低的计算成本,而视频增长则受到计算、审核和集中化的限制。

图 3:未来十年用户创建的小应用(蓝色)与 AI 生成视频(橙色)的增长概念预测。小应用受益于网络效应和分叉,带来更快的增长和更广泛的影响。

迷你应用程序的曲线在达到模块和分支的临界质量后急剧加速,这代表了每个创作如何孕育许多衍生品。AI 视频曲线增长较慢,反映了新奇效应和高计算成本。虽然这个图表是推测性的,但它抓住了 Macaron 理论背后的直觉:一个参与性生态系统将比集中式内容生成器更快速、更可持续地扩展。

结论 – 未来属于创作者

Sora 展示了生成模型的惊人进步。其从文字生成逼真视频的能力预示着一个媒体创作民主化的世界。然而,目前的技术形式更适合于壮观场面,而非构建组织我们生活的日常工具。Macaron 相信,一个真正的 AI 消费者生态系统必须赋予用户创造程序的能力,而不仅仅是消费内容。通过将对话转化为代码、保持深度记忆、通过沙箱和静态分析确保安全,以及通过强化学习实现持续改进,Macaron 为这个生态系统奠定了基础。分叉——共享和发展迷你应用程序的概念,引入了一种社区驱动的动态,这种动态在个人助理领域复制了开源软件的成功。

随着AI浪潮的兴起,Macaron主张冲浪,而不是追逐每一个闪亮的浪尖。视频生成技术会继续提升,但真正的革命将是悄然进行的:数百万人利用AI构建小工具,解决他们独特的问题,然后与他人分享这些工具,后者再进行适应。在这个世界里,AI生态系统的「最终形态」不是片段的流,而是一个「互联小应用的网络」,每一个都是人类创造力被人工智能放大的证明。Macaron邀请我们加入这场运动——不仅仅是观看未来的展开,而是一起构建未来。

[1] Sora | OpenAI

https://openai.com/index/sora/

[2] [3] [4] [16] OpenAI's TikTok for AI content and ChatGPT Pulse: Where Macaron Stands? - Macaron

https://macaron.im/openai-tiktok-chatgpt-pulse

[5] 视频生成模型作为世界模拟器 | OpenAI

https://openai.com/index/video-generation-models-as-world-simulators

[6] [7] [8] [9] 了解 OpenAI Sora:特性、用途和限制

https://digitalguider.com/blog/openai-sora

[10] [14] [15] Macaron AI - 个人代理 AI 平台

https://macaronai.org

[11] [13] [17] [18] [19] [20] [21] [22] [29] [30] [31] [40] Macaron AI 中的自主代码合成:安全构建亚洲生活方式的小型应用 - Macaron

https://macaron.im/autonomous-code-synthesis

[12] [23] [24] [25] [26] [27] [28] [32] [33] [39] 揭秘 Macaron 的记忆引擎:压缩、检索与动态门控 - Macaron

https://macaron.im/memory-engine

[34] [38] Recipe Finder Pro — 将厨房基础变成晚餐魔法 | Macaron - Macaron

https://macaron.im/playbook/recipe-finder-pro-689582141bbc6bcd9f805611

[35] [36] [37] Playbook — AI Hacks for Daily Life, Family, Growth & Hobbies | Macaron - Macaron

https://macaron.im/playbook

Boxu 在埃默里大学获得了定量经济学专业的学士学位。在加入 Macaron 之前,Boxu 的职业生涯大部分时间都在美国的私募股权和风险投资领域度过。他现在是 Macaron AI 的首席参谋和市场营销副总裁,负责管理财务、物流和运营,并监督市场营销。

申请成为 Macaron 的首批朋友