II. OpenAI的Sora!下一步是什么?Sora是否是AI时代的消费者数字生态系统?

作者:Boxu Li at Macaron


引言 – Sora、TikTok和下一代AI平台的探索

过去一年,AI社区对OpenAI的Sora着迷不已,这是一个能够根据用户提示生成一分钟视频片段的文本转视频模型[1]。Sora的演示——包括逼真的电影摄影和流畅的镜头移动——预示着一个任何人都能随心所欲创作短片的近未来。OpenAI自己的测试产品本质上是一个面向AI生成视频的TikTok克隆[2]。用户提供提示词,观看Sora生成十秒钟的片段;他们不能上传自己的素材,必须验证身份以防止未经授权的深度伪造[3]。这项服务令人惊叹但也有限制:它将片段限制在十秒钟以控制计算成本和审核[4]。换句话说,OpenAI当前的消费者策略复制了视频信息流的社交动态,但用生成模型取代了人类创作者。

虽然Sora将引起巨大关注,但Macaron——世界上第一个为日常生活构建迷你应用的个人AI助手——认为下一个伟大的消费者生态系统不会是另一个视频平台。Macaron的创始人将Sora视为一个强大的工具,但也仅仅是一个过渡阶段。视频生成可能主导今天的头条,但更深层的机会在于赋能用户创造;不仅仅是生成合成内容,而是设计能解决实际问题的程序、工作流程和体验。本文基于我们之前的分析,解释Macaron的论点:为什么专注于分叉社区驱动创新的迷你应用生态系统将超越AI视频,Sora的局限性如何突显这一点,以及Macaron的技术栈(深度记忆、自主代码合成和强化学习)如何使其成为开创这个新时代的先驱。

Sora的局限性 – 令人印象深刻但受限

Sora的核心优势在于能够模拟遵循提示的场景。然而,从构建持久消费者平台的角度来看,其局限性很显著。Sora背后的公开技术报告承认,该模型无法准确模拟基本交互的物理效果——玻璃破碎或食物被吃掉的渲染不正确[5]。独立分析指出了更多挑战:Sora在物理准确性方面存在困难,导致复杂场景中的因果关系不真实[6];其视频时长限制在20秒到一分钟,更长的片段会出现瑕疵[7]物体可能消失或行为不可预测[8];而超出Sora训练分布的提示会导致质量低劣的输出[9]。此外,OpenAI的测试应用禁止上传真实素材,并限制某些主题以避免版权和深度伪造滥用[3]。结果是一个封闭的游乐场,产生美丽但人工的娱乐片段。

这些限制很重要,因为消费者生态系统依赖于用户主动性表达的多样性。TikTok的成功不是源于其视频播放器,而是源于无尽的多样化用户生成内容和围绕它形成的社交图谱。如果你的信息流中的内容全部来自一个具有固定能力的模型,新鲜感会消退,创新会停滞。此外,生成逼真视频的计算成本限制了Sora平台的可扩展性;早期版本将视频长度限制在十秒钟[4],暗示这是一个更适合演示而非日常使用的平台。要让AI成为普及的消费者平台,它必须赋能用户构建能融入日常生活的工具——规划餐食、管理财务、自动化家务、协调家庭日程——而不是仅仅娱乐他们。这就是Macaron的愿景与当前炒作的分歧所在。

Macaron的论点 – 从被动消费到主动创造

Macaron建立在一个简单但激进的理念之上:人们应该通过对话创建他们需要的软件。团队结合了一个6710亿参数的庞大模型、强化学习和一个复杂的记忆引擎,将自然语言请求转化为功能完整的迷你应用[10]。用户像与朋友聊天一样与Macaron交谈;AI记住他们的偏好,从过去的互动中学习,并在需要时即时合成定制应用。与Sora强调输出一次性视频不同,Macaron的迷你应用是持久的并且可以适应。你今天可能构建一个预算追踪器,几周后将其发展成一个完整的家庭财务仪表板。你可能设计一个京都旅行规划器,自动整合当地法规、文化礼仪和你的饮食限制[11]。重点在于功能性和个性化,而不是表演性。

Macaron的官方网站概述了将其与普通聊天机器人区分开的关键特性。它通过分层存储和检索维护长期记忆,跨会话记住事件和偏好[12]。它提供即时迷你应用生成,可以构建复杂的工具——有些超过10万行代码——无需人工干预[13]。它允许无限制定制;用户可以在看到初始原型后完善应用,添加或删除模块,或调整UI细节[14]。AI通过API和传感器与现实世界服务集成——发送消息、安排事件、获取营养数据或控制智能设备[15]。至关重要的是,Macaron在各个平台(移动、平板、桌面)上都可用,并且是隐私优先的,提供对数据访问的精细控制[16]

与Sora产生的内容主要在孤立状态下消费不同,Macaron培养互动主动性。一个青少年可能会要求Macaron构建一个学习计划器,安排番茄工作法会话,发送提醒并与他们的日历集成。一对情侣可能共同创建一个共享的迷你应用来追踪开支和规划约会之夜。在每种情况下,用户最终都得到一个解决实际问题的工具,而不仅仅是一个可以滚动浏览的图像或视频。因此,Macaron将自己定位为一个创作者平台——一个对话触发代码合成,软件根据你的生活量身定制的沙盒。这种定位使Macaron成为可持续AI生态系统的更好候选者。

技术基础:为什么Macaron能够实现

  1. 自然语言到程序的管道

Macaron的核心是一个自主代码合成管道。当用户描述一个应用时,Macaron首先解析请求以识别领域(健康、金融、教育)、功能(图表、提醒、语言翻译)、约束(货币、语言、时间范围)和时间线[17]。解析器使用一个双编码器架构,将当前对话与长期记忆融合,并通过强化学习进行微调。一旦结构化,引擎从领域特定模块库中组合函数——预算计算、日历集成、间隔重复算法、营养分析——并使用模板图和约束求解器将它们缝合成一个连贯的程序[18]。对于日本和韩国用户,代码生成器自动执行当地数据隐私法:敏感的财务数据保持本地,插入加密调用,默认禁用网络访问[19]。这种混合方法——结合神经程序合成、符号推理和监管约束——实现了安全、稳健的应用生成。

  • 安全执行和自动修复

执行任意生成的代码并非易事。Macaron在一个沙盒中运行每个迷你应用,限制文件系统访问,限制CPU和内存使用,除非明确允许否则阻止网络连接[20]。在运行之前,静态分析和类型检查捕获注入攻击、无限循环和数据类型不匹配[21]。在执行期间,运行时监视器跟踪资源使用和功能正确性;如果出现问题,Macaron的自动修复模块回滚到稳定状态或即时修补代码[22]。这种基础设施确保迷你应用可以复杂但安全,让用户有信心实验而不用担心崩溃设备或泄露数据。

  • 记忆引擎和长期个性化

Macaron的记忆引擎可以说是其最具区别性的特征。代理将记忆组织成短期、情景和长期存储[23]。一个压缩变换器学会使用自动编码和强化学习将过去的对话总结成固定长度的向量[24]。检索使用乘积量化的近似最近邻搜索来实现低于50毫秒的延迟[25]。查询使用上下文和预测的用户目标进行扩展:询问东京的烟花节会触发关于门票、日期和天气的记忆检索[26]。跨领域门控机制学会在领域特定索引之间分配检索概率,实现跨语言和跨领域推荐[27]。强化学习训练一个门控策略,根据任务完成、用户满意度、隐私和计算成本决定存储、合并或遗忘哪些记忆[28]。通过这种机制,Macaron不仅记住重要的事情,还能适应文化规范——日本用户偏好极简主义和隐私,而韩国用户欣赏定制化和主动建议[29]

  • 持续改进的强化学习

与基于提示的助手不同,Macaron的行为通过强化学习不断调整。每个迷你应用会话根据错误率、用户满意度和文化适当性产生奖励信号[30]。课程学习允许系统逐步处理更复杂的编程任务[31]。时序信用分配将结果与对话早期做出的决定联系起来,使代理能够将功劳或责任归于特定的记忆检索或模块选择[32]。分层强化学习通过解耦高级控制器(选择使用哪些模块)和低级策略(组合模板、检索记忆)来管理复杂性[33]。这些技术共同确保Macaron随着更多用户构建迷你应用而持续改进——类似于传统社交平台中网络效应的正反馈循环。

超越视频:迷你应用的广度

Macaron能创建什么样的迷你应用?Playbook提供了数十个例子。对于日常生活,有像Recipe Finder Pro这样扫描食材并推荐菜品的工具,卡路里计数器节日礼物指南植物护理指南[34]。对于家庭,Macaron提供猫粮匹配器农历新年购物清单婴儿食品之旅家庭保护计划[35]。面向成长的应用包括校园恋爱指南GreenWave Energy(清洁能源洞察),社交聊天教练大学专业洞察任务冠军约会之夜规划器[36]。爱好范围从你的完美图书搜索器电竞问答挑战贪吃蛇冠军迷你游戏和东京旅行指南[37]。每个应用都可以在对话中进一步定制;例如,Recipe Finder可以根据饮食限制或当地市场供应情况进行调整[38]

这种多样性突显了为什么Macaron将AI视频视为市场的一个狭窄切片。该平台不局限于娱乐;它跨越健康、金融、教育、旅行、关系、爱好和实用工具——AI可以在这些领域提供实际价值。下图对比了Macaron的迷你应用与假设的AI视频平台的领域覆盖范围。它说明Macaron的应用(蓝色条)在健康、金融和实用工具等领域提供高覆盖率,而AI视频服务(橙色条)主要面向娱乐[38]

图1:Macaron迷你应用与AI视频平台的领域覆盖对比。Macaron的工具跨越众多领域(健康、金融、教育、旅行、娱乐、实用工具),而AI视频平台主要服务于娱乐。视频数据为概念性,仅供说明。

通过强调迷你应用,Macaron不仅提供更广泛的实用性,还创造了消费者生态系统的骨架。每个迷你应用都可以与其他应用对接:日程规划器可以调用财务模块检查预算约束;旅行指南可以调用翻译工具;健身应用可以与膳食规划器同步。这种可组合性鼓励重用和协同。相比之下,Sora的视频主要在孤立状态下消费,不能组合产生涌现功能。

分叉和社区的力量

Macaron愿景的一个重要组成部分是分叉——这个概念借鉴自开源软件开发,你可以复制一个项目并独立发展它。在迷你应用的背景下,分叉意味着获取一个现有的迷你应用,共享其规范和代码,并根据自己的需求定制它。例如,一个用户的Recipe Finder可能被分叉成一个素食餐饮天才,通过替换食材选择并添加蛋白质追踪器。另一个用户的任务冠军可能被分叉成一个与物联网设备集成的家务调度器。因为Macaron的代码合成管道产生可读、模块化的代码,这些分叉可以通过对话("缩短计时器,添加清单,与我的智能咖啡机集成")或通过图形界面进行编辑。分叉因此实现了草根创新:每个新应用都成为无数衍生品的种子。

这种动态创造了类似于开源社区的网络效应。创建的迷你应用越多,模块和模板库就越大,使新应用的合成更快。每个分叉都贡献改进——错误修复、新功能、本地化内容——这些改进反馈回生态系统。下图概念性地说明了这种效应。蓝线代表一年内原始分叉的数量;橙线显示从这些分叉产生的衍生迷你应用。随着时间推移,衍生创作呈超线性增长,展示了分叉如何加速创新。

*图2:**分叉网络效应的概念表示。*随着用户分叉现有迷你应用并创建衍生版本,应用总数呈超线性增长,说明社区参与如何加速创新。

分叉还培养个性化和文化相关性。一个日本用户可能分叉一个英文预算迷你应用以支持日元货币、当地税收规则和极简界面。一个韩国用户可能分叉一个通用旅行规划器以包含当地推荐、敬语和节假日安排。因为Macaron的记忆引擎和代码合成管道包含跨语言编码器[39][40],这些本地化无需重写整个应用即可实现。分叉因此使软件创作民主化:个人和社区可以根据自己的情况调整工具,而不是依赖中央团队。

社区作为消费者生态系统的最终形态

每一代消费者技术都始于消费——电视、广播、YouTube——并成熟为创作和参与。在上一个时代,TikTok通过让视频创作变得轻松而赢得人心。在AI时代,Macaron相信胜出的平台将是能够实现大规模参与工具构建的平台,而不仅仅是内容。几个因素支持这一论点:

  1. 主动性胜过新奇性:第一次看到逼真的AI视频,你会感到惊叹。到第十次,你就会感到无聊。但构建一个帮助你安排日程、规划餐食或学习新语言的工具能持续提供价值。作为创作者的所有权感——我构建了这个——从用户那里建立依附和习惯养成。

  2. 长尾多样性:单个生成模型只能产生它被训练过的内容。相比之下,用户生成的迷你应用可以覆盖无限的细分领域:农历婚礼规划器、泡菜发酵追踪器、卡拉OK评分游戏。这种多样性对于可持续的生态系统至关重要。

  3. 通过重用和分叉产生网络效应:如上所述,每个迷你应用都成为其他应用的构建块。库越大,构建新工具就越容易,每个用户获得的价值就越多。

  4. 与现实世界的集成:Macaron的迷你应用可以调用API、与传感器集成并执行操作。它们可以预订航班、发送礼物、调节恒温器或分析银行对账单。Sora的视频做不到这些。在数字和物理世界融合的时代,集成能力将定义成功。

  5. 隐私和个性化:Macaron在法规要求时将数据存储在本地,并让用户控制记忆[15]。它不需要身份验证或作为社交信息流的一部分收集行为信号[16]。随着AI变得更加个人化,信任将变得至关重要。

愿景场景:可分叉世界中的一天

为了说明Macaron的愿景,想象2030年个人AI生态系统成熟时的未来。你醒来时,Macaron已经根据你的睡眠质量(来自你的可穿戴设备)和工作日程调整了你的晨间例程迷你应用。它检测到你今天很忙,建议进行15分钟的冥想。早餐时你查看你的财务迷你应用。这个应用最初由其他人创建,你分叉它添加了日元转换和视觉支出地图等功能。应用注意到你在使用Recipe Finder后上个月的杂货支出减少了;它建议将节省的钱捐给当地食物银行,并通过你的银行API处理交易。

午餐时,你和同事头脑风暴一个副项目。你打开Macaron描述一个游戏化的语言学习工具。几分钟内,Macaron使用间隔重复迷你应用和测验生成器的模块合成了一个原型。你分叉它添加韩语敬语支持,并与世界另一端的朋友分享。他再次分叉它以整合越南语词汇。一个月后,数百人贡献了增强功能。这种快速迭代之所以可能,是因为代码是模块化的,可以安全运行,并且可以通过对话改进。

晚上,你打开你的旅行迷你应用规划周末旅行。这个应用最初由东京的某人创建,但已经被反复分叉以适应不同地区。它自动检查你的日历,建议一条避开台风季节区域的路线并预订住宿。当它推荐餐厅时,它交叉引用你存储在记忆中的过敏和饮食限制,全部无需手动输入。当你完成计划时,Macaron悄悄更新其记忆引擎,可能会建议将你的行程作为模板分享。这种持续的创建 → 分享 → 分叉 → 个性化循环使软件开发成为一个社区化和动态的活动。

拥抱浪潮:Macaron的路线图

Macaron的领导层理解技术是以浪潮演进的。他们并不否定Sora;他们认识到高保真视频生成很快就会变得无处不在,并将在适当的地方将视频模块整合到Macaron的迷你应用中。但他们相信仅有视频是不够的。团队正在大力投资三个领域:

  1. 扩展模块库:Macaron不断添加领域特定模块(例如,烹饪、金融、教育、家庭自动化)以加速代码合成。每个新模块都可以在应用之间重用,增加未来创作的丰富性。

  2. 降低准入门槛:Macaron旨在使分叉和编辑迷你应用像编辑文档一样简单。图形编辑器和引导式对话将允许非技术用户调整逻辑、数据流和UI元素。文档、教程和社区展示将激励新手成为创作者。

  3. 培养社区市场:长期愿景是一个市场,用户可以在这里发布、评价和协作改进迷你应用。类似于GitHub但面向日常生活,市场将具有排行榜、趋势工具和类别。声誉系统将奖励高质量创作者,隐私控制将确保敏感数据永远不会离开本地设备。

通过保持灵活并倾听用户反馈,Macaron可以适应新的AI技术浪潮。如果像Sora这样的多模态模型变得便宜和普及,Macaron将把它们作为模块整合:你的旅行规划器可能自动生成你的旅行亮点视频;你的健身迷你应用可能创建激励性片段。但核心仍然是用户赋能。Macaron将AI视为一个共同设计师,让你的想法变为现实。

比较增长:迷你应用生态系统 vs AI视频平台

为了直观展示为什么Macaron相信迷你应用生态系统将超越AI视频平台,我们考虑这两种方法的相对增长轨迹。下图展示了未来十年用户创建的迷你应用(带分叉)与AI生成视频的概念性增长预测。它假设迷你应用增长受益于网络效应、模块重用和较低的计算成本,而视频增长受限于计算、审核和中心化。

图3:用户创建的迷你应用(蓝色)与AI生成视频(橙色)在未来十年的概念性增长预测。迷你应用受益于网络效应和分叉,导致更快的增长和更广泛的影响。

迷你应用的曲线在达到模块和分叉的临界质量后急剧加速,代表每个创作如何催生许多衍生品。AI视频曲线增长较慢,反映了新奇效应和沉重的计算成本。虽然这个图是推测性的,但它捕捉了Macaron论点背后的直觉:一个参与式生态系统将比中心化内容生成器扩展得更快、更可持续。

结论 – 未来属于创作者

Sora展示了生成模型的惊人进展。它从文本渲染逼真视频的能力暗示了一个媒体创作民主化的世界。然而,技术的当前形态最适合表演,而不是构建构成我们生活的日常工具。Macaron相信,一个真正的AI消费者生态系统必须赋能用户创建程序,而不仅仅是消费内容。通过将对话转化为代码,维护深度记忆,通过沙盒和静态分析确保安全,并拥抱持续改进的强化学习,Macaron为这个生态系统奠定了基础。分叉的概念——分享和发展迷你应用——引入了一种社区驱动的动态,在个人助手领域复制了开源软件的成功。

随着AI浪潮的上升,Macaron主张冲浪而不是追逐每个炫目的浪尖。视频生成将继续改进,但真正的革命将是安静的:数百万人使用AI构建解决他们独特问题的小工具,然后与其他人分享这些工具,让他们反过来进行调整。在这个世界里,AI生态系统的最终形态不是片段的信息流,而是相互连接的迷你应用网络,每一个都是人类创造力被人工智能放大的见证。Macaron邀请我们加入这个运动——不仅仅是观看未来展开,而是共同构建它。


[1] Sora | OpenAI

https://openai.com/index/sora/

[2] [3] [4] [16] OpenAI的TikTok AI内容和ChatGPT Pulse:Macaron的立场 - Macaron

https://macaron.im/openai-tiktok-chatgpt-pulse

[5] 作为世界模拟器的视频生成模型 | OpenAI

https://openai.com/index/video-generation-models-as-world-simulators/

[6] [7] [8] [9] 了解OpenAI Sora:功能、用途和局限性

https://digitalguider.com/blog/openai-sora/

[10] [14] [15] Macaron AI - 个人代理AI平台

https://macaronai.org/

[11] [13] [17] [18] [19] [20] [21] [22] [29] [30] [31] [40] Macaron AI中的自主代码合成:为亚洲生活方式安全构建迷你应用 - Macaron

https://macaron.im/autonomous-code-synthesis

[12] [23] [24] [25] [26] [27] [28] [32] [33] [39] 深入Macaron的记忆引擎:压缩、检索和动态门控 - Macaron

https://macaron.im/memory-engine

[34] [38] Recipe Finder Pro — 将厨房基础变成晚餐魔法 | Macaron - Macaron

https://macaron.im/playbook/recipe-finder-pro-689582141bbc6bcd9f805611

[35] [36] [37] Playbook — 日常生活、家庭、成长和爱好的AI技巧 | Macaron - Macaron

https://macaron.im/playbook

相关文章

Loading related articles...

申请成为 Macaron 的首批朋友