I. Sora by Open AI：Macaron 分析与展望

介绍

当 OpenAI 在 2024 年 2 月推出 Sora 时，生成式 AI 社区为之沸腾。这是一个能将文本提示转化为具有动态镜头移动和一致物体的电影视频的模型。2025 年 9 月，随着 Sora 2 的发布，热潮加剧，该版本增加了真实的物理效果、同步音频以及一个社交应用，鼓励用户互相混剪彼此的片段。一夜之间，按需制作短片的想法不再像科幻，而更像是迫在眉睫的现实。昨天，OpenAI 推出了一个社交应用，旨在让用户在平台上分享自己生成的 AI 内容。

Macaron 欢迎这一进展，但我们的观点明确：Sora 不会是 AI 消费者生态系统的最终形态。在 ChatGPT 席卷互联网之前，TikTok 是互联网上最成功的消费者生态系统平台。AI 时代的下一波浪潮不会是另一个视频生成/内容分享平台。AI 将能够赋能用户做更多事情。视频生成固然重要，但一个繁荣的生态系统应当赋能用户去创造、协作并超越被动的观影体验。

在本文中，我们探索了 Sora 的能力，分析了它的反响，并讨论了为什么 Macaron 认为更丰富、更参与、更强大的平台将定义消费者 AI 生态系统。

Sora 的能力及当前的热情

新兴模拟和创造潜力

Sora 的基础扩散变压器架构被训练为将视频序列建模为连续的三维过程。在预训练期间，它学习了物体恒常性、3D 一致性和长程连贯性。当一个提示描述“一个人在画肖像”时，Sora 理解画笔的笔触在后续画面中应保持可见，并且画家不应在场景中瞬移。这种新兴的世界建模是对早期逐帧生成模型的重大进步。

在 Sora 1 中，用户可以生成 20 秒的 1080p 分辨率片段，通过故事板将多个场景拼接在一起，甚至可以将静态图像转换为动画视频。他们可以重混或扩展现有视频，应用风格预设（例如动漫、电影或复古风格）、循环特定片段以及结合不同提示中的元素。这些功能为营销团队、教育工作者和爱好者解锁了新的创造形式。

Sora 2 和向前的一大步

OpenAI 于 2025 年 9 月的更新推出了一款能够更真实模拟物理现象的模型。在 Sora 1 中，如果篮球运动员投篮未中，球可能会神奇地传送到篮筐中；而在 Sora 2 中，球会真实地从篮板上反弹。该模型可以处理复杂的动作，如奥运体操表演、桨板上后空翻以及头上顶着宠物的花样滑冰运动员进行三周跳。它还引入了同步的 对话和音效，创造身临其境的视听体验。多镜头指令允许用户在多个镜头中指定相机移动、场景转换和角色动作，同时保持世界状态一致。

另一个引人注目的功能是 客串演出。通过录制一段短视频和音频验证，用户可以将自己的形象或朋友的形象注入任何 Sora 生成的环境中。这意味着您可以在自己的科幻冒险中担任主角，或在幻想世界中成为一个角色。OpenAI 的 Sora 应用利用这一功能创建了一个新的社交网络，用户可以重新混合彼此的视频，并在一个优先于被动消费的创作导向的动态中分享。

社会反应：兴奋与担忧

主流媒体将 Sora 视为即将到来的革命。《Free Press Journal》称 Sora 2 为「游戏规则的改变者」，因为它能够模拟物理、整合音频并支持客串；该出版物预测，超逼真的 AI 视频可以「媲美专业制作工具」，降低内容创作者的门槛。在娱乐领域，有些人对消除昂贵的布景或外景拍摄表现出热情：电影制片人泰勒·佩里承认在看到 Sora 的潜力后，他暂停了价值 8 亿美元的工作室扩建计划，指出现在可以虚拟创建场景。

Sora 的局限性和悬而未决的问题

物理和控制

虽然 Sora 2 大大提高了现实感，但它仍然会犯错。OpenAI 自己的技术报告承认，该模型在处理复杂物理学时可能会遇到困难，有时会误解因果关系。独立评审员指出，水的表现可能不够逼真，或物体可能会不自然地融合在一起。由于计算限制，该模型也只限于短时段（几十秒）和 1080p 分辨率。专业电影制作人仍依赖非线性编辑器进行帧精确的编辑、精确的对口型和高质量的音频混合。

道德和法律问题

OpenAI 强调负责任的部署。每个 Sora 视频都包含可见的水印和用于溯源的 C2PA 元数据。出演需要用户同意，并可以被撤销，对于未成年人有更严格的保护措施，例如限制他们的内容曝光，并防止成人向他们发送消息。提示和输出会被过滤以阻止色情、恐怖主义或自残内容。然而，没有技术解决方案能完全防止滥用。深度伪造检测仍然是一场军备竞赛，训练模型中使用数据的版权管理尚未解决。

市场定位

Sora进入了一个拥挤的视频平台环境。TikTok，这个短视频应用在上一代用户生成内容中占据主导地位，围绕人类创造力和算法推荐构建了一个令人上瘾的内容流。相比之下，Sora则强调AI生成内容。用户一开始可能会对生成超现实场景或在自己的AI电影中出演感到兴奋，但这种新鲜感能否维持一个社交网络？《耶路撒冷邮报》指出，Sora作为一个新的社交应用在iOS上可用，其中每个帖子——即使是有真人参与的——都是AI生成的。问题在于观众是否会像对人类创作的视频那样，与AI创作的视频形成情感连接。

对真实性的感知

TikTok成功的一部分在于其真实性；普通用户分享真实而不完美的时刻。Sora则颠覆了这种方式，使得精致的小电影可以大规模制作。虽然这使电影制作变得更加民主化，但也可能导致一些评论家称之为“AI垃圾”的大量合成内容。没有明确的来源和背景，观众可能难以信任他们所看到的内容。这种信任缺失可能限制AI生成视频的文化影响，除非平台保持透明和道德标准。

Macaron的视角：超越视频，走向参与式生态系统

单一视频生态系统的不足

Macaron 钦佩 Sora 背后的工程设计，但我们认为仅仅围绕 AI 生成的视频来构建未来 AI 消费者生态系统是目光短浅的。创建内容只是让平台具有吸引力的部分因素，分享、协作和互动体验同样重要。Sora 强调消费预生成的剪辑和客串混剪，可能无法充分释放用户的创造力。如果我们只是从一个视频制作应用跳到另一个，我们可能会重复旧模式，而不是发明新模式。

历史上，消费者生态系统在提供开放式创作工具时蓬勃发展。TikTok 的成功并不是因为其技术具有突破性，而是因为它赋予用户制作简短、富有表现力的视频的能力，并通过二重唱进行协作并响应潮流。相比之下，早期生成静态图像的 AI 艺术平台未能形成持久的社区，因为用户对生成过程几乎没有控制权。要在 AI 时代超越 TikTok，一个平台必须提供不止是观看的功能；它应该让人们构建、玩耍、混搭和发明反映其想法的迷你应用和体验。

来自研究和行业分析的证据

最近的分析支持我们的观点，即下一波 AI 采用将优先考虑参与式共创而非被动消费。AlixPartners 的 2025 年媒体与娱乐预测报告认为，AI 将增强人类创造力而不是取代它，预计能够利用 AI 工具的创意人才将出现短缺。报告指出，成功采用 AI 需要将其整合到生产工作流程中，培训团队并尊重知识产权，而不是让 AI 完全自动化内容。同样，Skywork.ai 的一项分析解释说，视频编辑并不会消失，而是转向提示导演、AI 合规负责人和流水线整合员等角色。这些角色专注于协调 AI 能力，确保输出符合品牌和道德标准。

《自由新闻》指出，Sora 2 的客串和混音文化鼓励社交分享和协作。然而，它仍然强调视频消费。在 Sora 中没有构建游戏或互动故事的途径。在 Macaron，我们提议解锁「创作光谱」——从静态图像和视频到互动迷你应用和动态模拟。用户可以通过直观的界面和自然语言提示，将 LLM 用于对话、扩散模型用于视觉效果，以及强化学习用于游戏逻辑进行组合。

Sora 是垫脚石，而非终点

围绕 Sora 的热情表明，人们渴望以新的方式讲述故事。但随着 Sora 2 的推出，有关其局限性和对更深入互动需求的讨论随之而来。一些分析师甚至怀疑 AI 是否能「推翻 TikTok」。从 Macaron 的角度来看，这是个错误的问题。正确的问题是：AI 如何赋能用户做更多的事情而不仅仅是观看？真正的参与来自「参与」，这需要创造人们可以玩、探索和构建的体验的工具。

经验和信任的角色

Google 的 E‑E‑A‑T 指南（专业性、经验、权威性和可信性）同样适用于 AI 平台。建立在 AI 生成内容之上的社交生态系统必须展示证据（来源元数据）、经验（用户能够有意义地影响结果）、权威（明确的政策和道德保障）和信任（关于 AI 角色的透明度）。Sora 通过水印和元数据解决证据问题，而 Macaron 旨在通过邀请用户参与创作过程和保持严格的同意和内容审核在所有四个方面都表现出色。

将限制视为机遇：利用约束进行创新

技术瓶颈和模型改进

Sora 的短视频和分辨率限制源于模拟复杂物理和高保真视觉效果的计算成本。随着硬件的改进和新架构的出现，生成模型将产生更长、更清晰和更可控的内容。但仅仅提高能力并不能保证一个充满活力的生态系统。在数码摄影的早期阶段，更高的像素数被誉为突破；然而，赢得消费者青睐的智能手机是那些具有直观应用、滤镜和共享功能的手机，这些功能将照片变成了社交货币。同样，生成视频模型必须嵌入在能够通过协作和用户赋权来利用其能力的平台中。

以伦理约束为设计指南

保护未成年人、尊重肖像权和避免有害内容的需要不是一种负担，而是一个设计机会。通过让用户控制谁可以使用他们的肖像、设置他们的外观偏好（例如，总是戴帽子）并支持撤销，OpenAI为同意管理树立了榜样。Macaron计划将这一理念扩展到小型应用：创作者可以为他们的互动体验指定许可条款，选择是否允许他人改编他们的作品，并分享衍生创作的收入。

构建下一个消费生态系统：Macaron 的路线图

为创作者打造的平台

Macaron 正在设计一个AI 增强的创作者平台，具备以下功能：

从提示到产品的流水线： 用户可以描述一个想法，比如「一个教授世界地理的测验应用」或「一个玩家探索水下城市的简单 RPG 游戏」，平台将生成一个功能原型。然后，用户可以调整参数、添加内容或选择美学风格。
协作编辑： 多个用户可以共同编辑一个迷你应用，通过自然语言提出更改并查看实时更新。协作可能包括头脑风暴会议、AI 辅助代码重构和版本控制。
社区市场： 创作者可以发布他们的应用，设置使用权限和定价（如果有的话），并允许他人重新混合或扩展他们的作品。信誉系统鼓励高质量的贡献以及安全、道德的行为。
集成审核： 就像 Sora 过滤有害的视频提示一样，Macaron 平台将使用多层安全系统来防止滥用内容、保护未成年人并尊重知识产权。
学习和支持： 内置教程、AI 导师和社区论坛将帮助用户学习提示工程、UI 设计和伦理考量。

这个路线图将消费者生态系统从一个视频流转变为一个创造引擎。用户不再只是浏览 AI 生成的片段，而是积极地构建、分享并与互动创作一起玩耍。每个迷你应用都成为对话的起点，邀请反馈、协作和迭代。

多模态平台的优势

一个结合了文本、图像、视频、音频、逻辑和互动的创作平台，能够提供比仅有视频应用更丰富的体验。例如：

故事讲述： 作家可以创作分支叙事，观众可以选择结果；艺术家可以为每个场景生成插图；音乐家可以创作 AI 辅助的配乐。
教育： 教师可以生成个性化的互动科学实验室或历史模拟，满足每个学生的需求。学生可以提问并探索假设情境。
娱乐： 游戏玩家可以在 AI 的协助下设计自定义关卡、角色和机制，并将其分享为可玩的小游戏。
商业： 小企业可以创建个性化购物体验或虚拟导览，品牌则可以制作品牌迷你应用而非静态广告。

数据和用户洞察

随着越来越多的用户创建和分享小型应用，Macaron 将深入了解用户真正想要什么。在 Sora 的早期阶段，我们从人们如何制作视频提示和协作出演中学习。有了小型应用，我们将看到哪些类型引起共鸣，哪些交互模式受欢迎，以及摩擦点在哪里。这些见解将指导模型改进和平台功能。Macaron 的战略是时刻准备着，迎接技术浪潮，随着生成模型的发展快速迭代。

Macaron 的愿景：

赋能用户

当用户掌控创作过程时，他们成为利益相关者而非消费者。他们学习新技能，表达独特想法，并围绕共同兴趣建立社区。Macaron 的平台旨在让复杂的 AI 能力对非技术用户可及，让他们利用自然语言设计复杂的体验。

经济机会

支持用户生成应用的平台历来创造了新的经济。Apple App Store催生了整个行业——从手机游戏到共享出行。Roblox托管了数百万个用户创建的游戏，开发者赚取了数百万美元。Macaron的市场同样可以支持提示工程师、AI设计师和微型企业家出售迷你应用或提供定制创建服务。

文化丰富性

AI生成的视频可能令人印象深刻，但它们往往缺乏人类创作内容的深度和独特性。通过赋予用户构建和迭代的能力，Macaron促进了文化多样性。来自不同背景的人们将讲述故事、设计游戏并创造反映其经验的教育工具。这种多样性丰富了生态系统，确保了AI服务于各种人类需求。

抵御错误信息的能力

一个互动生态系统可能比被动的视频流更能抵御错误信息。当用户参与构建和玩耍时，他们培养了批判性思维能力和自我意识。他们不太可能轻信AI生成的叙述，更可能仔细审查来源。此外，在迷你应用中追踪来源和设置同意的能力有助于维护信任和问责。

Macaron的愿景：迷你应用和AI合作的游乐场

在 Macaron，我们设想了一个生态系统，用户不仅仅是被动地生成视频，而是积极地创造互动体验。想象一下，写一个提示，不仅生成一个场景，还生成一个小游戏。你可以说：「创建一个合作拼图，让玩家一起使用不同的工具来修复飞船。」Macaron 的 AI 将生成游戏机制、图形和规则。用户可以调整元素，添加叙述层次，或与朋友分享他们的创作以获得反馈和改进。这种环境促进了共同创作，而不是单向消费。

想象一个小应用程序，一个初露头角的音乐家让 AI 生成一个虚拟演唱会场地。AI 可以模拟舞台灯光、观众反应和声音动态，允许音乐家排练并最终与粉丝分享互动表演。另一个用户可能会设计一个教育模拟，通过沉浸式互动故事解释量子物理学。这些体验超越了观看 AI 生成的视频，邀请参与、学习和社区互动。

我们的信念得到了用户创新轨迹的支持。早期互联网兴盛于混搭——基于其他网站API构建的网站，将地图与房产列表或犯罪统计结合在一起。iOS和Android生态系统蓬勃发展，因为用户可以构建解决问题或娱乐的应用程序。像Roblox和Minecraft这样的工具赋予社区创建和货币化自己游戏的能力。Macaron的使命是将这种创客精神扩展到AI时代：用户应该能够以最小的阻力提示、设计、测试和分发自己的AI驱动的小型应用程序。

结论：拥抱下一波浪潮

Sora是一个非凡的成就。它证明了大型扩散变压器可以模拟物理、维持物体持久性并生成可信的音频——这一切都无需明确的人类编程。毫无疑问，它将激励艺术家、广告商和教育工作者。然而，Macaron相信未来的AI消费生态系统需要的不仅仅是AI生成的视频。我们预见一个用户利用AI创造游戏、模拟、教育工具和艺术体验的世界——小型应用程序邀请合作与对话。

Sora 的发布引起了广泛关注和热潮。它加速了公众的想象力，展示了 AI 生成的内容可以是美丽而引人入胜的。然而，这并不是终点。Macaron 正在构建一个平台，让用户从观看转向创造，从消费转向共同创作。在下一个时代，AI 的价值将不再以视频获得的观看次数来衡量，而是以它能赋予多少人实现创意的能力来评估。我们邀请您加入我们的旅程。

[1] [16] 视频生成模型作为世界模拟器 | OpenAI

https://openai.com/index/video-generation-models-as-world-simulators/

[2] [3] [6] [7] [8] [9] [10] [11] [24] Sora 2 到来 | OpenAI

https://openai.com/index/sora-2/

[4] Sora 到来 | OpenAI

https://openai.com/index/sora-is-here/

[5] 理解 OpenAI Sora：特性、用途与限制

https://digitalguider.com/blog/openai-sora/

[12] [15] [28] OpenAI 推出 Sora 2 AI 文字转视频应用：5 大理由为何它在视频创作中颠覆传统

https://www.freepressjournal.in/tech/openai-launches-sora-2-ai-text-to-video-app-5-reasons-why-its-a-game-changer-in-video-creation

[13] 泰勒·派瑞因 AI 震惊而暂停 8 亿美元的工作室扩建 | 人工智能 (AI) | 卫报

https://www.theguardian.com/technology/2024/feb/23/tyler-perry-halts-800m-studio-expansion-after-being-shocked-by-ai