I. OpenAI的Sora：Macaron的分析与展望

作者：Boxu Li at Macaron

引言

2024年2月，当OpenAI推出Sora时，生成式AI社区沸腾了。这是一个能将文本提示转化为具有动态镜头移动和一致性物体的电影级视频的模型。2025年9月，随着Sora 2的发布，这种兴奋达到了新的高峰。Sora 2增加了真实的物理效果、同步音频，以及一个鼓励用户互相混剪视频片段的社交应用。一夜之间，按需创作短片的想法从科幻变成了即将实现的现实。就在昨天，OpenAI推出了这款社交应用，让用户可以在平台上分享他们自己的AI生成内容。

Macaron欢迎这一进步，但我们的观点很明确：Sora不会是AI消费者生态系统的最终形态。在ChatGPT席卷互联网之前，TikTok是互联网上最成功的消费者生态系统平台。AI时代的下一波浪潮不会是另一个视频生成/内容分享平台。AI将能够赋予用户更多能力。视频生成很重要，但一个蓬勃发展的生态系统应该让用户能够创造、协作和构建，而不仅仅是被动观看。

在本文中，我们将探讨Sora的功能，分析其接受度，并讨论为什么Macaron认为一个更丰富、更具参与性、更强大的平台将定义消费者AI生态系统。

Sora的功能和当前的热潮

涌现的模拟能力和创意潜力

Sora的底层扩散变换器架构被训练成将视频序列建模为连续的三维过程。在预训练过程中，它学会了物体持久性、3D一致性和长程连贯性。当提示描述"一个人在画肖像"时，Sora理解画笔的笔触应该在后续帧中保持可见，画家不应该在场景中瞬移。这种涌现的世界建模是对早期逐帧生成模型的重大进步。

在Sora 1中，用户可以生成1080p分辨率的20秒视频片段，通过分镜头拼接多个场景，甚至将静态图像转换为动画片段。他们可以重新混剪或扩展现有视频，应用风格预设（如动漫、电影或复古风格），循环特定片段并组合不同提示的元素。这些功能为营销团队、教育工作者和爱好者开启了新的创意形式。

Sora 2和重大飞跃

OpenAI在2025年9月的更新带来了一个能更忠实地模拟物理效果的模型。在Sora 1中，如果一个篮球运动员投篮不中，球可能会神奇地瞬移进篮筐；在Sora 2中，它会真实地从篮板反弹。该模型可以处理复杂的动作，如奥运体操动作、在桨板上后空翻，以及花样滑冰运动员头顶宠物做三周半跳。它还引入了同步的对话和音效，创造沉浸式的视听体验。多镜头指令允许用户在保持世界状态一致的同时，指定摄像机移动、场景转换和角色动作。

另一个重要特性是客串。通过录制简短的视频和音频验证，用户可以将自己或朋友的形象注入到任何Sora生成的环境中。这意味着你可以在自己的科幻冒险中担任主角，或在奇幻世界中成为一个角色。OpenAI的Sora应用利用这一功能创建了一个新的社交网络，用户可以在其中重新混剪彼此的视频，并在一个旨在优先创作而非被动消费的信息流中分享。

社会反响：兴奋与担忧

主流媒体将Sora誉为即将到来的革命。自由新闻报称Sora 2是一个"游戏规则改变者"，因为它能够模拟物理效果、整合音频和支持客串；该报预测，超写实的AI视频可能会与专业制作工具竞争，降低内容创作者的门槛。在娱乐界，一些人对消除昂贵的布景或外景拍摄表示热情：电影制作人泰勒·佩里承认，在看到Sora的潜力后，他暂停了价值8亿美元的工作室扩建计划，指出他现在可以虚拟创建场景。

然而，随着炒作，怀疑也在增长。美国律师协会对Sora可能使深度伪造制作民主化表示警告，这可能导致伪造证据和非自愿色情内容。一些行业观察家警告说，近乎完美的AI视频可能会放大虚假信息。内容创作者和版权持有者对OpenAI允许基于版权材料生成AI视频（除非所有者选择退出）的政策表示担忧——这一政策引起了好莱坞的审视。

Sora的局限性和开放性问题

物理效果和控制

虽然Sora 2显著改善了真实感，但它仍然会犯错。OpenAI自己的技术报告承认，该模型在处理复杂物理效果时可能会遇到困难，有时会错误表示因果关系。独立评论者指出，水的行为可能不够真实，或者物体可能会不自然地融合在一起。由于计算限制，该模型也仅限于短时长（数十秒）和1080p分辨率。专业电影制作人仍然依赖非线性编辑器进行逐帧精确编辑、精确的口型同步和高质量音频混音。

伦理和法律问题

OpenAI强调负责任的部署。每个Sora视频都包含可见水印和C2PA元数据以证明来源。客串需要用户同意并可以撤销，对未成年人有更严格的保护措施，如限制他们的信息流曝光并防止成年人向他们发送消息。提示和输出会被过滤以阻止色情、恐怖主义或自残内容。然而，没有技术解决方案能完全防止滥用。深度伪造检测仍然是一场军备竞赛，用于训练模型的数据的权利管理问题仍未解决。

市场定位

Sora进入了一个拥挤的视频平台市场。TikTok，这个主导了上一个用户生成内容时代的短视频应用，围绕人类创造力和算法推荐建立了一个令人上瘾的信息流。相比之下，Sora突出AI生成的内容。用户最初可能会对生成超现实场景或在自己的AI电影中担任主角感到兴奋，但这种新奇感能维持一个社交网络吗？耶路撒冷邮报指出，Sora在iOS上作为一个新的社交应用推出，其中每个帖子——即使有真实的人——都是AI生成的。问题是观众是否会像对待人类制作的视频那样与AI制作的视频建立情感联系。

真实性的感知

TikTok成功的部分原因在于其真实性；普通用户分享真实的、杂乱的时刻。Sora颠覆了这个等式，通过大规模实现精致的迷你电影。虽然这使电影制作民主化，但也可能导致一些评论家称之为"AI垃圾"的合成内容泛滥。如果没有清晰的来源和背景，观众可能难以信任他们所看到的内容。除非平台保持透明度和道德标准，否则这种信任赤字可能会限制AI生成视频的文化影响。

Macaron的观点：超越视频，走向参与式生态系统

纯视频生态系统的局限性

Macaron钦佩Sora背后的工程技术，但我们认为，仅围绕AI生成视频构建未来AI消费者生态系统是短视的。创建内容只是让平台引人入胜的一部分；分享、协作和互动体验同样重要。Sora强调预生成片段的消费和客串重混可能无法释放用户创造力的全部潜力。如果我们只是从一个视频制作应用跳到另一个，我们就有可能重复旧模式而不是发明新模式。

历史上，消费者生态系统在提供开放式创作工具时蓬勃发展。TikTok的成功不是因为其技术突破，而是因为它让用户能够制作简短、富有表现力的视频，通过二重唱进行协作并响应趋势。相比之下，早期生成静态图像的AI艺术平台未能形成持久的社区，因为用户对生成过程的控制很少。要在AI时代超越TikTok，平台必须实现不仅仅是观看；它应该让人们构建、玩耍、重混，并发明反映他们想法的迷你应用和体验。

来自研究和行业分析的证据

最新分析支持我们的观点，即AI采用的下一波浪潮将优先考虑参与式共创而不是被动消费。AlixPartners 2025年媒体与娱乐预测报告认为，AI将增强而不是取代人类创造力，预测将出现能够利用AI工具的创意人才短缺。该报告指出，成功采用需要将AI整合到生产工作流程中，培训团队并尊重知识产权，而不是让AI完全自动化内容。同样，Skywork.ai的分析解释说，视频编辑者并没有消失，而是转向提示词导演、AI合规负责人和管道集成者等角色。这些角色专注于编排AI功能并确保输出符合品牌和道德标准。

自由新闻报指出，Sora 2的客串和重混文化鼓励社交分享和协作。但它仍然强调视频消费。在Sora中没有构建游戏或互动故事的途径。在Macaron，我们提出要解锁创作的光谱——从静态图像和视频到互动迷你应用和动态模拟。用户可以通过直观的界面和自然语言提示，结合LLM进行对话、扩散模型进行视觉效果，以及强化学习进行游戏逻辑。

Sora是垫脚石，而不是终点

围绕Sora的兴奋表明人们渴望新的讲故事方式。但在Sora 2推出后不久，关于其局限性和需要更深层次互动的讨论就出现了。一些分析师甚至在思考AI是否能推翻TikTok。从Macaron的角度来看，这是错误的问题。正确的问题是：AI如何让用户不仅仅是观看？真正的参与来自参与，这需要工具来创造人们可以玩耍、探索和构建的体验。

经验和信任的作用

谷歌的E-E-A-T指南（专业性、经验、权威性和可信度）同样适用于AI平台。建立在AI生成内容之上的社交生态系统必须展示证据（来源元数据）、经验（用户有意义地塑造结果的能力）、权威（清晰的政策和道德保障）和信任（关于AI角色的透明度）。Sora通过水印和元数据解决了证据问题，但Macaron旨在通过邀请用户参与创作过程和维护严格的同意和内容审核在所有四个领域都表现出色。

将局限性转化为机遇：利用约束进行创新

技术瓶颈和模型改进

Sora的短片段和分辨率限制源于模拟复杂物理效果和高保真视觉的计算成本。随着硬件改进和新架构的出现，生成模型将产生更长、更清晰和更可控的内容。但仅仅增加能力并不能保证一个充满活力的生态系统。在数码摄影的早期，更高的像素数被誉为突破；然而，赢得消费者心的智能手机是那些具有直观应用、滤镜和分享功能的手机，这些功能将照片转化为社交货币。同样，生成视频模型必须嵌入到通过协作和用户赋能利用其功能的平台中。

伦理约束作为设计指南

保护未成年人、尊重肖像权和避免有害内容的需求不是负担，而是一个设计机会。通过让用户控制谁可以使用他们的客串，让他们设置自己如何出现的偏好（例如，总是戴着帽子），并启用撤销功能，OpenAI为同意管理树立了先例。Macaron计划将这一理念扩展到迷你应用：创作者可以为他们的互动体验指定许可条款，选择是否允许他人重混他们的作品，并从衍生创作中分享收益。

构建下一代消费者生态系统：Macaron的路线图

创作者平台

Macaron正在设计一个AI增强的创作者平台，具有以下特点：

提示到产品的管道：用户可以描述一个想法，比如"一个教授世界地理的测验应用"或"一个让玩家探索水下城市的简单RPG游戏"，平台就会生成一个功能性原型。然后用户可以调整参数、添加内容或选择美学风格。
协作编辑：多个用户可以共同编辑一个迷你应用，通过自然语言提出更改并看到实时更新。协作可能包括头脑风暴会议、AI辅助代码重构和版本控制。
社区市场：创作者可以发布他们的应用，设置使用权和定价（如果有的话），并允许其他人重混或扩展他们的作品。声誉系统鼓励高质量的贡献和安全、道德的行为。
集成审核：就像Sora过滤有害视频提示一样，Macaron的平台将使用多层安全系统来防止滥用内容，保护未成年人并尊重知识产权。
学习和支持：内置教程、AI导师和社区论坛将帮助用户学习提示工程、UI设计和道德考虑。

这个路线图将消费者生态系统从视频信息流转变为创意引擎。用户不是滚动浏览AI生成的片段，而是积极构建、分享和玩耍互动创作。每个迷你应用都成为对话的起点，邀请反馈、协作和迭代。

多模态平台的优势

一个结合文本、图像、视频、音频、逻辑和互动性的创作平台提供比纯视频应用更丰富的体验。例如：

讲故事：作家可以创作让观众选择结局的分支叙事；艺术家可以为每个场景生成插图；音乐家可以创作AI辅助的配乐。
教育：教师可以生成针对个别学生需求定制的互动科学实验室或历史模拟。学生可以提问并探索假设场景。
娱乐：游戏玩家可以在AI的帮助下设计自定义关卡、角色和机制，并将其作为可玩的迷你游戏分享。
商业：小企业可以创建个性化的购物体验或虚拟导览，而品牌可以制作品牌迷你应用而不是静态广告。

数据和用户洞察

随着更多用户创建和分享迷你应用，Macaron将深入了解用户真正想要什么。在Sora的早期，我们从人们如何制作视频提示和协作客串中学习。通过迷你应用，我们将看到哪些类型受欢迎，哪些互动模式流行，以及在哪里出现摩擦。这些洞察将指导模型改进和平台功能。Macaron的策略是保持准备并拥抱技术浪潮，随着生成模型的发展快速迭代。

Macaron的愿景：

赋能用户

当用户控制创作过程时，他们成为利益相关者而不是消费者。他们学习新技能，表达独特想法，并围绕共同兴趣建立社区。Macaron的平台旨在让非技术用户也能访问复杂的AI功能，让他们利用自然语言设计复杂的体验。

经济机会

支持用户生成应用的平台历来创造了新的经济。苹果应用商店催生了整个行业——从手机游戏到打车服务。Roblox托管着数百万个用户创建的游戏，开发者赚取数百万美元。Macaron的市场同样可以支持提示词工程师、AI设计师和微型企业家，他们销售迷你应用或提供定制创作服务。

文化丰富性

AI生成的视频可能令人印象深刻，但它们往往缺乏人类创作内容的深度和特异性。通过让用户能够构建和迭代，Macaron培养文化多样性。来自不同背景的人们将讲述故事、设计游戏和创建反映他们经历的教育工具。这种多样性丰富了生态系统，确保AI服务于各种人类需求。

对抗虚假信息的韧性

一个互动的生态系统可能比被动的视频信息流更能抵抗虚假信息。当用户参与构建和玩耍时，他们发展批判性思维技能和主体意识。他们不太可能盲目接受AI生成的叙事，更可能审视来源。此外，在迷你应用中追踪来源和设置同意的能力有助于维护信任和问责。

Macaron的愿景：迷你应用和AI协作的游乐场

在Macaron，我们设想一个生态系统，用户不仅仅是被动生成视频，而是积极创造互动体验。想象写一个提示不仅生成一个场景，而是一个迷你游戏。你可能会说，"创建一个合作解谜游戏，玩家使用不同的工具一起修理宇宙飞船。"Macaron的AI会生成游戏机制、图形和规则。用户可以调整元素，添加叙事层次，或与朋友分享他们的创作以获得反馈和改进。这样的环境培养共创而不是单向消费。

考虑一个迷你应用，一个新兴音乐家要求AI生成一个虚拟音乐会场地。AI可以模拟舞台灯光、观众反应和声音动态，让音乐家排练并最终与粉丝分享互动表演。另一个用户可能设计一个通过沉浸式互动故事解释量子物理的教育模拟。这些体验超越了观看AI生成的视频；它们邀请参与、学习和社区。

我们的信念得到用户创新轨迹的支持。早期互联网在混搭上蓬勃发展——网站建立在其他网站的API之上，将地图与房地产列表或犯罪统计数据结合起来。iOS和Android生态系统蓬勃发展是因为用户可以构建解决问题或娱乐的应用。像Roblox和Minecraft这样的工具让社区能够创建和货币化他们自己的游戏。Macaron的使命是将这种创客精神延伸到AI时代：用户应该能够以最小的摩擦提示、设计、测试和分发他们自己的AI驱动的迷你应用。

结论：拥抱下一波浪潮

Sora是一个了不起的成就。它证明了大型扩散变换器可以模拟物理效果，维持物体持久性并产生合理的音频——所有这些都不需要明确的人类编程。它无疑将激励艺术家、广告商和教育工作者。然而，Macaron相信未来的AI消费者生态系统需要的不仅仅是AI生成的视频。我们预见一个世界，用户利用AI创造游戏、模拟、教育工具和艺术体验——邀请协作和对话的迷你应用。

Sora的发布引起了关注和热潮。它加速了公众的想象力，并表明AI生成的内容可以是美丽和引人注目的。但这不是终点。Macaron正在构建一个平台，让用户从观看转向创作，从消费转向共创。在这个新时代，AI的价值不是通过视频获得多少观看量来衡量，而是通过它赋能多少人实现他们的想法来衡量。我们邀请你加入我们的旅程。

[1] [16] 作为世界模拟器的视频生成模型 | OpenAI

https://openai.com/index/video-generation-models-as-world-simulators/

[2] [3] [6] [7] [8] [9] [10] [11] [24] Sora 2 来了 | OpenAI

https://openai.com/index/sora-2/

[4] Sora 来了 | OpenAI

https://openai.com/index/sora-is-here/

[5] 了解 OpenAI Sora：功能、用途和局限性

https://digitalguider.com/blog/openai-sora/

[12] [15] [28] OpenAI 推出 Sora 2 AI 文本转视频应用：为什么它在视频创作中具有革命性的 5 个原因

https://www.freepressjournal.in/tech/openai-launches-sora-2-ai-text-to-video-app-5-reasons-why-its-a-game-changer-in-video-creation

[13] 泰勒·佩里在被 AI 震惊后暂停了 8 亿美元的工作室扩建计划 | 人工智能 (AI) | 卫报

https://www.theguardian.com/technology/2024/feb/23/tyler-perry-halts-800m-studio-expansion-after-being-shocked-by-ai