作者:Boxu Li

从基础模型到个性化代理

现代基础模型展现出令人印象深刻的通用知识和推理能力。然而,这些基础模型并没有针对个人用户进行优化。它们通常缺乏对用户的上下文理解,并在陌生场景中真正创造性地解决问题时表现不佳。例如,研究人员发现,即使是最先进的语言模型在需要创新解决方案的任务上也表现不佳,所需步骤最多是最佳方案的十倍,仍然远逊于人类表现,因为它们倾向于固守传统思维。平均而言,当前的语言模型在没有提示的情况下仅在创造性难题基准上取得约15%的进展,这凸显了它们在创造力方面的局限性。这种创造力差距是显著的,因为创造性智力——即超越预定义模式进行适应和创新的能力——被认为是智力的重要组成部分,但大多数AI基准测试对此几乎没有涉及。

从思维链到ReAct:新范式

为了突破这些限制,AI研究界一直在探索让模型更像人类思考和行动的方法。一个突破是由Shunyu Yao等人在2022年提出的ReAct范式。ReAct代表「Reason+Act」,这是一个将模型的内部推理过程与外部行动交错进行的框架。与仅从静态记忆中生成答案或盲目采取行动不同,ReAct代理同时进行这两者——通过问题进行推理,并在循环中与工具或环境互动。这种协同方法使AI能够获取新信息并实时调整其计划。Yao及其同事展示了ReAct方法系统地优于仅依赖连锁思维推理或单纯行动执行的方法。通过紧密结合思维和行动,模型产生更具人类特征的任务解决轨迹,从而提高其可解释性和有效性。

Macaron的API——AI模型之上的个人化微调层

Macaron的平台可以被视为建立在最佳基础模型之上的个人化微调层。Macaron不是从头构建一个庞大的AI,而是利用现有大型模型的知识和语言能力,并为您进行个性化调整。系统会根据特定任务选择最佳的模型或模型组合,然后根据您的个人使用模式微调其行为。

在实际操作中,Macaron 充当了一个智能编排层:它通过不断学习你的互动和偏好,更新响应方式,以便更好地服务于你。这可以比作拥有一个逐步学习你风格的自定义版 GPT,而不是一个千篇一律的模型。在幕后,Macaron 利用内部的强化学习平台来实现这种大规模的自适应微调。通过强化学习,尤其是在模型的初步预训练之后,Macaron 的 AI 在真实用户反馈和数据上进行后期训练——本质上是在安全、可控的环境中通过经验学习。因此,AI 随着日常使用不断进化,逐步更加了解每个用户的需求。

深度记忆和情感智能

Macaron 方法的另一个支柱是其对深度记忆和情感智能的关注。与那些忘记上下文或无法感知语气的普通聊天机器人不同,Macaron 的设计目的是「像值得信赖的朋友」一样,发展对你的细致、长期理解。通过定制化的初始引导和持续学习,它建立了对你的偏好、习惯甚至情感信号的深刻记忆。这使得 Macaron 能够提供情感智能、具有上下文感知的互动,能够在个人层面上引起用户的共鸣。

例如,如果你在压力大的时候经常询问食谱,Macaron可能会在提供食谱建议的同时给予温柔的鼓励。它可以记住你喜欢素食菜肴或者你曾提到过的过敏反应。这些个性化的细节——不仅理解你问什么,还理解你为什么问——让体验感觉更加人性化和支持。许多AI平台在这方面存在困难。Macaron通过在其微调过程中优先考虑同理心和上下文,直接解决了这一问题,旨在成为一个可爱的AI伴侣,而不是一个冷冰冰的软件工具。

按需生成自适应迷你应用

个性化微调层适应每个用户的偏好。

Macaron 最具创新的功能之一——也是其个性化微调过程的关键成果——是能够按需创建「小应用」来解决您的问题。只需向 Macaron 寻求帮助,它会动态地为您组装解决方案,无需您动一根手指。例如,如果您说「我需要帮助安排我的学习计划」,Macaron 可能会根据您的课程大纲生成一个课程助手小应用。如果您想跟踪您的饮食,它可以创建一个轻量级的烹饪日志应用。这一切都是即时发生的——无需漫长的开发周期或手动提示编写。

Macaron 的创造力、语境理解和基础模型的广博知识相结合,使这一切成为可能。传统的 AI 服务或开发者平台可能需要您寻找模板或聘请程序员来获得定制应用。相比之下,由于 Macaron 对您的意图进行了精细调整的理解,它可以根据需要生成这些功能。这大大减少了从想法到执行所需的时间和努力。

基准创意智能:Macaron 如何保持领先

研究如 EscapeBench 已经显示了创造性问题解决对于 AI 是多么具有挑战性。EscapeBench 是一个基于文本的密室逃脱游戏基准,迫使 AI 代理跳出框架思考——例如,以非常规方式重新利用物品。在这样的基准测试中,现有的语言模型会遇到困难:它们常常只能以显而易见的方式使用工具,错过创新的解决方案。这正是 Macaron 设计的亮点所在。通过结合预见和反思的策略(类似于为应对 EscapeBench 挑战而引入的 EscapeAgent 方法),Macaron 的代理能够生成创新的假设,并在面对复杂任务时追踪未解决的目标。

得益于其强化学习增强的微调,Macaron 还可以通过每次尝试不断提高其创造力。如果某个特定的解决路径失败,Macaron 的代理能够反思并调整,就像人类一样。随着时间的推移以及成千上万用户的使用,这种方法培养出一个比从未在部署后学习过的 AI 更具创造性和适应性的 AI。

Macaron 与其他 AI 平台:为何个性化胜过通用化

Macaron 比其他任何 AI 代理更关心你

当今的 AI 领域提供了从开放模型中心到聊天机器人应用的一切,但 Macaron 独特的用户中心化微调使其与众不同:

  • 开发者平台(例如 Hugging Face)提供许多模型的访问权限,但需要专业知识来微调或部署。Macaron 自动完成繁重的工作,呈现出一个仿佛专为您打造的模型。
  • 角色聊天机器人(例如 Character.AI)允许用户与人物聊天,但它们并不真正学习或记忆。Macaron 不断适应,并保持长时间的上下文记忆,创造更深入和丰富的对话。
  • Lovable 专注于演示和预设展示,但缺乏快速为日常消费者需求烹制迷你应用的灵活性。相比之下,Macaron 在几分钟内提供真正的实用性。

AI 的未来:个性化微调是前进的方向

随着 AI 系统变得更强大,下一步是让它们真正个性化和深度适应。Macaron 展示了为什么个人 AI 代理将成为未来。通过比大型通用模型更以用户为中心,且比静态聊天机器人更具动态性,它提供了两者的最佳结合:顶级 AI 模型的强大功能和个人助手的适应性。

无论是在创意基准测试中超越他人,还是通过在几秒钟内生成小应用程序来为您节省时间,Macaron 都表明,当 AI 关注个体时,可能性是无限的。这是一个向以您为模式的 AI 转变的范式,而 Macaron 正在引领进入真正的个人 AI 助手时代。

Boxu 在埃默里大学获得了定量经济学专业的学士学位。在加入 Macaron 之前,Boxu 的职业生涯大部分时间都在美国的私募股权和风险投资领域度过。他现在是 Macaron AI 的首席参谋和市场营销副总裁,负责管理财务、物流和运营,并监督市场营销。

申请成为 Macaron 的首批朋友