2024 年是 AI 技术进化的重要节点。
基座模型,视频生成模型同时大幅度进步,构成了精彩的 AI 二重奏。推理模型的出现让 Scaling Law 重现光彩,而视频模型的出现,进一步打破了虚拟和现实的交界。
除了大幅进步的基座模型和视频生成模型之外,Agent、小模型、原生多模态模型、世界模型模型等多个方向都在稳步进展,给 AI 应用的构建,留出新的想象空间。
2024 年多点突破的技术成果,清晰地为未来一年 AI 的进化提供了线索。而 2025 年,又将带给我们怎样的惊喜?
启程 2025,让我们一同探讨这些问题,展望 AI 技术的下一个转折点。
推理模型进一步迭代,成为基座模型标配
2024 年 9 月,OpenAI 推出的 o1-preview 模型,横空出世,通过在模型内加入自我推理,自我思考的能力,将大模型的的智力能力,提升了一个量级。
人们普遍猜测,o1 模型通过引入蒙特卡洛树搜索(MCTS)和过程奖励模型(PRM),首次展现出「慢思考」(System 2)的能力,突破了传统大语言模型只具备「快思考」(System 1)的局限。
o1 模型不但展示了新的模型能力,还引入了新的扩展定律,即推理扩展定律(Inference Scaling Laws)。该定律指出,通过增加模型在推理阶段的计算资源和时间,模型的推理能力和性能可以得到显著提升。这意味着,除了在预训练阶段投入大量资源外,在推理阶段也应适当增加计算投入,以获得更优的模型表现。
o1 模型的发布标志着人工智能领域的一次范式转变,从仅关注预训练阶段的资源投入,转向在推理阶段也注重计算资源的投入。这一变化为未来 AI 模型的发展指明了新方向——通过增加推理阶段的计算量,进一步提升模型的推理能力与表现。
这意味着,推理模型的迭代和竞争,在 2025 年,大概率会继续发生。
2024 年年末,Google 就发布了自己的推理模型。而 2025 年,越来越多的基座模型公司,必然也将在这个领域继续努力。
在 2024 年短暂的时间,还不能完全看清推理模型对于应用方向会有什么样的助益,但是可以畅想 2025 年会有新的应用出现。
例如,NVIDIA 生成式 AI 软件副总裁 KARI BRISKI 表示,这可能会影响金融、医疗健康、科研和娱乐等多个领域。
例如,在医疗健康领域,推理模型可以综合患者的诊断记录、用药情况和治疗反应,提出一系列优化治疗方案的建议供医生参考。这种多步推理能力可以帮助医疗从简单的信息查询转向更复杂的决策支持。
一个新的网络讨论指出,人们需要转变思维,来使用 o1 模型。不能再使用过去的聊天对话机器人的使用方式。
在过去,对于聊天对话机器人,我们都会告诉模型希望他如何回复,比如「扮演一位软件工程专家,请仔细思考」。
但在 o1 上有效的方法正相反,应该尽可能地告诉它你需要什么,而不是指导它如何去做。提供越多的上下文,越明确的想要输出的内容越好,如果你给它足够的上下文,并告诉它你想要输出什么,它通常会一次性找到解决方案。对待 o1 模型,应该更像对待一个新员工的方式。
人们对 o1 模型的探索表明,一个新的推理模型的时代,仍有许多领域,等待 2025 年的探索。
Agent 趋势进一步强化,是否能做出真正有效的应用仍待观察
自从 ChatGPT 让大模型技术进入人们关注的焦点后,每一年都有不同的专家预测,Agent 是未来的趋势。
从早期的 autoGPT 项目出现,到业界不断探索 multi-agent 的框架,Agent 技术的发展始终被视为 AI 领域的长期趋势。
Agent 的技术,与基座模型的能力是强相关的。随着基础模型(Foundational Models)的持续发展,2025 年,Agent 仍将成为重要的人工智能趋势。
2024 年年末的两大发布,也让我们对 2025 年的 Agent 趋势充满期待。
2024 年 10 月,Anthropic 发布了 Claude 3.5 Sonnet 模型,具备实验性的「计算机使用」功能,使 AI 能够像人类一样操作计算机,包括浏览网页、点击按钮和输入文本。
同年 12 月,Google 推出了 Gemini 2.0 模型,展示了多项 AI 代理功能,如 Project Astra 和 Project Mariner,标志着 AI 从被动工具向主动代理的转变。
与基座模型转向推理模型一样,这对于 AI 的基础设施和模型的基座能力都提出了新的要求。
NVIDIA DGX 平台副总裁 CHARLIE BOYLE 表示,代理式 AI 的出现将推动对复杂多模型系统近乎实时响应的需求。这将使高性能推理变得与高性能训练基础设施同样重要。
比如,英伟达 2024 年年末推出的 B300 GPU 系列在计算性能和内存容量方面实现了显著提升,为 AI 代理(Agent)技术的发展提供了强有力的支持。
B300 GPU 基于台积电 4 纳米工艺节点,计算性能相比前代产品提升了 50%,每秒可执行 30 万亿次浮点运算(TFLOPS)。此外,内存容量增加至 288GB,带宽达到 8TB/s,使其能够处理更大规模的 AI 模型和更复杂的任务。
这些性能提升对于 AI 代理的训练和推理至关重要。更高的计算能力和更大的内存容量使得代理能够更高效地处理复杂的任务,实现更快速的推理和响应,从而推动 AI 代理技术的进步。
而对于 C 端应用而言,Agent 能力,能够改变用户体验和服务交互方式,一句话就能让 AI 直接为你干活的未来,是否能够初步落地,是我们对于 2025 年的重要观察方向。
企业来说,Agent 能力也可能有很重要的应用前景。
通过工作流,目前不少企业已经用上了类 Agent 的体验。但是真正的 Agent 能力,将解锁新的生产力,让 AI 真的能够独当一面。对于整个社会,都将有长远的意义。
人形机器人的加速进化可期
普遍认为,人形机器人距离大规模商业化落地还有五到十年的时间。然而,近期的技术突破和产业进展正加速这一进程。
2024 年,包括 Tesla 的 Optimus 在内的等多个人形机器人,在运动控制方面取得了不少突破。而从 AI 角度而言,2024 年年末,世界模型的突破,让人形机器人的加速进化成为可能。
World Labs 公司于 2024 年 12 月发布的 AI 系统,能够从单张图片生成可交互的 3D 世界,该技术使机器人能够从二维图像中构建三维环境模型,提升其对复杂场景的理解和导航能力。同时,通过实时生成和交互 3D 场景,机器人可以在虚拟环境中进行训练,减少对物理场景的依赖,加速学习过程。这项技术遵循 3D 几何和物理规则,确保生成的世界具有一致性和真实性,有助于机器人在实际操作中更准确地感知和互动。
2025 年初,英伟达在 CES 上发布了 Cosmos 平台,这是一套先进的生成式世界基础模型(WFM)和加速视频处理管线,也在世界模型领域推进了一步。
Cosmos 使开发者能够轻松生成大量基于物理学的逼真合成数据,用于训练和评估机器人模型。
通过整合文本、图像、视频等多种输入,Cosmos 生成的高质量仿真数据有助于人形机器人在虚拟环境中进行训练,学习物体的运动和交互方式,从而提升其在现实世界中的表现。
此外,英伟达还推出了 Isaac GR00T Blueprint,这是一套用于合成运动生成的工作流,帮助开发者生成海量的合成运动数据,以便通过模仿学习来训练人形机器人。
这些工具的推出,标志着人形机器人开发进入了一个新的加速阶段。
NVIDIA AI 智能体高级研究科学家 LINXI(JIM)FAN 表示,机器人将朝着人形机器人的方向发展:机器人将开始理解任意语言指令。
目前,工业机器人必须手动编程,并且它们无法对不可预测的输入或编程语言以外的语言做出智能响应。而融合了视觉、语言和任意动作的多模态机器人基础模型将推动这种「AI 大脑」的发展。同时,代理式 AI 也将使 AI 的推理能力更强。
而世界模型,仿真数据的进展,对于训练融合了视觉、语言和任意动作的多模态机器人基础模型有着巨大的意义。
2025 年,人形机器人,加速进化可期。
启程 2025:AI 进化的未来路径
推理模型的迭代让基座模型的能力再度提升,这种智能化基础设施的强化,不仅在数据层面推动突破,更为应用场景的扩展提供了强大支撑。
与此同时,Agent 趋势逐渐成型,从单一任务执行转向更具主动性和目标感的智能代理。然而,如何将这些 Agent 转化为真正有效的应用,依然是一个值得持续探索的问题。
而在人形机器人领域,世界模型的进展和合成数据的突破正加速推动机器人从「机械化执行」向「自主化理解」的迈进。从工业到服务,再到更多日常生活场景,人形机器人的加速进化将成为 2025 年值得期待的重要方向。
站在 2024 年的技术突破节点上,未来已然清晰可见。2025 年,推理能力更强的 AI 系统、目标感更明确的智能 Agent、以及越来越具人类交互能力的机器人,必将带来新的技术惊喜与应用变革。启程 2025,我们拭目以待。
我要评论