斯坦福团队发布全球首个超小型多模态 AI 代理模型 Octopus V3,函数调用准确度媲美 GPT-4

  • 2024-05-10

  • 来源:极客公园

近日, 斯坦福大学的 NEXA AI 团队宣布推出全球首个多模态 AI 代理模型 Octopus V3, 让 AI 代理更加智能、快速、能耗及成本降低。

今年四月份初,NEXA AI 推出了备受瞩目的 Octopus V2, 该模型在函数调用性能上超越了 GPT-4, 减少了 95% 的推理时所需的文本量, 为端侧 AI 应用带来了新的可能性。其专利性核心技术「functional token」通过创新的函数调用方式显著减少推理时所需的文本长度。

这种方法使得模型能够在只有 20 亿参数的情况下实现高效训练, 并在精度和延迟方面超越了 GPT-4, 适应了各种端设备的部署需求。

发布以来,Octopus V2 在 LLM 社区获得了广泛关注, 受到了 AI 领域大量前沿技术专家及研究者的赞赏, 如 Hugging Face 的 CTO Julien Chaumond、知名 AI Newsletter Rundown AI 的创始人 Rowan Cheung 以及 Figure AI 的创始人 Brett Adcock、OPPO 边缘人工智能团队负责人 Manoj Kumar, 称其「开创了端侧 AI 技术新纪元」。

在知名开源 AI 平台 Hugging Face 上,Octopus V2 下载量已经超过 12000 次。

在不到一个月的时间里,NEXA AI 团队发布下一代多模态 AI 代理模型 Octopus V3, 展现进一步突破:具有图像处理和多语言文本处理能力, 为智能手机等端侧设备真正走向 AI 时代铺平了道路。

AI 技术突破:首个参数量小于 10 亿的多模态 AI 代理模型

Octopus V3 不仅拥有多模态能力, 在函数调用性能上远超同类模型, 可媲美 GPT-4V+GPT4;而且模型参数量不到 10 亿, 具有多语言能力。

也就是说, 相比传统的大型语言模型, 它体积更小, 能耗更低, 能够更加轻松地在各种小型端设备上运行, 比如树莓派, 并做到高速且准确的函数调用。

这意味着, 未来 AI 代理能够广泛应用于智能手机、AR/VR、机器人、智能汽车等端侧设备, 为用户交互体验更加流畅、智能。

另一方面, 由于 V3 具有多模态处理能力, 可同时处理文本和图像输入, 再加上多语言能力, 也将让用户体验更加丰富。

例如, 在 Instacart 购物应用中, 用户可以通过一张菠萝的图片及简单的对话指令, 让 AI 代理自动为他们搜索商品, 提高了效率和用户的体验。

再比如, 在发送邮件等场景中,Octopus V3 可以根据一张具有文字的图像, 自动提取信息并填写邮件内容, 为用户提供更加智能、便捷的服务。

Octopus 系列模型的发布标志着端侧 AI 代理技术的重要突破, 可能成为人工智能技术的新里程碑。

从软件交互到智能汽车, 端侧 AI 潜力巨大

基于这些特性,Octopus V2 及 V3 的应用场景丰富多样, 具有广泛的应用前景。

除上文提到的手机场景, 当 Octopus V2 应用在智能汽车上时, 也能带来新的交互体验。目前的语音助手往往难以帮助车主完成较为复杂的任务, 如在驾驶途中临时改变目的地、加入额外停靠点等。应用 Octopus V3 后,AI 助手能够基于较为模糊简单的指令快速、精准地完成相应任务。

结合 V2、V3 的能力, 从信息检索、到基于指令完成设计, 用户可以在虚拟场景下获得流畅的 AI 体验:在一个社区用户的 VR 场景 demo 中, 输入简单的语音指令后,AI 代理能够帮助用户快速完成一个客厅设计, 在弹指间替换沙发、改变颜色灯光等。在用户输入旅行指令后, 用户快速来到了日本, 而 AI 代理同样可以在简单的对话式交流中帮助用户搜索相应景点, 提供丰富的信息。

数据显示, 全球大型语言模型市场规模正在快速增长。Granview Research 报告显示, 全球大型语言模型市场规模估计为 43.5 亿美元, 并预计从 2024 年到 2030 年的复合年增长率为 35.9%。同样, 边缘人工智能市场也呈现出蓬勃发展的势头——预计从 2023 年到 2030 年, 全球边缘人工智能市场的复合年增长率为 21.0%, 到 2030 年将达到 664.78 亿美元。

NEXA AI 团队由斯坦福大学的杰出研究人员创立。创始人兼首席科学家 Alex Chen(陈伟) 正在攻读斯坦福大学的博士学位, 拥有丰富的人工智能研究经验, 并且曾担任斯坦福华人创业协会 (Stanford Chinese Entrepreneurs Organization) 的主席。联合创始人兼首席技术官 Zack Li(李志远) 也毕业于斯坦福大学, 并在 Google 和 Amazon Lab126 实验室拥有 4 年端侧 AI 的一线研发经验, 同样曾经担任斯坦福华人创业协会的主席。斯坦福大学副教授、斯坦福技术创业项目副主任 Charles (Chuck) Eesley 担任顾问, 为团队提供指导和支持。

左:李志远;右:陈伟

目前,NEXA AI 的独创性技术已申请专利保护。

NEXA AI 的创始团队表示, 他们将继续致力于推动端侧 AI 技术的发展, 通过开源模型提升其创新技术的影响力, 为用户创造更智能、高效的未来生活。

  • 推荐
  • 新闻
  • 观点
  • 制造
  • IT/互联网
  • CIO
  • CDO
  • 智能制造
  • 人工智能
  • 研发
  • IT

推荐

我要评论