谷歌I/O超全总结:AI搜索大变样,AR眼镜复活,大模型全家桶升级,史上最贵订阅费1800元
-
2天前
来源:智东西
智东西5月21日报道,今日凌晨,在一年一度的谷歌I/O开发者大会上,谷歌的AI大戏连番上演!
时长不到2小时的主题演讲上,谷歌CEO桑达尔·皮查伊携一众谷歌高管总共提到 95次“Gemini”、92次“AI” 。
模型升级方面: Gemini 2.5 Pro 新支持原生音频输出、Project Mariner的计算机使用功能、深度思考、高安全防护; 视频模型Veo 2 新增原生音频生成功能、 Gemini 2.5 Flash 在推理、编程和长上下文等关键指标上升级。全新发布模型包括: 扩散语言模型Gemini Diffusion 、 视频生成模型Veo 3、图像生成模型Imagen 4。
谷歌还推出全新Gemini订阅计划:AI Pro用户月付 19.99美元(折合人民币约144元) ,可使用Veo 2、Gemini 2.5 Pro等入门级产品;AI Ultra用户月付 249.99美元(折合人民币约1804元) ,可拥有Veo 3的无限访问权限、使用Gemini 2.5 Pro深度思考模式等。
这都指向一个目标:构建通用AI助手。谷歌DeepMind创始人兼CEO戴密斯·哈萨比斯(Demis Hassabis)称,他们 将Gemini打造成一个世界模型 ,是开发一种新型、更通用、更有用AI助手的关键一步。
谷歌展示了其 通用AI助手的最新研究原型 。在自行车维修场景中,Gemini可以帮助用户查询维修手册、滚动到特定页面、搜索视频教程、主动提供实用信息,还可以拨打电话,查询零件库存情况,并帮助用户下单。
其余更新包括 颠覆用户搜索体验的AI Mode :根据用户需求动态调整包含图表、店铺列表等的答案生成界面,在购物场景,AI Mode可根据用户购买意图定制购物界面,提供虚拟试穿、追踪用户预期价位、代理结账功能,其还集成了视觉搜索,用户可以通过手机摄像头实时搜索提问。AI Mode现已面向所有美国用户推出。
同时,谷歌此前三大研究项目获得重大进展:Project Starline引入 全新3D视频通讯体验 、Project Astra能 利用Gemini和摄像头来解决问题 、Project Marina支持 多任务处理 。
大会尾声,谷歌还现场演示了 重量级安卓XR智能眼镜。
翻译能力是这款眼镜的亮点之一,不过测试时,可以明显感觉到工作人员减慢了语速, 谷歌安卓XR智能眼镜仅正确翻译了对话中的前半部分,之后出现了无法识别的问题 。
据XREAL新闻稿披露,谷歌将与XREAL合作打造第二款安卓XR设备Project Aura。
皮查伊透露,Gemini应用目前已经拥有超过 4亿月活用户 ,超过 700万名开发者 通过Gemini API进行开发。
谷歌今天放出的诸多AI大招,智东西带你一文看尽。
01.Gemini系列模型屠榜,谷歌产品每月处理token数一年增长50倍
Gemini时代,谷歌的模型和产品发布速度都比以往更快。上届I/O大会至今,谷歌已经宣布 10余款模型重大突破、20余款重大AI产品 。
自第一代Gemini模型发布以来,Gemini模型的Elo分数已提升300多分。编程方面, Gemini 2.5 Pro成为编程平台Cursor上年度增长最快的模型 ,每分钟产出数十万行被采纳的代码。
在LMArena排行榜中,Gemini系列模型包揽了每秒生成输出token数最高的前三名,并且模型价格也在下降。
全栈基础设施方面,谷歌 第七代TPU Ironwood 是首款专为大规模AI思考和推理工作负载而设计的TPU,其性能是上一代的10倍,每个Pod的计算能力达到42.5 exaFLOPS。
皮查伊提到谷歌大模型相关的几组数据:
去年同期谷歌每月通过产品和API处理的token数量为 9.7万亿 ,目前其每月处理的token数达到 480万亿 ,一年内增长了约50倍;
超过 700万名 开发者通过Gemini API进行开发,涵盖谷歌AI Studio和Vertex AI两大平台,同比增长超过五倍,同时Vertex AI平台上的Gemini使用率较去年增长40倍;
Gemini应用目前拥有超过 4亿月活用户 ,在Gemini应用中使用2.5 Pro版本的用户使用量增长了45%;
在搜索方面,AI概览功能的每月用户超 15亿 。皮查伊认为AI Mode是搜索领域的下一个重大进展,我们正处在AI平台转型的新阶段。
皮查伊还提到,Gemini已经通关精灵宝可梦,集齐8枚徽章获得冠军,“距离人工宝可梦智能更进一步”。
02.Gemini编程、语音、深度思考迎升级,DeepMind CEO揭秘终极愿景
哈萨比斯提到, Gemini 2.5 Pro是谷歌迄今为止最智能的模型,也是全球最强大的基础模型 。两周前,谷歌发布了Gemini 2.5 Pro的预览版,开发者们用它实现了诸多创意:比如将草图转化为交互应用、模拟完整3D城市等。
新版的Gemini 2.5 Pro在WebDev Arena编程排行榜登顶。谷歌还将他们去年发布的LearnLM(专为学习场景微调的模型)接入Gemini 2.5 Pro模型,这让后者在解题等学习场景的能力进一步提升。
今天谷歌推出了 轻量级模型Gemini 2.5 Flash的升级版。 这款模型在推理、编程和长上下文等关键指标上实现提升,在大模型竞技场的排名仅次于Gemini 2.5 Pro。升级版模型将于6月初全面开放,Pro版本随后跟进,目前开发者已经可以在AI Studio抢先体验。
Gemini还引入了更多的功能。增强版安全防护的可抵御间接提示注入攻击;思维摘要功能将模型思考过程可视化,便于调试;Gemini 2.5 Pro即将新增“思考预算”控件,开发者可控制模型思考的长度,从而平衡质量与成本。
Gemini 2.5 Pro和Gemini 2.5 Flash的文本转语音功能支持多角色对话,能实现语气微妙变化、切换耳语模式、跨24种语言切换。
谷歌Gemini产品负责人Tulsee Doshi展示了Gemini 2.5 Pro的编程能力。现场,Gemini 2.5 Pro仅参照一张草图就生成了完整的3D交互网页,用时 37秒 就在原网页代码上完成修改。
Gemini 2.5 Pro现已在多款AI IDE平台(如Cursor等)中可用。谷歌昨日开启公测的 编程助手Jules也接入了Gemini 2.5 Pro ,能独立处理GitHub代码库的复杂任务,将原本耗时数小时的工作缩短至分钟级。
谷歌Jules用户界面
在模型架构创新方面,谷歌将扩散模型技术应用于文本生成。全新的 Gemini Diffusion实验模型(扩散语言模型) 的生成速度比Gemini 2.5 Flash快5倍。这款模型不仅仅能按顺序从左到右生成内容,还可以生成过程中快速迭代解决方案,并在生成过程中进行错误纠正。
谷歌打造了Gemini 2.5的 “深度思考(Deep Think)”模式 ,运用类AlphaGo的并行推理技术。这一模式已经在美国数学奥林匹克2025测试和Live Codebench编程测试取得不错的效果,但由于需要额外安全评估,谷歌将先向可信测试者开放API。
哈萨比斯称,谷歌未来的重点是将Gemini模型扩展为一个“世界模型”。模型对物理世界的理解能力,不仅对视频、3D生成至关重要,也是机器人技术突破的关键。为此,谷歌还专门 微调了Gemini Robotics模型 ,能让机器人学习抓取物体、遵循指令等任务,并能够即时适应新任务。
谷歌的终极愿景是将Gemini打造成真正的通用AI助手(Universal AI Assistant),具备个性化、主动性和强大能力。
03.Veo 3一次性生成超真实有声视频,每月花1800元才能体验
多模态模型方面,谷歌发布了最新 图像生成模型Imagen 4 。Imagen 4可以逼真地刻画出复杂的织物、水滴和动物毛皮等物体。这款模型最高支持2K分辨率,图片纵横比和自由定制,其文字生成和排版能力也有明显提升,给海报制作、PPT制作等生产级应用提供了更好的支持。
谷歌 视频生成模型Veo 2 新增了视频参考、相机控制、对象添加与删除等功能,而最新发布的 Veo 3 实现了有声视频的直接生成,能直接给城市街道场景的视频配上自然的噪音,或是直接生成人物之间的对话。此外,Veo 3在文本和图像提示、现实世界物理和口型同步方面都表现出色。
谷歌为Veo打造了配套的 AI电影制作工具Flow ,这一工具集成了Veo、Imagen和Gemini三款模型,可用于电影片段、场景和故事的创作。
音乐生成方面,谷歌进一步扩大了配套的 音乐创作平台Music AI Sandbox 的访问权限,由Lyria 2音乐生成模型提供技术支持。谷歌还打造了交互式音乐生成模型Lyria Realtime,允许用户实时交互地创建、控制音乐。
在大量AI生成内容出现之后,此类内容的识别也成为关键挑战。谷歌于2023年推出了SynthID水印,迄今为止已为100亿份AI生成的图像、视频、音频和文本内容添加水印。今天,谷歌进一步发布了SynthID检测器,这一验证门户能帮助人们更方便地识别AI生成内容。
Gemini将推出 Canvas功能 ,支持互动性的用户协作。用户描述需求后,Canvas可自动生成可分享的交互式内容,其他用户也可以对这一内容进行修改。
谷歌还推出了 Gemini in Chrome ,这是一款Chrome浏览器中内嵌的个性化助手,实时理解当前网页内容与用户所处的上下文。例如,在购物场景中,Gemini in Chrome可以帮助用户快速对比商品评论、辅助决策。这一功能将于本周面向美国用户开放。
Gemini App中将内置上述一系列谷歌的媒体内容生成模型。
04.联手三星、高通共建安卓XR,现场演示智能眼镜回消息、搜图片
谷歌副总裁、安卓XR主管沙赫拉姆·伊扎迪(Shahram Izadi)称,安卓平台现在正发生许多令人兴奋的变化。上周,谷歌已经发布了安卓16和Wear OS 6两大新一代操作系统,而今天发布的许多Gemini最新进展将很快登上安卓平台,不仅限于手机,还包括手表、汽车和智能电视。
而谷歌的 安卓XR是Gemini时代的首个安卓平台 ,将支持从头显到智能眼镜等多种设备类型,满足不同使用场景的需求,如沉浸式观影、游戏和工作等。
目前,谷歌正与三星合作共建 安卓XR ,并与高通合作针对骁龙平台进行优化。自去年发布开发者预览版以来,已有数百名开发者为该平台构建应用。
谷歌认为,智能眼镜是AI的理想载体。现场,谷歌工作人员和NBA球星“字母哥”一同展示了 谷歌眼镜原型机的使用体验 。
天气、时间、图像和消息等信息能以彩色形式显示在谷歌眼镜上,用户可以直接通过语音指令让安卓XR智能眼镜完成消息回复、开启勿扰模式、图像检索等操作。
这款眼镜还具备一定的 上下文记忆能力 。在演示人员登上台后,谷歌眼镜能回忆起刚才在后台看到的咖啡究竟是什么品牌的。
谷歌称,他们与三星的合作关系将会提升至新的高度,从头显拓展至智能眼镜领域,双方已经在合作开发软件和参考硬件平台。
继与三星合作的Project Moohan之后,谷歌的第二款安卓XR设备是与XREAL合作的Project Aura。这款智能眼镜使用了安卓XR的软件堆栈和高通骁龙XR芯片,配备光学透视(OST)和虚拟透视(VST)显示技术,拥有70度的视野,不过仍然采用了有线的设计。
05.AI Mode支持上传全身照虚拟试穿,跟踪低价代理结账
自去年在I/O大会上推出以来,谷歌搜索的AI Overviews月活用户已达15亿,在200多个国家和地区可用。
AI Overviews是Google Lens视觉搜索增长的驱动力之一。Google Lens搜索次数的年增长率为65%,今年已经完成 超过1000亿次视觉搜索 。
为提供更沉浸式的AI搜索体验,谷歌推出了全新的“AI Mode”。AI Mode以新标签页形式出现在搜索界面中,其底座是谷歌基于Gemini 2.5定制的模型版本。
这一模式下,其会针对用户需求对答案进行整合并提供方便阅读的答案形式,如附带评分的饭店信息、包含地图概览的答案等,同时,用户还可以通过对话形式进行后续追问。这项功能今天开始在美国推出。
AI Mode背后的关键技术是“查询扇出(query fan-out)”,可跨子主题和多个数据源同时发出多个相关搜索,然后将这些结果汇总在一起,提供易于理解的响应。
在个性化搜索能力方面,AI Mode允许用户引入更多偏好信息,帮助用户预定座位、进行所在地活动推荐等。对于用户需要获得更为详尽答案的问题,AI Mode能 代表用户发起数十次甚至数百次搜索 ,几分钟内生成一份专业级报告。
AI Mode在体育数据、金融分析中的深度应用会于今年夏天推出。如让其展示本赛季和上赛季使用鱼类球棒球员的打击率和上垒率,这个问题包含不同赛季、使用特定球棒的球员、打击率、上垒率等多个要素。其会动态为用户生成如图表等适应用户观看的界面。
AI Mode还重塑了用户的购物体验,帮助用户 定制浏览界面、虚拟试穿以及结账 。
AI Mode将Gemini与购物图谱相结合,拥有超过500亿个产品,并附有评论、价格、颜色选项和可用性等详细信息,同时会根据用户特定需求定制产品浏览面板。
基于AI Mode,用户选中衣服点击“试穿”图标、上传全身照,就能进行虚拟试穿。这一效果由时尚定制图像生成模型提供支持,该模型能够理解人体结构和服装的细微差别,例如不同面料在不同人体上的折叠、拉伸和悬垂效果。
同时,用户在商品详情上点击“跟踪价格”,然后设置合适的尺码、颜色以及期望的支付金额,AI Mode就会自动在不同网站监控降价信息,并向用户发送降价通知,将商品添加到用户购物车并通过Google Pay完成结账。这项视觉购物、结账功能将在未来几个月内陆续推出。
06.研究项目突破:3D视频通话、视频通话搜索为Agent引入多任务处理能力
皮查伊重点提到了目前正改变谷歌产品的三个例子:
第一个项目是在Project Starline之上,谷歌推出一个以AI为核心的 全新视频通话平台Google Beam ,该平台采用新一代视频模型将2D视频流转换为3D体验,通过6台摄像机组成的阵列捕捉用户动作,借助AI将这些视频流进行合并,实时处理呈现用户影像,精度达毫米级,每秒60帧。谷歌与惠普合作的首批Google Beam设备将于今年晚些时候向其测试用户推出。
此外,谷歌致力于将Project Starline的底层技术引入Google Meet视频会议平台,包括实时语音翻译功能。今天谷歌将直接在Google Meet中推出实时语音翻译功能,订阅用户可以使用英语和西班牙语,未来几周之内将会支持更多语言,今年晚些时候面向企业用户推出。
第二个项目是 实时、多模态的AI助手项目Project Astra ,如今Gemini Live已具备Project Astra的摄像头和屏幕共享功能,让用户可以畅聊所见的一切。
去年,Project Astra展示的 实时视觉、屏幕共享和记忆功能 已逐步集成至Gemini中,今天谷歌新增了更自然的原生语音交互和计算机控制功能。
Gemini Live API现已推出音频视频输入和本地音频输出的预览版本,开发者可以控制其语调、口音和说话风格。
Project Astra还可用于视障人士的辅助。谷歌演示了Project Astra如何帮助一名盲人音乐家完成现场演出。
第三个项目是 Project Marina ,这是一个能够与网络交互并且完成任务的Agent,谷歌将Agent视为结合了先进AI模型智能与工具访问能力的系统。
其中,计算机使用是一项使Agent能与浏览器和其他软件进行交互和操作的重要能力。谷歌引入了多任务处理能力,Project Marina可以同时 监管十项任务 ,用户展示一次任务,Agent还可以学会为未来类似的任务去制定相应的计划。
谷歌将通过Gemini API将Project Marina的计算机使用能力带给开发者,今年夏天会面向更广泛用户开放。
Gemini SDK现在兼容MCP工具,谷歌会逐步将整体功能引入到谷歌搜索以及Gemini应用。
07.结语:谷歌全面重塑搜索浏览器体验,剑指通用AI助手
哈萨比斯提到,过去的十年中,谷歌为现代AI时代奠定了许多基础,从率先提出所有大语言模型赖以构建的Transformer架构,到开发AlphaGo和AlphaZero等可以学习和规划的智能体系统, 并且已将这些技术应用于量子计算、数学、生命科学和算法发现领域的突破。
这也是其最新在年度开发者大会上宣布诸多更新的技术底座。谷歌在升级Gemini模型的同时,将更多的AI能力融入到搜索、Gmail和浏览器之中。同时,谷歌还预告了未来的重大举措,包括改进视频通话功能、打造更具感知力和对话能力的助手,以及合作开发智能眼镜。
这些都彰显出谷歌作为科技巨头雄厚的技术实力和广泛的应用市场,并且在I/O大会上,谷歌也提到将在基础研究上加倍投入,真正构建更个性化、更主动、更强大的AI。未来实现通用人工智能(AGI)的下一个突破性技术或许将会更快到来。
- 新闻
- CEO
- CTO
- CIO
- CMO
- VP
- 互联网
推荐
我要评论