腾讯云发布专有云智算套件，助力企业打造专有智算云

2024-07-02
来源:极客公园

6 月 28 日，腾讯云副总裁李力在 A2M 人工智能创新峰会上宣布，腾讯云推出基于公有云的成熟实践的专有云智算套件。

该套件集合了腾讯云高性能计算集群构建模块、智能高性能网络 IHN、高并发文件存储系统 TurboFS、算力加速框架 Taco 以及 GPU 算力共享技术等核心能力，与腾讯云专有云平台 TCE 结合，能够支撑企业基于自有硬件搭建高性能的专有智算云，满足在私有算力环境下训练大模型的诉求。

据了解，腾讯云智算套件提供的算、存、网一体的云原生能力，能够帮助企业高效利用算力卡资源，解决算力集群的木桶短板效应。比如，腾讯云自研高性能智能网络 IHN，能够实现企业算力卡持续稳定高带宽通信;腾讯云高性能文件存储系统，能够有效解决海量数据存储的读写性能瓶颈问题。

同时，智算套件还在调度架构层融合了腾讯云自研的算力加速框架 Taco 和 GPU 算力共享技术 qGPU。其中 Taco 基于网络协议、通信策略、AI 框架、模型编译等多层级的优化，能够大幅提升大模型训练和推理业务性能;qGPU 能够在算力集群内对算力卡实现精准切分，提升卡的利用效率。

另一方面，腾讯云 TCE 拥有跟公有云同源同构的技术架构和「一云多芯」的能力，能够灵活支持不同规模的云平台构建，还能屏蔽底层硬件差异，更好地纳管不同类型的硬件设施。

腾讯云智算套件源自腾讯云公有云算力集群 HCC 的成熟实践。去年，腾讯云在行业率先发布了大模型公有云算力集群 HCC，该集群结合腾讯云星星海自研服务器，腾讯云自研高性能智能网络提供的 3.2T 超高互联带宽，以及腾讯自研高并发文件存储系统，能够为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

当前，AI 正在逐步从辅助技术成为引领行业变革的关键要素。作为这一变革的重要支撑之一，云计算正与 AI 深度融合，孕育出 AI 原生云这一全新的技术形态。

腾讯云联合 Gartner 发布的《AI 原生云建设与加速指南》指出，AI 原生云将 AI 技术深度融合到云服务的每一个层面，并着重于开放性和生态系统的构建，通过提供丰富的 API 和 SDK，以支持 AI 原生新服务和应用的开发。

李力介绍，腾讯云将围绕 AI 原生云，为客户提供生成式 AI 驱动的新一代云平台架构，为客户带来 AI 原生理念的基础设施、模型、工程、应用、全栈安全防护等五大核心能力。

其中，基础设施层，腾讯云构建了支持多 GPU 卡型的统一算力平台，结合长稳训练、利用率提升以及任务和节点的异常恢复机制等技术，能够助力模型训练提效 200%，提升硬件资源利用率至 99%+。

在工程平台层面，腾讯云打造了基于腾讯云高性能服务 HAI 与云端开发工具 CloudStudio 的 GPU 开发空间;腾讯云向量数据库提供了全面的数据检索增强套件能力;腾讯云机器学习平台 TI 提供了从数据标注到模型推理的工具链。在此之上，腾讯云 OrcaTerm AI 助手、AI 代码助手可以提供智能运维、技术问答、代码补全等 AI 辅助能力。

在模型层，腾讯自研的大模型混元最大参数量级已过万亿，在国内率先采用混合专家模型 (MoE) 结构，部分中文能力已追平 GPT-4，在「时新」问题的回答表现上，数学、推理等能力上均有较大提升。同时，腾讯会议等腾讯 SaaS 产品已经全面接入腾讯混元大模型。

在安全方面，腾讯全栈安全产品都已应用 AI 技术，并在实际攻防场景中守护安全防线，同时，腾讯云还在积极探索生成式 AI 在安全场景的落地。

值得一提的是，腾讯云还支持通过分布式云的方式部署，能够为用户在多云、混合云场景下提供一致的产品服务和体验，并且通过集中管控，统一管理位于不同位置的云资源和业务应用，帮助用户在任意位置获取需要的 AI 原生云资源与云服务。

截至目前，包括百川智能、MiniMax、智谱科技、元象等在内的 90% 头部大模型企业，都在使用腾讯云的解决方案。

推荐
新闻
观点
IT/互联网
软件信息
CIO
CDO
数字经济
工业互联网
智能制造
人工智能
战略
研发
生产制造
运营
市场营销
销售
财务
人力资源
IT

深圳8月研修班高级数字化管理师培训及等级认证考试

腾讯云发布专有云智算套件，助力企业打造专有智算云

下一篇

相关文章

下一篇