腾讯云发布专有云智算套件,助力企业打造专有智算云

  • 2024-07-02

  • 来源:极客公园

6 月 28 日,腾讯云副总裁李力在 A2M 人工智能创新峰会上宣布,腾讯云推出基于公有云的成熟实践的专有云智算套件。

该套件集合了腾讯云高性能计算集群构建模块、智能高性能网络 IHN、高并发文件存储系统 TurboFS、算力加速框架 Taco 以及 GPU 算力共享技术等核心能力,与腾讯云专有云平台 TCE 结合,能够支撑企业基于自有硬件搭建高性能的专有智算云,满足在私有算力环境下训练大模型的诉求。

据了解,腾讯云智算套件提供的算、存、网一体的云原生能力,能够帮助企业高效利用算力卡资源,解决算力集群的木桶短板效应。比如,腾讯云自研高性能智能网络 IHN,能够实现企业算力卡持续稳定高带宽通信;腾讯云高性能文件存储系统,能够有效解决海量数据存储的读写性能瓶颈问题。

同时,智算套件还在调度架构层融合了腾讯云自研的算力加速框架 Taco 和 GPU 算力共享技术 qGPU。其中 Taco 基于网络协议、通信策略、AI 框架、模型编译等多层级的优化,能够大幅提升大模型训练和推理业务性能;qGPU 能够在算力集群内对算力卡实现精准切分,提升卡的利用效率。

另一方面,腾讯云 TCE 拥有跟公有云同源同构的技术架构和「一云多芯」的能力,能够灵活支持不同规模的云平台构建,还能屏蔽底层硬件差异,更好地纳管不同类型的硬件设施。

腾讯云智算套件源自腾讯云公有云算力集群 HCC 的成熟实践。去年,腾讯云在行业率先发布了大模型公有云算力集群 HCC,该集群结合腾讯云星星海自研服务器,腾讯云自研高性能智能网络提供的 3.2T 超高互联带宽,以及腾讯自研高并发文件存储系统,能够为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

当前,AI 正在逐步从辅助技术成为引领行业变革的关键要素。作为这一变革的重要支撑之一,云计算正与 AI 深度融合,孕育出 AI 原生云这一全新的技术形态。

腾讯云联合 Gartner 发布的《AI 原生云建设与加速指南》指出,AI 原生云将 AI 技术深度融合到云服务的每一个层面,并着重于开放性和生态系统的构建,通过提供丰富的 API 和 SDK,以支持 AI 原生新服务和应用的开发。

李力介绍,腾讯云将围绕 AI 原生云,为客户提供生成式 AI 驱动的新一代云平台架构,为客户带来 AI 原生理念的基础设施、模型、工程、应用、全栈安全防护等五大核心能力。

其中,基础设施层,腾讯云构建了支持多 GPU 卡型的统一算力平台,结合长稳训练、利用率提升以及任务和节点的异常恢复机制等技术,能够助力模型训练提效 200%,提升硬件资源利用率至 99%+。

在工程平台层面,腾讯云打造了基于腾讯云高性能服务 HAI 与 云端开发工具 CloudStudio 的 GPU 开发空间;腾讯云向量数据库提供了全面的数据检索增强套件能力;腾讯云机器学习平台 TI 提供了从数据标注到模型推理的工具链。在此之上,腾讯云 OrcaTerm AI 助手、AI 代码助手可以提供智能运维、技术问答、代码补全等 AI 辅助能力。

在模型层,腾讯自研的大模型混元最大参数量级已过万亿,在国内率先采用混合专家模型 (MoE) 结构,部分中文能力已追平 GPT-4,在「时新」问题的回答表现上,数学、推理等能力上均有较大提升。同时,腾讯会议等腾讯 SaaS 产品已经全面接入腾讯混元大模型。

在安全方面,腾讯全栈安全产品都已应用 AI 技术,并在实际攻防场景中守护安全防线,同时,腾讯云还在积极探索生成式 AI 在安全场景的落地。

值得一提的是,腾讯云还支持通过分布式云的方式部署,能够为用户在多云、混合云场景下提供一致的产品服务和体验,并且通过集中管控,统一管理位于不同位置的云资源和业务应用,帮助用户在任意位置获取需要的 AI 原生云资源与云服务。

截至目前,包括百川智能、MiniMax、智谱科技、元象等在内的 90% 头部大模型企业,都在使用腾讯云的解决方案。

  • 推荐
  • 新闻
  • 观点
  • IT/互联网
  • 软件信息
  • CIO
  • CDO
  • 数字经济
  • 工业互联网
  • 智能制造
  • 人工智能
  • 战略
  • 研发
  • 生产制造
  • 运营
  • 市场营销
  • 销售
  • 财务
  • 人力资源
  • IT

推荐

    我要评论