海外科技行业:算力需求高增AI ASIC突围在即

2024-11-07
金锦囊免费
开通

由于制造工艺接近物理极限,芯片性能提升速度放缓,同时,功耗散热问题 越来越严重,成为性能提升的瓶颈。以 GPU 为例,近年来,GPU 的单位面 积计算性能(TFLOPS/mm^2)提升缓慢,其性能提升主要依靠面积变大。 NVIDIA 的 B200、AMD 的 MI300、英特尔的 Gaudi 3 都将两块芯片算作 一张卡,以实现“双倍”性能。

对此困境,卸载通用计算芯片的部分功能,设计出针对特定场景的芯片,是 提升芯片性能、降低能耗的重要方式。参考比特币矿机,由于比特币的算法 固定,芯片厂商可以针对其算法设计专用 ASIC 芯片,成本更低,同时处理 速度要比 GPU 快几个数量级,性价比更高。

算法稳定性也是影响 ASIC 发展的重要因素。如果 AI 算法发生较大变化, 那么根据之前算法设计的ASIC计算效率就会大幅下降。以Sohu芯片为例, 它将专用性做到极致,仅支持 Transformer 算法,由于删除了绝大多数控制 流逻辑,它获得了极高的数学性能,FLOPS 利用率超过 90%,每秒 token 处 理数超过 H100 的 20 倍,但它牺牲了通用性,无法运行 CNN(Convolutional Neural Network,卷积神经网络)、RNN(Recurrent Neural Network)或 LSTM(Long Short Term Memory)等 AI 算法。 深度学习发展至今,模型架构经历从 RNN、LSTM 到 Transformer 的演进历 程,Transformer 在大语言模型开发中占据主导地位,且 Scaling law 并未 失效,Transformer 并未达到天花板。OpenAI 的 GPT 系列模型、llama、文 心一言、通义千问等前沿的大语言模型都基于 Transformer 架构进行训练, 多模态大模型也大都采用 Transformer,只是可能会结合专门处理图像数据 的 CNN 组件,需要使用跨模态的注意力机制、联合嵌入空间或特殊的融合 层来对不同模态信息进行融合。 由于 Transformer 存在内存需求巨大的问题,一些学界或创业团队也在探索 非 Transformer 架构,试图提高计算效率、降低计算成本。目前主要分为 RWKV、Mamba、retnet 为代表用循环结构代替 attention,以及把 full attention 密集结构变得稀疏的两类路径,他们对内存占用的需求更低,有更高的计算 效率,但业界对其是否具备 Transformer 一样的高天花板存疑,此外,从研 究资源、软硬件生态角度看,Transformer 架构具备较高的护城河,非 Transformer 仍存在较大的差距。

  • 金锦囊会员,可查看全部
  • 还剩页未读,继续阅读
    • 人工智能
    • 大模型
    • 生成式AI
    • 云经济
    • 数字化转型
    https://www.jnexpert.com/active/signup?id=321&ticketid=245
    https://www.jnexpert.com/active/detail?id=329
    https://www.jnexpert.com/active/detail?id=327
    https://d-awards.jnexpert.com/

    报告信息

    • 发布机构

    • 发布时间

    • 报告价格

    立即下载