海外科技行业：算力需求高增AI ASIC突围在即

首页咨询服务政企服务会议服务

2024-11-07

金锦囊免费

开通

由于制造工艺接近物理极限，芯片性能提升速度放缓，同时，功耗散热问题越来越严重，成为性能提升的瓶颈。以 GPU 为例，近年来，GPU 的单位面积计算性能（TFLOPS/mm^2）提升缓慢，其性能提升主要依靠面积变大。 NVIDIA 的 B200、AMD 的 MI300、英特尔的 Gaudi 3 都将两块芯片算作一张卡，以实现“双倍”性能。

对此困境，卸载通用计算芯片的部分功能，设计出针对特定场景的芯片，是提升芯片性能、降低能耗的重要方式。参考比特币矿机，由于比特币的算法固定，芯片厂商可以针对其算法设计专用 ASIC 芯片，成本更低，同时处理速度要比 GPU 快几个数量级，性价比更高。

算法稳定性也是影响 ASIC 发展的重要因素。如果 AI 算法发生较大变化，那么根据之前算法设计的ASIC计算效率就会大幅下降。以Sohu芯片为例，它将专用性做到极致，仅支持 Transformer 算法，由于删除了绝大多数控制流逻辑，它获得了极高的数学性能，FLOPS 利用率超过 90%，每秒 token 处理数超过 H100 的 20 倍，但它牺牲了通用性，无法运行 CNN（Convolutional Neural Network，卷积神经网络）、RNN（Recurrent Neural Network）或 LSTM(Long Short Term Memory)等 AI 算法。深度学习发展至今，模型架构经历从 RNN、LSTM 到 Transformer 的演进历程，Transformer 在大语言模型开发中占据主导地位，且 Scaling law 并未失效，Transformer 并未达到天花板。OpenAI 的 GPT 系列模型、llama、文心一言、通义千问等前沿的大语言模型都基于 Transformer 架构进行训练，多模态大模型也大都采用 Transformer，只是可能会结合专门处理图像数据的 CNN 组件，需要使用跨模态的注意力机制、联合嵌入空间或特殊的融合层来对不同模态信息进行融合。由于 Transformer 存在内存需求巨大的问题，一些学界或创业团队也在探索非 Transformer 架构，试图提高计算效率、降低计算成本。目前主要分为 RWKV、Mamba、retnet 为代表用循环结构代替 attention，以及把 full attention 密集结构变得稀疏的两类路径，他们对内存占用的需求更低，有更高的计算效率，但业界对其是否具备 Transformer 一样的高天花板存疑，此外，从研究资源、软硬件生态角度看，Transformer 架构具备较高的护城河，非 Transformer 仍存在较大的差距。

金锦囊会员，可查看全部

还剩页未读，继续阅读

人工智能
大模型
生成式AI
云经济
数字化转型

https://www.jnexpert.com/active/detail?id=329

https://www.jnexpert.com/active/detail?id=327

热门合集

全部合集

报告信息

发布机构
发布时间
报告价格

立即下载

海外科技行业：算力需求高增AI ASIC突围在即

报告信息

完善信息

完善信息