文 | 孙永杰
经过多轮的市场传言猜测与情绪反转,美国政府最终对英伟达的H20芯片升级了出口管制,随即英伟达CEO黄仁勋时隔3个月再次到访中国,表示希望继续与中国合作,可见此举在业内引发的震动。而随着H20芯片在中国市场的受限,国内AI芯片替代的真正大考也正式开启。
英伟达H20等受限,国内厂商迎替代大考机会
说到H20芯片的出口管制,近日,英伟达发布8-K文件称,美国政府于4月9日告知,H20芯片出口到中国需要许可证,此后又于14日告知,这些规定将无限期实施。美国将H20纳入“非民用超算风险清单”,意味着AI芯片管制从高端产品(如A100、H100)延伸至定制化中端产品。需要说明的是,H20是英伟达在中国合法销售的主要芯片,是在2023年10月美国最新一轮出口限制生效后推出的。
几乎与此同时,美国商务部宣布,AMD MI308以及同类型的AI芯片,也增加了新的中国出口许可要求。而英特尔也似乎没有获得任何豁免,据报道,该公司同样需要获得出口许可证才能向中国销售其Gaudi芯片。
对此,华泰证券指出,H20销售受限或已被市场预期,但新规或昭示将堵住以内存弥补算力漏洞。而万联证券则认为,此次美国政府对H20进行许可证管理,表明贸易管制力度加大,认为H20在中国市场的销售或将面临较大限制或导致英伟达在中国市场份额有所流失,国内AI芯片厂商有望承接更多市场份额。该机构进一步指出,关税博弈未定,全球贸易摩擦或加剧半导体产业国产化进程有望进一步加速,国产算力将迎来发展机遇。
而在我们看来,随着英伟达H20、AMD MI308及同类型的AI芯片和英特尔Gaudi芯片在中国市场销售的受限,国产AI芯片直面替代大考的机会真的来了,即国内厂商有了前所未有的市场空间去验证自身产品的性能、可靠性、生态兼容性以及供应链的稳定性等。
本土力量崛起,华为昇腾领跑光环下的隐忧
提及替代英伟达GPU大考的机会,华为的昇腾(Ascend)系列芯片无疑是目前最受瞩目、声量最大,且在实际部署上走得最远的本土替代选项。尤其是以昇腾910C为代表的最新一代产品,正成为中国构建本土AI基础设施的核心。
更重要的是,华为已将芯片的能力延伸至系统层面,通过CloudMatrix这样的计算系统(例如近日被媒体广泛报道的由384块昇腾910C组成、采用全对全互联拓扑的CM384系统)来聚合算力,其超节点在规模及推理性能已比肩英伟达NVL72超节点的水平。而这和构成该计算系统最核心的华为昇腾910C芯片密不可分。
据包括Huawei Central、TrendForce News和Reddit等多个可靠来源和平台的研究分析,昇腾910C是通过将两个昇腾910B芯片组合而成,采用了共封装(co-packaging)或芯片组(chiplets)技术。而通过组合两个910B芯片,910C的计算能力显著提升,达到了800 TFLOP/s(FP16)的计算能力和3.2 TB/s的内存带宽,几乎是英伟达H100性能的80%。
所谓有利就有弊,这种设计方式虽然在短期内提升了性能,但也带来了显著的弊端。
首先从技术层面看,这种设计会导致诸如功耗增加、互连瓶颈等。
以功耗增加为例,更高的功耗意味着更多的散热需求,增加了散热系统的成本和复杂性(例如需要更强大的风扇、散热片或液冷系统)。同时,在数据中心等对能效要求高的场景下,高功耗会显著增加运营成本。
据知名半导体和人工智能研究公司SemiAnalysis称,CM384系统功耗远高于英伟达的GB200 NVL72系统。例如它需要GB200 NVL72 3.9倍的功耗,每FLOP的功耗差2.3倍,每TB/s内存带宽的功耗差1.8倍,以及每TB HBM内存容量的功耗差1.1倍(“功耗差X倍”在这里表示相对于基准GB200 NVL72,每单位性能/容量所需的功耗是其X倍,即能效差了X倍)。而导致上述的部分原因可能就源于昇腾910C芯片本身的这种组合设计。
不要小看功耗的增加,在实际部署层面,每台AI GPU服务器的基础投资约为40万美元,其中电源、冷却等基础设施就占建设成本的1/3以上。据IDC调研显示,80%的数据中心决策者将能耗与散热视为关键制约因素,而具体到华为CM384系统功耗为GB200 NVL72的3.9倍,其长期运行成本势必水涨船高,而如何在规模扩张与能效之间找到平衡是巨大的挑战。
至于互连瓶颈,尽管910C旨在解决910B在跨卡互连方面的严重问题,但组合两个芯片的设计仍可能存在互连带宽的限制。来自Huawei Central的研究显示,910C的die-to-die带宽仅为Nvidia H100的1/10至1/20。而这种瓶颈可能影响大规模AI训练任务的效率,具体表现为性能无法按裸片数量实现线性扩展,表现为两个裸片通常无法达到单个同等技术裸片性能的两倍,尤其是在需要高带宽的场景中,如训练大型语言模型(LLM)。同时数据在不同裸片之间传输还会带来额外的延迟和功耗。
除了上述技术层面,在生态系统与市场层面,众所周知,与昇腾芯片同属于昇腾计算的华为MindSpore的AI框架虽然在不断发展,但仍无法与英伟达的CUDA平台相提并论。
例如Unite.AI的分析就指出,MindSpore的成熟度和广泛采用度较低,可能限制开发者采用,尤其是对于长期AI训练任务,这可能导致910C在软件支持和开发者生态系统方面落后于英伟达,从而在实际应用中效率降低。
最后,也更为关键的是,据SemiAnalysis、TechInsights、WCCFTech等的拆解、分析和报道确认,尽管昇腾910C部分由中芯国际(SMIC)制造,但受限于良率(据称华为昇腾芯片良率仅为32%,也有报道称,昇腾910C的良率已提高至近40%,但仍低于60%的行业标准)和产能,其绝大部分仍是采用台积电的7nm工艺制造。
究其原因,国内晶圆代工厂,如中芯国际虽然在技术上已经掌握了7nm工艺,但相较于台积电,其在先进制程的良率、稳定性、大规模量产能力以及配套的设备和材料生态等方面仍存在差距。尤其对于像昇腾910C这样尺寸较大、技术复杂的AI芯片,对制造工艺的要求更高,中芯国际在满足其大规模、高良率生产方面仍面临挑战。
因此,即便存在国内制造的选项,华为为了保障供应的稳定性和产品性能,仍然倾向于依赖技术更成熟、产能更稳定的台积电,这凸显了中国在先进制程制造环节“卡脖子”困境下,通过第三方渠道获取晶圆的模式。
此外,昇腾910C关键组件,如HBM主要来自韩国供应商三星(据SemiAnalysis称,主要采用三星在大中华区的HBM独家经销商CoAsia Electronics向ASIC设计服务公司Faraday发货HBM,后者再委托SPIL采用便于后续提取的低熔点焊料将其与廉价的16nm逻辑芯片一起“封装”,最后运到中国以拆焊的方式回收HBM使用)。而众所周知的是,这种以基于规避为核心目的的供应链模式,除了合法性存疑外,稳定性极差,风险性极高,是最大的隐忧。
国内厂商多点开花, 方能降风险、保稳定、促自主
如前述,我们不难看到,尽管华为昇腾910C在国内应用和替代中处在领跑的位置,但无论从芯片本身的性能、所处的生态、还是关键的供应链模式等环节,因为客观或自身的原因均存在较大的隐忧,而这就需要国内其他相关厂商必须参与到替代的大考中来。
事实是,在AI芯片领域,除华为外,科技大厂阿里、百度、腾讯均已布局自研AI芯片;在纯芯片厂商中,既有寒武纪、景嘉微、海光信息等上市公司,也涌现出如芯动科技、瀚博半导体、沐曦集成电路、天数智芯、地平线等一批兼具技术沉淀与创新活力的企业。
其中属于科技大厂的阿里巴巴(含平头哥的含光芯片)、百度(昆仑芯)、腾讯、商汤科技等,它们基于自身庞大的业务需求,开发用于内部场景的AI芯片。这些芯片主要服务于其自有的云平台或业务,虽不直接面向广泛的外部市场销售,但代表了国内顶尖的应用场景驱动型芯片设计能力,是国产AI算力体系的重要组成部分。
至于属于上市公司的海光信息,其海光DCU系列产品以GPGPU架构为基础,建立的自研软件栈全面兼容CUDA生态以及国际主流商业计算软件、人工智能软件,可广泛应用于大数据处理、人工智能、商业计算等领域,已应用于国产超算和AI训练场景,可承接部分H20受限后的市场需求。百度、阿里、腾讯等互联网企业已认证通过海光的DCU产品并推出联合方案,打造全国产软硬件一体全栈AI基础设施。此外,科大讯飞、商汤和云从等国内头部AI企业,已有大量模型移植并运行在海光DCU平台上。
又如寒武纪,作为国产AI芯片的头部企业,其思元系列芯片在云端和边缘计算领域可部分替代英伟达的产品,尤其是通过第五代智能处理器微架构,其产品可满足云端训练等场景需求。
除上述老牌企业外,自2019年以来,一批国产GPU初创公司也先后成立,并涌现了诸如壁仞科技、摩尔线程、燧原科技等AI芯片设计独角兽。
例如其中的摩尔线程,与华为昇腾有所不同,其目标是构建一个更广泛的通用GPU生态系统。为此,摩尔线程构建了MUSA(Moore Threads Unified System Architecture)统一的软件平台。而近日,摩尔线程正式发布MUSA SDK4.0.1,其最大的突破就是实现了从芯片设计到软件栈的"全链路贯通",且实现对于英伟达CUDA全盘的迁移,用户使用习惯不会改变,速度却快15%以上
至于同属AI芯片设计独角兽的壁仞科技,则早在2022年就推出了采用7nm制程的GPGPU芯片BR100,该芯片峰值算力达到国际厂商彼时在售旗舰产品3倍以上,创下国内互连带宽纪录。
从上述我们不难看出,除华为昇腾外,国内还有许多在AI芯片领域实力不俗,且有不乏具备可替代英伟达GPU的企业,而鉴于我们前述华为昇腾存在的隐忧,惟有这些企业积极参与,形成多点开花,方能在替代的过程中,降风险、保稳定、促自主。
写在最后:英伟达H20等近期在中国市场的受限,突显了国内替代方案的重要性。但通过上述,我们认为,中国AI芯片的替代,乃至未来的自主之路,不能仅靠个别企业,更不可长期依赖充满不确定性的规避手段的供应链模式,而是在于多点开花,支持包括华为、海光信息、摩尔线程等在内的多元化的国内AI芯片企业的协同发展,借此构建真正强大、完整、有韧性的全产业链自主生态,才是加速实现中国AI芯片自主可控的正解。