【深度】华为超节点与先进封装—国产AI决胜之战,超过H800约20%性能,增量分析。
  钱安 2024年05月27日 9320 7

Ps. 所有文章数据均引自华为有关论文和有关网络平台信息。\"u003Co":p><\"u002Fo":p>

近期市场,国产自主产业链异动频传,有一个非常重要的原因是因为华为AI芯片基于cloudmatrix超节点实现了对同等架构下的H800芯片的性能反超,相关论文近期发表在了康奈尔大学的论文提前刊arxiv上(详情参考有关论文)。\"u003Co":p><\"u002Fo":p>

本文内容重在分析,基于论文数据,给出全新的解读,国产AI腾飞已在眼前。\"u003Co":p><\"u002Fo":p>

基于上述逻辑,我们在四月判断华为超节点的问世及其中CPO的泛用性必然导致CPO底层逻辑转暖,由此产生了两个月的CPO主升行情(同时期铜缆明显弱势,逻辑出现缺口),核心品种如供应链中的仕佳光子。\"u003Co":p><\"u002Fo":p>

近期,超节点测试反馈到来,市场出现了全新的逻辑,以文章第二段引用的华为参考文献 为例,基于超节点的华为AI运行的DeepSeek-r1比对等基于NV72H100芯片,在单卡性能超出20%以上。(详细分析见下方)\"u003Co":p><\"u002Fo":p>

具体我们上数据,从论文中摘取信息:\"u003Co":p><\"u002Fo":p>

—————基于节点单卡吞吐量对比——————\"u003Co":p><\"u002Fo":p>

1.  数据处理阶段。\"u003Co":p><\"u002Fo":p>

上三列为常规模式下吞吐,下三列为专家并行模式下吞吐,右边两列分别展示了单卡吞吐和单卡吞吐效率。\"u003Co":p><\"u002Fo":p>

image.png

\"u003Cv":shapetype id=\"_x0000_t75\" coordsize=\"21600,21600\" "o":spt=\"75\" "o":preferrelative=\"t\" path=\"m@4@5l@4@11@9@11@9@5xe\" filled=\"f\" stroked=\"f\">\"u003Cv":stroke joinstyle=\"miter\">\"u003Cv":formulas>\"u003Cv":f eqn=\"if lineDrawn pixelLineWidth 0\">\"u003Cv":f eqn=\"sum @0 1 0\">\"u003Cv":f eqn=\"sum 0 0 @1\">\"u003Cv":f eqn=\"prod @2 1 2\">\"u003Cv":f eqn=\"prod @3 21600 pixelWidth\">\"u003Cv":f eqn=\"prod @3 21600 pixelHeight\">\"u003Cv":f eqn=\"sum @0 0 1\">\"u003Cv":f eqn=\"prod @6 1 2\">\"u003Cv":f eqn=\"prod @7 21600 pixelWidth\">\"u003Cv":f eqn=\"sum @8 21600 0\">\"u003Cv":f eqn=\"prod @7 21600 pixelHeight\">\"u003Cv":f eqn=\"sum @10 21600 0\"><\"u002Fv":f><\"u002Fv":f><\"u002Fv":f><\"u002Fv":f><\"u002Fv":f><\"u002Fv":f><\"u002Fv":f><\"u002Fv":f><\"u002Fv":f><\"u002Fv":f><\"u002Fv":f><\"u002Fv":f><\"u002Fv":formulas>\"u003Cv":path "o":extrusionok=\"f\" gradientshapeok=\"t\" "o":connecttype=\"rect\">\"u003Co":lock "v":ext=\"edit\" aspectratio=\"t\"><\"u002Fo":lock><\"u002Fv":path><\"u002Fv":stroke><\"u002Fv":shapetype>\"u003Cv":shape id=\"Picture_x0020_3\" "o":spid=\"_x0000_i1030\" type=\"#_x0000_t75\" style=\""width": 415pt; "height": 182pt; "visibility": visible;\">\"u003Cv":imagedata src=\""file":////Users/yuanwang/Library/Group%20Containers/UBF8T346G9.Office/TemporaryItems/msohtmlclip/clip_image001.png\" "o":title=\"\"><\"u002Fv":imagedata><\"u002Fv":shape>\"u003Co":p><\"u002Fo":p>

可以明显看到虽然在单卡性能方面华为单卡距离H800H100尚有一定差距,但在整体吞吐效率(实际计算效率 ,对应同等算力下产生的计算吞吐量)实现了大幅超出,整体性能高于H80020%\"u003Co":p><\"u002Fo":p>

2.  文本生成阶段。\"u003Co":p><\"u002Fo":p>

image.png

\"u003Cv":shape id=\"Picture_x0020_5\" "o":spid=\"_x0000_i1029\" type=\"#_x0000_t75\" style=\""width": 415pt; "height": 151pt; "visibility": visible;\">\"u003Cv":imagedata src=\""file":////Users/yuanwang/Library/Group%20Containers/UBF8T346G9.Office/TemporaryItems/msohtmlclip/clip_image002.png\" "o":title=\"\"><\"u002Fv":imagedata><\"u002Fv":shape>\"u003Co":p><\"u002Fo":p>

单卡性能依然有所不及,但整体计算效率依然高出H800在专家模式下近20%\"u003Co":p><\"u002Fo":p>

—————通信算子的时延和带宽对比——————\"u003Co":p><\"u002Fo":p>

image.png

\"u003Cv":shape id=\"Picture_x0020_6\" "o":spid=\"_x0000_i1028\" type=\"#_x0000_t75\" style=\""width": 415pt; "height": 183pt; "visibility": visible;\">\"u003Cv":imagedata src=\""file":////Users/yuanwang/Library/Group%20Containers/UBF8T346G9.Office/TemporaryItems/msohtmlclip/clip_image003.png\" "o":title=\"\"><\"u002Fv":imagedata><\"u002Fv":shape>\"u003Co":p><\"u002Fo":p>

通信环节,超节点在调度分发环节比基于NV72H800整体性能 高出20%,而在整合环节带宽高出2.5倍,时延对等降低约70%,性能超过一倍以上\"u003Co":p><\"u002Fo":p>

—————其他性能——————\"u003Co":p><\"u002Fo":p>

image.png

\"u003Cv":shape id=\"Picture_x0020_7\" "o":spid=\"_x0000_i1027\" type=\"#_x0000_t75\" style=\""width": 415pt; "height": 212pt; "visibility": visible;\">\"u003Cv":imagedata src=\""file":////Users/yuanwang/Library/Group%20Containers/UBF8T346G9.Office/TemporaryItems/msohtmlclip/clip_image004.png\" "o":title=\"\"><\"u002Fv":imagedata><\"u002Fv":shape>\"u003Co":p><\"u002Fo":p>

MLA算子调度方面,受限于单卡性能和制程,在带宽上略有不及,但整体计算效率几乎逼平H800\"u003Co":p><\"u002Fo":p>

总体上可以说,基于超节点的华为AI芯片,整体性能上高于H800接近20%(以单位算力比较)。\"u003Co":p><\"u002Fo":p>

\"u003Co":p> <\"u002Fo":p>

如此优异的数据,但为何这款华为顶尖Ai芯片至今依然没有大规模商用,这其中又有什么问题?,其实这里有一个非常关键的漏洞,虽然性能超出H800,但谈性能前 不聊成本都是妄谈。据外国媒体报道,在同等算力规模下华为最新AI芯片的芯片成本为H800芯片的1.52倍左右\"u003Co":p><\"u002Fo":p>

image.png

\"u003Cv":shape id=\"Picture_x0020_8\" "o":spid=\"_x0000_i1026\" type=\"#_x0000_t75\" style=\""width": 415pt; "height": 187pt; "visibility": visible;\">\"u003Cv":imagedata src=\""file":////Users/yuanwang/Library/Group%20Containers/UBF8T346G9.Office/TemporaryItems/msohtmlclip/clip_image005.png\" "o":title=\"\"><\"u002Fv":imagedata><\"u002Fv":shape>\"u003Co":p><\"u002Fo":p>

你可能会疑问,如此大的成本差是为什么,是技术上的差异么 ?\"u003Co":p><\"u002Fo":p>

答案其实很简单,流片就是那致命的一刀,台积电给H100的流片良率在80%90%而据台湾电子时报和半导体专业资讯平台techovedas消息,目前华为整体的流片良率(Yields)仅有30%40%,距离其设置的60%的商业化生产良率尚有较大差距,几乎意味着华为AI芯片的的生产成本在H800的两倍以上。\"u003Co":p><\"u002Fo":p>

image.png

巨大的生产成本差距,必然导致形片的整体成本巨幅上升,从而最终导致我们看到巨大的成本差。\"u003Co":p><\"u002Fo":p>

清楚了问题的关键,再来看国产AI芯片链条这条线上,我们有什么样的办法去解决这个问题?\"u003Co":p><\"u002Fo":p>

同样以台积电为例,其流片H8004nm工艺在前道范围内(光刻)良率在90%甚至95%以上,而在后道领域(封装)Cowos-L封装由于其封装的复杂性和成本磨损,会引入10%15%的损耗,最终导致整体良率在80%附近。\"u003Co":p><\"u002Fo":p>

可见,对于成熟的Ai芯片其工艺流程前道和后道几乎对控制良率起着相同的作用,甚至后道流程的影响更大(更详细参考deepseek)。\"u003Co":p><\"u002Fo":p>

image.png

\"u003Cv":shape id=\"Picture_x0020_1\" "o":spid=\"_x0000_i1025\" type=\"#_x0000_t75\" style=\""width": 415pt; "height": 292pt; "visibility": visible;\">\"u003Cv":imagedata src=\""file":////Users/yuanwang/Library/Group%20Containers/UBF8T346G9.Office/TemporaryItems/msohtmlclip/clip_image006.png\" "o":title=\"\"><\"u002Fv":imagedata><\"u002Fv":shape>\"u003Co":p><\"u002Fo":p>

那么对于国内的整个流片工艺,首先前道流程是最大的制约因素,但是这主要受限于光刻设备和制程,除非从光刻设备根源上出发,不然很难去解决这个问题。\"u003Co":p><\"u002Fo":p>

而对于尚未成熟掌握CoWos封装工艺的国内osat封装厂而言,整个后道流程的良率也仅有50%(台积电成熟工艺的良率在80%左右),综上导致了整体极低的良率\"u003Co":p><\"u002Fo":p>

那么在无法短时间内解决光刻设备的基础上,从后道封装工艺上出发,提高良率就变得至关重要,甚至说可能是国产全自主AI芯片生产的胜负手\"u003Co":p><\"u002Fo":p>

最后再来聊聊可能的增量:\"u003Co":p><\"u002Fo":p>

1.   华为AI芯片相关产业链,与NV链相比价格极低。\"u003Co":p><\"u002Fo":p>

2.   超节点大规模泛用CPO(我们在4月就聊到过),必然会引发CPO的底层逻辑改善,叠加外围情绪回暖,从而映射了新一轮的CPO主升行情(已经演绎)。\"u003Co":p><\"u002Fo":p>

3.   前道工艺对良率提升和大规模泛用性生产的影响(短期难以解决),但可以映射市场情绪,对应光刻机和光刻胶。\"u003Co":p><\"u002Fo":p>

4.   后道工艺,尤其是类CoWos封装的研发和良率提升将成为成本胜负手,再次强Call国内先进封装企业(甬矽电子、盛和晶微、通富微电等),目前市场炒作了盛和晶微产业链。\"u003Co":p><\"u002Fo":p>

\"u003Co":p> <\"u002Fo":p>

——风险提示———

本文仅为投资逻辑参考,

不构成直接投资意见!

有兴趣研究提出问题的可以在评论区发问!

\"u003Co":p> <\"u002Fo":p>

最后一次编辑于 2024年05月27日 500

钱雄

可以考虑定投,平滑波动风险。

2025-05-30 14:15:21      回复

褚贵

可以适当持仓,耐心等待时机。

2024-12-07 06:55:18      回复

冯翰良

保持理性投资,不被情绪左右。

2024-11-29 08:11:52      回复

三茂奇

现金流状况良好,财务稳健。

2024-09-26 22:20:43      回复

郑星

有收获

2024-09-25 05:55:29      回复

孙坚永

公司业绩增长强劲。

2024-07-28 10:09:51      回复

蒋翔俊

注意市场风险,避免盲目追高。

2024-07-19 10:46:38      回复