下一代ai芯片，拼什么？-银河app下载安装

如果您希望可以时常见面，欢迎标星收藏哦~

ai这“破天的富贵”，谁都不想错过。尽管摩尔定律逼近极限，芯片性能的提升变得更加困难。但各大厂商依然以令人瞩目的速度推出新一代产品，在近日召开的台北国际电脑展上，英伟达、amd和英特尔三大芯片巨头齐聚一堂，纷纷秀出自家肌肉，推出了下一代ai芯片。

英伟达的hopper gpu/blackwell/rubin、amd的instinct 系列、英特尔的gaudi芯片，这场ai芯片争霸战拼什么？这是速度之争，以英伟达为首，几家巨头将芯片推出速度提升到了一年一代，展现了ai领域竞争的“芯”速度；是技术的角逐，如何让芯片的计算速度更快、功耗更低更节能、更易用上手，将是各家的本事。

尽管各家厂商在ai芯片方面各有侧重，但细看之下，其实存在着不少的共同点。

一年一代，展现ai领域"芯"速度

虽然摩尔定律已经开始有些吃力，但是ai芯片“狂欢者们”的创新步伐以及芯片推出的速度却越来越快。英伟达blackwell还在势头之上，然而在不到3个月后的computex大会上，英伟达就又祭出了下一代ai平台——rubin。英伟达首席执行官黄仁勋表示，以后每年都会发布新的ai芯片。一年一代芯片，再次刷新了ai芯片的更迭速度。

英伟达的每一代gpu都会以科学家名字来命名。rubin也是一位美国女天文学家vera rubin的名字命名。rubin将配备新的gpu、名为vera的新cpu和先进的x1600 ib网络芯片，将于2026年上市。

目前，blackwell和rubin都处于全面开发阶段，其一年前在2023年在computex上发布的gh200 grace hopper“超级芯片”才刚全面投入生产。blackwell将于今年晚些时候上市，blackwell ultra将于2025年上市，rubin ultra将于2027年上市。

紧跟英伟达，amd也公布了“按年节奏”的amd instinct加速器路线图，每年推出一代ai加速器。lisa su在会上表示:“人工智能是我们的首要任务，我们正处于这个行业令人难以置信的激动人心的时代的开始。”

继去年推出了mi300x，amd的下一代mi325x加速器将于今年第四季度上市，instinct mi325x ai加速器可以看作是mi300x系列的强化版，lisa su称其速度更快，内存更大。随后，mi350系列将于2025年首次亮相，采用新一代amd cdna 4架构，预计与采用amd cdna 3的amd instinct mi300系列相比，ai推理性能将提高35倍。mi350对标的是英伟达的blackwell gpu，按照amd的数据，mi350系列预计将比英伟达b200产品多提供50%的内存和20%的计算tflop。基于amd cdna“next”架构的amd instinct mi400系列预计将于2026年上市。

英特尔虽然策略相对保守，但是却正在通过价格来取胜，英特尔推出了gaudi人工智能加速器的积极定价策略。英特尔表示，一套包含八个英特尔gaudi 2加速器和一个通用基板的标准数据中心ai套件将以65,000美元的价格提供给系统提供商，这大约是同类竞争平台价格的三分之一。英特尔表示，一套包含八个英特尔gaudi 3加速器的套件将以125,000美元的价格出售，这大约是同类竞争平台价格的三分之二。amd和nvidia虽然不公开讨论其芯片的定价，但根据定制服务器供应商thinkmate的说法，配备八个nvidia h100 ai芯片的同类hgx服务器系统的成本可能超过30万美元。

一路高歌猛进的芯片巨头们，新产品发布速度和定价凸显了ai芯片市场的竞争激烈程度，也让众多ai初创芯片玩家望其项背。可以预见，三大芯片巨头将分食大部分的ai市场，大量的ai初创公司分得一点点羹汤。

工艺奔向3纳米

ai芯片走向3纳米是大势所趋，这包括数据中心乃至边缘ai、终端。3纳米是目前最先进工艺节点，3纳米工艺带来的性能提升、功耗降低和晶体管密度增加是ai芯片发展的重要驱动力。对于高能耗的数据中心来说，3纳米工艺的低功耗特性至关重要，它能够有效降低数据中心的运营成本，缓解数据中心的能源压力，并为绿色数据中心的建设提供重要支撑。

英伟达的b200 gpu功耗高达1000w，而由两个b200 gpu和一个grace cpu组成的gb200银河app下载安装的解决方案消耗高达2700w的功率。这样的功耗使得数据中心难以为这些计算gpu的大型集群提供电力和冷却，因此英伟达必须采取措施。

rubin gpu的设计目标之一是控制功耗，天风国际证券分析师郭明錤在x上写道，rubin gpu很可能采用台积电3纳米工艺技术制造。另据外媒介绍，rubin gpu将采用4x光罩设计，并将使用台积电cowos-l封装技术。与基于blackwell的产品相比，rubin gpu是否真的能够降低功耗，同时明显提高性能，或者它是否会专注于性能效率，还有待观察。

amd instinct系列此前一直采用5纳米/6纳米双节点的chiplet模式，而到了mi350系列，也升级为了3纳米。半导体知名分析师陆行之表示，如果英伟达在加速需求下对台积电下单需求量大，可能会让amd得不到足够产能，转而向三星下订单。

英特尔用于生成式ai的主打芯片gaudi 3采用的是台积电的5纳米，对于 gaudi 3，这部分竞争正在略微缩小。不过，英特尔的重心似乎更侧重于ai pc，从英特尔最新发布的pc端lunar lake soc来看，也已经使用了3纳米。lunar lake包含代号为lion cove的新 lion cove p核设计和新一波skymont e 核，它取代了 meteor lake 的 low power island cresmont e 核。英特尔已披露其采用 4p 4e设计，禁用超线程/smt。整个计算块，包括p核和e核，都建立在台积电的n3b节点上，而soc块则使用台积电n6节点制造。

英特尔历代pc cpu架构

在边缘和终端ai芯片领域，ip大厂arm也在今年5月发布了用于智能手机的第五代 cortex-x 内核以及带有最新高性能图形单元的计算子系统。arm cortex-x925 cpu就利用了3纳米工艺节点，得益于此，该cpu单线程性能提高了36%，ai性能提升了41%，可以显著提高如大语言模型(llm)等设备端生成式ai的响应能力。

高带宽内存是必需品

hbm已经成为ai芯片不可或缺的关键组件。hbm技术经历了几代发展:第一代(hbm)、第二代(hbm2)、第三代(hbm2e)、第四代(hbm3)和第五代(hbm3e)，目前正在积极发展第六代hbm。hbm不断突破性能极限，满足ai芯片日益增长的带宽需求。

在目前一代的ai芯片当中，各家基本已经都相继采用了第五代hbm-hbm3e。例如英伟达blackwell ultra中的hbm3e增加到了12颗，amd mi325x拥有288gb的hbm3e内存，比mi300x多96gb。英特尔的 gaudi 3封装了八块hbm芯片，gaudi 3能够如此拼性价比，可能很重要的一点也是它使用了较便宜的hbm2e。

英特尔gaudi 3的hbm比h100多，但比h200、b200或amd的mi300都少

至于下一代的ai芯片，几乎都已经拥抱了第六代hbm-hbm4。英伟达rubin平台将升级为hbm4，rubin gpu内置8颗hbm4，而将于2027年推出的rubin ultra则更多，使用了12颗hbm4。amd的mi400也奔向了hbm4。

从hbm供应商来看，此前amd、英伟达等主要采用的是sk海力士。但现在三星也正在积极打入这些厂商内部，amd和三星目前都在测试三星的hbm。6月4日，在台北南港展览馆举行的新闻发布会上，黄仁勋回答了有关三星何时能成为 nvidia 银河app下载安装的合作伙伴的问题。他表示:“我们需要的 hbm 数量非常大，因此供应速度至关重要。我们正在与三星、sk 海力士和美光合作，我们将收到这三家公司的产品。”

hbm的竞争也很白热化。sk海力士最初计划在2026年量产hbm4，但已将其时间表调整为更早。三星电子也宣布计划明年开发hbm4。三星与sk海力士围绕着hbm的竞争也很激烈，两家在今年将20%的dram产能转向hbm。美光也已加入到了hbm大战行列。

炙手可热的hbm也成为了ai芯片大规模量产的掣肘。目前，存储大厂sk hynix到2025年之前的hbm4产能已基本售罄，供需矛盾日益凸显。根据sk海力士预测，ai芯片的繁荣带动hbm市场到2027年将出现82%的复合年增长率。分析师也认为，预计明年hbm市场将比今年增长一倍以上。

三星电子dram产品与技术执行副总裁hwang sang-joon在kiw 2023上表示:“我们客户当前的订单决定比去年增加了一倍多。”三星芯片负责业务的设备银河app下载安装的解决方案部门总裁兼负责人 kyung kye-hyun 在公司会议上更表示，三星将努力拿下一半以上的hbm市场。三星内存业务执行副总裁jaejune kim对分析师表示，该公司将在2023年至2024年间将其hbm产能增加一倍。

互联:重要的拼图

ai芯片之间互联一直是个难题，随着近年来越来越多的加速器被集成到一起，如何高效传输数据成为了瓶颈。由于pcie技术的发展速度跟不上时代需求，目前主流的ai芯片厂商都已经自研了互联技术，其中较为代表的就是英伟达的nvlink和amd的infinity fabric。

nvidia的下一代rubin平台，将采用nvlink 6交换机芯片，运行速度为3600gb/s，上一代的blackwell采用的是nvlink 5.0。nvlink设计之初，就是为了解决传统的pci express 总线在处理高性能计算任务时带宽不足的问题。下图显示了英伟达各代nvlink的参数情况。

各代nvlink的性能参数

与英伟达的nvlink相似，amd则推出了其infinity fabric技术，amd infinity 架构与第二代 amd epyc处理器一同推出，使系统构建者和云架构师能够释放最新的服务器性能，同时又不牺牲功能、可管理性或帮助保护组织最重要资产的能力。infinity fabric支持芯片间、芯片对芯片，以及即将推出的节点对节点的数据传输。

英特尔则是以太网的坚实拥护者，英特尔的用于生成式ai的gaudi ai芯片则一直沿用传统的以太网互联技术。gaudi 2每个芯片使用了24个100gb以太网链路；gaudi 3也使用了24个200gbps以太网rdma nic，但是他们将这些链路的带宽增加了一倍，达到200gb/秒，使芯片的外部以太网i/o总带宽达到8.4tb/秒。

拼服务

诸如chatgpt这样的生成式ai开发任务极其复杂，大模型需要在多台计算机上运行数十亿到数万亿个参数，它需要在多个gpu上并行执行工作，采用张量并行、流水线并行、数据并行等多种并行处理方式，以尽可能快地处理任务。

因此，如何能够帮助用户更快的开发，提供良好的服务也是关键一役。

在这方面，英伟达推出了一种新型的软件nims，即nvidia inference microservices。黄仁勋称之为“盒子里的人工智能”，nims中包含了英伟达的cuda、cudnn、tensorrt、triton。nims 不仅使部署 ai 变得更容易，只需几分钟而不是几个月，它们还构成了客户可以创建新应用程序和解决新问题的构建块。如果采用，nims 将有助于加速创新并缩短价值实现时间。nvidia 还宣布，nims 现在可供开发人员和研究人员免费使用。在生产中部署nims需要ai enterprise许可证，每个gpu的价格为4500美元。

结语

下一场ai之战已然打响，综合来看，当前ai芯片市场上，英伟达、amd和英特尔等主要芯片巨头正在展开激烈的竞争。他们不仅在速度、技术和工艺方面竞相创新，还在互联和服务等领域积极拓展，致力于为用户提供更快、更强、更智能的ai银河app下载安装的解决方案。ai芯片争霸战仍在继续，谁能最终胜出？让我们拭目以待。

点这里加关注，锁定更多原创内容

今天是《半导体行业观察》为您分享的第3792期内容，欢迎关注。

『半导体第一垂直媒体』

实时专业原创深度

公众号id:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。