H20芯片意外走红,AI推理需求引爆市场

最近,英伟达的H20芯片意外成为市场焦点。这款原本不受青睐的中国特供版芯片,咨询量暴涨几十倍,8卡H20机器的价格较年前上涨了10万元,单价达到110万左右。业内人士预测,H20的价格“不会下来了”。

H20的性能和性价比远不如H100,显存带宽等方面也明显受限。然而,市场风向的转变让H20突然抢手起来。据爆料,某互联网大厂已经下单10-20万张H20芯片,整体市场的订单量大幅增加。

H20的走红,直观来看是DeepSeek热潮的推动,但更深层次的原因是AI推理需求的爆发。尽管H20的性能只有H100的1/10,但在推理任务中,H20的表现绰绰有余。它的显存足够大,适合跑大规模参数模型,且价格更为亲民,因此成为了推理任务的首选。

AI Infra厂商PPIO派欧云的联合创始人兼CEO姚欣透露,去年年底H20还没有这么抢手,但春节后市场发生了巨大变化,AI算力供需关系正在极速调整。英伟达CEO黄仁勋也在最新财报中提到,当前AI模型所需的算力是此前模型的100倍,而推动算力需求增加的关键正是AI推理。H20芯片意外走红,AI推理需求引爆市场

DeepSeek通过算法创新,重构了AI算力的逻辑,推动了AI计算从“训练为主”向“推理为主”的范式转变。DeepSeek-V3采用MoE(混合专家模型)架构,提出了大规模跨节点专家并行(Expert Parallelism/EP)技术,显著提升了训练和推理的效率。EP技术使得batch size大幅增加,提高了GPU的矩阵乘法效率,同时降低了延迟。

此外,DeepSeek-R1-Zero通过强化学习提升了语言模型的推理能力,进一步降低了训练成本。这种低成本模式使得模型能够更广泛地应用于AI推理场景,推动了推理需求的全面爆发。

随着AI推理需求的爆发,算力行业的风向正在发生变化。相较于预训练,推理计算对硬件门槛和集群建设的要求更低,超大规模集群不再是必需,小集群甚至单机将成为未来AI Infra的主要特征。PPIO姚欣指出,DeepSeek提出的跨节点专家并行系统已经体现了分布式的思想,通过系统优化,底层硬件的护城河不再那么深。

这也解释了为何H20这样的推理计算卡开始抢手。未来,英伟达一家独大的局面可能会有所改变,推理芯片市场将迎来百花齐放的局面。例如,根据DeepSeek的测试结果,推理任务中昇腾910C的性能可达H100的60%。

在推理时代,AI Infra和云厂商将承担起成本优化的重任。预训练时代,云厂商提供的服务更倾向于裸金属的训练环境,而推理时代,企业更倾向于选择公有云服务部署模型。这意味着云厂商需要在不同卡型到模型层的全栈优化上展开竞争。

PPIO通过分布式架构和独特的算力共享调度方式,为企业提供了更具性价比的AI推理服务。PPIO的分布式架构不仅降低了企业的运维压力,还提升了系统的处理效率。通过PPIO的AI推理平台,企业可以直接调用API服务,无需自行部署后台服务,成本减少了40%。

此外,PPIO还提出了KV Cache稀疏化压缩算法、Hydra Sampling投机采样技术以及端到端FP8推理三大核心技术,进一步突破显存、算力和带宽对大模型推理性能的限制。PPIO的算力云产品已为百川智能等企业提供了大规模AI推理服务。

随着AI推理需求的爆发,AI应用的落地浪潮即将到来。只有当AI Infra公司能够提供足够高性能和低成本的基础设施,让大量AI应用的收入足以覆盖推理成本,AI应用才能真正迎来大爆发,用户也将迎来AI应用的免费时代。

DeepSeek的崛起只是开始,随着越来越多的产业伙伴加入,AI推理市场将迎来更大的需求和机遇。趋势转变之后,AI算力行业的新篇章才刚刚开启。

原创文章,作者:极科视界,如若转载,请注明出处:https://www.ia1v.com/news/2102.html

(0)
极科视界的头像极科视界
上一篇 2025年3月18日 下午9:34
下一篇 2025年3月18日 下午9:42

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注