部分国产芯片适配满血版 DeepSeek，仍「遥遥无期」

本文作者：包永刚

2025-02-27 14:40

导语：国内最强AI芯片公司，适配满血版DeepSeek的目标是25Tokens/s。

作者丨包永刚

编辑丨王亚峰

不同于春节假期刚结束时近20家AI芯片公司忙着宣布完成适配DeepSeek蒸馏模型的热闹景象，半个月后宣布完成适配满血版DeepSeek模型的寥寥数家，这也真实反映出了国产AI芯片的真实力。

“只要厂家之前已经支持大模型的训练推理，那么适配DeepSeek就没有任何难度。”AI芯片软件工程师梓豪说，“我们公司的应用工程师（AE）就可以完成DeepSeek蒸馏模型的适配。”

这足以解释为什么有芯片公司可以用数小时时间就完成DeepSeek蒸馏模型的适配，但对于一直致力于做大芯片的AI芯片公司来说，适配满血版DeepSeek更能体现其价值。

目前，华为、寒武纪、摩尔线程以及昆仑芯都有公开信息表示其完成满血版DeepSeek模型的适配。更多国产AI芯片公司适配满血版大模型进展欢迎添加作者微信BENSONEIT了解。

“即便是现在已经宣布适配满血版DeepSeek的芯片公司，其性能都不太好。”AI芯片资深工程师杰克说，“从技术上判断，此前已经将大模型跑起来的公司，比如燧原、壁仞、天数智芯适配满血版DeepSeek也只是时间问题，之前没有部署过大模型的公司适配满血版DeepSeek可能‘遥遥无期’。”

那么到底适配DeepSeek蒸馏模型和满血版DeepSeek模型会成为AI芯片公司的分水岭？为什么有人说国内AI芯片公司的人不懂AI？DeepSeek的爆火至少能撑起一家国产AI芯片公司的上市？

适配蒸馏版DeepSeek模型只是开胃小菜

半个月前芯片公司铺天盖地的适配DeepSeek的新闻里，有公司明确表达了适配的是蒸馏模型，也有公司只说适配了DeepSeek，但适配蒸馏模型和满血版模型之间存在着巨大的差别。

满血版模型指的是与DeepSeek官网性能一致的V3和R1的全量参数模型，其参数高达671B，一般需要多台高性能GPU服务器并行才能流畅运行推理服务。

蒸馏版DeepSeek模型是利用DeepSeek-R1生成的数据对其他模型进行微调，参数从几B到几十B都有，比如DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B，这些蒸馏模型的效果差于满血版，但更易于部署。

“我一度认为适配蒸馏版DeepSeek模型没有太大价值，许多工程师也都更倾向于满血版DeepSeek，但我现在的想法发生了转变。”有二十多年芯片行业经验的柏林说，“蒸馏版模型能满足普通用户的聊天需求，对于普及AI的意义非常大。”

杰克也表示，虽然蒸馏模型的准确度不如满血版模型，但蒸馏版模型能让端侧AI的能力上一个台阶，端侧资源受限，有了DeepSeek的蒸馏模型之后，比如原来只能部署7B模型的场景，现在能达到14B模型的效果。

国产AI芯片适配蒸馏版DeepSeek模型也难度不大。

无论是使用GPGPU架构还是专用ASIC架构对AI芯片公司，都迅速完成了对DeepSeek的适配。“GPT火了之后所有公司都想办法支持大模型，DeepSeek和之前的大模型没有本质的不同，有此前适配大模型的工作，适配蒸馏版DeepSeek不是难题。”梓豪表示。

“CUDA兼容的GPGPU适配起来确实会更容易，但只要给ASIC更多时间做到极致，性能可以超过GPU。”杰克认为。

从长期看，无论什么架构的芯片，如果只是支持几个有限的模型，总能在这个架构上找到最优的解决方案。DeepSeek的火爆，主流模型就是DeepSeek和Llama等少数几个，从这个角度看，对AI芯片公司来说算是好事。

对于采用国产AI芯片的智算中心来说，DeepSeek的火爆同样是重大利好。

“DeepSeek火爆之后我们想用一家国产AI芯片公司的卡适配。”国产智算中心从业者博远说，“但现实的问题是，如果适配DeepSeek A100的性能是100分，这家国产卡跑起来只有几分的性能，使劲优化也只有A100十几分的能。”DeepSeek的火爆到底如何影响智算中心发展，添加作者微信BENSONEIT互通有无。

既然从普及AI和适配的角度，蒸馏版DeepSeek就有巨大的价值，那为什么还要适配满血版DeepSeek？

“只有部署了满血版DeepSeek模型，才能得到蒸馏版模型，我认为这是部署满血版DeepSeek模型的重要原因。”杰克表示。

国内领先AI芯片最快月底能适配「好」满血版模型

但是想要部署参数高达671B满血版DeepSeek-R1模型，即便是Int8精度模型的大小也高达671G，以单卡96G HBM计算，单机8卡总共768GB也只是勉强够部署满血版DeepSeek，只要模型精度比Int8更高，单台服务器就无法部署满血版DeepSeek模型。

此时就需要多机互联，这正是国产AI芯片公司仍未很好解决地问题。

“Nvidia有NV Link，国产芯片没有多机互联的解决方案会选择InfiniBand（IB）或者高速以太网RoCE实现互联，这些方案的通信的延迟很大，这就极大程度会影响最终部署的效果。”杰克说，“多卡和多机互联是国产芯片适配满血版DeepSeek的第一个难点，如果之前没有解决通信问题，想做起来很难，距离成功适配满血版DeepSeek可能遥遥无期。”

梓豪认为在多机互联方面，摩尔线程和沐曦有一定的优势。

另一个难点是DeepSeek的MoE混合专家系统，MoE是多一个router（路由模块）的计算，它会将token路由至合适的专家权重去做计算，这个路由是动态的，这和此前的Transformer大模型的部署不一样，这也是一个全新的挑战。

对于所有国产AI大芯片而言，还有一个硬伤就是不原生支持FP8数据类型，DeepSeek模型采用了 FP8 混合精度训练，全球领先的AI芯片公司英伟达从H100开始，AMD MI325X都原生支持FP8。

“不原生支持FP8不意味着就不能部署满血版DeepSeek，只是会带来效率问题，比如用FP16来部署，就需要2倍的存储。”杰克表示，这就意味着需要更多卡，问题又到了多卡多机互联。

要注意，即便是2024年推出的新一代国产AI卡，也没有支持FP8。

柏林认为，最新的国产AI芯片不支持FP8、FP4这类非IEEE定义的数据类型，说明企业内部没有前沿的研究指导这些公司的设计。并且英伟达2022年推出的H100就已经支持了FP8，已经有人做出产品，就算照着“抄”也不难了，这体现了国内许多做AI芯片的人并不懂AI。

即便解决了技术难题可以部署满血版DeepSeek，从可用到好用还有一段很长的距离。杰克就深有感触，此前适配大模型的时候，杰克所在的公司跨机通信也解决了，但是要实现性能的提升难度很大。

这也是目前国产芯片公司适配满血版头疼的问题。

雷峰网(公众号：雷峰网)了解到，目前国内领先的AI芯片公司以4台服务器（32卡，FP16数据类型），或者2台服务器（16卡，Int8数据类型）适配满血版DeepSeek的效果也只达到了10tokens/s，其目标是在本月底前能够达到25tokens/s，性能大概是英伟达H100的25%。

另有消息称，国内上市AI芯片公司在智算中心已经达到了适配满血版DeepSeek 25tokens/s的性能。

从用户的角度，使用满血版DeepSeek要有比较好的使用体验有两个非常直观的指标，一个是首字延迟，另一个就是每秒吞吐量。大致而言，首字延迟在1-1.4秒是大部分用户能够接受的延迟，而每秒生成20token能满足正常阅读的需求。

这样说来，即便是国内领先的公司，最快也要到本月底达到让用户相对满意的使用体验。

至于其他AI芯片公司，雷峰网了解到，在上市辅导流程里的AI芯片公司有两家适配满血版DeepSeek的速度在10 tokens/s及以下。

AI大芯片公司的张伟判断，未来一个月适配不好满血版DeepSeek的AI公司可能有一半。柏林认为，未来一个季度国产AI芯片都会陆续适配满血版DeepSeek。

“其他已经有成功部署大模型经验的芯片公司适配满血版DeepSeek只是时间问题。”杰克说，“这些公司里好几家都处于上市辅导阶段，我认为谁能更快、更好支持好满血版DeepSeek，会大幅增加他们上市的概率，因为很多机构和公司都在积极部署满血版DeepSeek，有利于AI芯片公司做出真实的业绩，支撑其上市。”

不过两位芯片投资人都对雷峰网表示，A股的成功上市的因素比较复杂，能够支持好满血版DeepSeek确实是实力的体现，但对于最终成功上市很难说有直接利好。

毋庸置疑的是，DeepSeek对于国内芯片、智算中心、AI应用都是巨大利好，我们已经处在AI变革前夜。关于AI算力的更多挑战，欢迎添加作者微信BENSONEIT讨论。

注，文中梓豪、杰克、柏林、博远、张伟均为化名。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

包永刚

编辑

发私信

当月热门文章