| 雷峰网
您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
芯片 正文
发私信给包永刚
发送

0

部分国产芯片适配满血版 DeepSeek,仍「遥遥无期」

本文作者: 包永刚   2025-02-27 14:40
导语:国内最强AI芯片公司,适配满血版DeepSeek的目标是25Tokens/s。

部分国产芯片适配满血版 DeepSeek,仍「遥遥无期」

作者丨包永刚

编辑丨王亚峰

不同于春节假期刚结束时近20家AI芯片公司忙着宣布完成适配DeepSeek蒸馏模型的热闹景象,半个月后宣布完成适配满血版DeepSeek模型的寥寥数家,这也真实反映出了国产AI芯片的真实力。

“只要厂家之前已经支持大模型的训练推理,那么适配DeepSeek就没有任何难度。”AI芯片软件工程师梓豪说,“我们公司的应用工程师(AE)就可以完成DeepSeek蒸馏模型的适配。”

这足以解释为什么有芯片公司可以用数小时时间就完成DeepSeek蒸馏模型的适配,但对于一直致力于做大芯片的AI芯片公司来说,适配满血版DeepSeek更能体现其价值。

目前,华为、寒武纪、摩尔线程以及昆仑芯都有公开信息表示其完成满血版DeepSeek模型的适配。更多国产AI芯片公司适配满血版大模型进展欢迎添加作者微信BENSONEIT了解。

“即便是现在已经宣布适配满血版DeepSeek的芯片公司,其性能都不太好。”AI芯片资深工程师杰克说,“从技术上判断,此前已经将大模型跑起来的公司,比如燧原、壁仞、天数智芯适配满血版DeepSeek也只是时间问题,之前没有部署过大模型的公司适配满血版DeepSeek可能‘遥遥无期’。

那么到底适配DeepSeek蒸馏模型和满血版DeepSeek模型会成为AI芯片公司的分水岭?为什么有人说国内AI芯片公司的人不懂AI?DeepSeek的爆火至少能撑起一家国产AI芯片公司的上市?

适配蒸馏版DeepSeek模型只是开胃小菜

半个月前芯片公司铺天盖地的适配DeepSeek的新闻里,有公司明确表达了适配的是蒸馏模型,也有公司只说适配了DeepSeek,但适配蒸馏模型和满血版模型之间存在着巨大的差别。

满血版模型指的是与DeepSeek官网性能一致的V3和R1的全量参数模型,其参数高达671B,一般需要多台高性能GPU服务器并行才能流畅运行推理服务。

蒸馏版DeepSeek模型是利用DeepSeek-R1生成的数据对其他模型进行微调,参数从几B到几十B都有,比如DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B,这些蒸馏模型的效果差于满血版,但更易于部署。

“我一度认为适配蒸馏版DeepSeek模型没有太大价值,许多工程师也都更倾向于满血版DeepSeek,但我现在的想法发生了转变。”有二十多年芯片行业经验的柏林说,“蒸馏版模型能满足普通用户的聊天需求,对于普及AI的意义非常大。”

杰克也表示,虽然蒸馏模型的准确度不如满血版模型,但蒸馏版模型能让端侧AI的能力上一个台阶,端侧资源受限,有了DeepSeek的蒸馏模型之后,比如原来只能部署7B模型的场景,现在能达到14B模型的效果。

国产AI芯片适配蒸馏版DeepSeek模型也难度不大。

无论是使用GPGPU架构还是专用ASIC架构对AI芯片公司,都迅速完成了对DeepSeek的适配。“GPT火了之后所有公司都想办法支持大模型,DeepSeek和之前的大模型没有本质的不同,有此前适配大模型的工作,适配蒸馏版DeepSeek不是难题。”梓豪表示。

“CUDA兼容的GPGPU适配起来确实会更容易,但只要给ASIC更多时间做到极致,性能可以超过GPU。”杰克认为。

从长期看,无论什么架构的芯片,如果只是支持几个有限的模型,总能在这个架构上找到最优的解决方案。DeepSeek的火爆,主流模型就是DeepSeek和Llama等少数几个,从这个角度看,对AI芯片公司来说算是好事。

对于采用国产AI芯片的智算中心来说,DeepSeek的火爆同样是重大利好。

“DeepSeek火爆之后我们想用一家国产AI芯片公司的卡适配。”国产智算中心从业者博远说,“但现实的问题是,如果适配DeepSeek A100的性能是100分,这家国产卡跑起来只有几分的性能,使劲优化也只有A100十几分的能。”DeepSeek的火爆到底如何影响智算中心发展,添加作者微信BENSONEIT互通有无。

既然从普及AI和适配的角度,蒸馏版DeepSeek就有巨大的价值,那为什么还要适配满血版DeepSeek?

“只有部署了满血版DeepSeek模型,才能得到蒸馏版模型,我认为这是部署满血版DeepSeek模型的重要原因。”杰克表示。

国内领先AI芯片最快月底能适配「好」满血版模型

但是想要部署参数高达671B满血版DeepSeek-R1模型,即便是Int8精度模型的大小也高达671G,以单卡96G HBM计算,单机8卡总共768GB也只是勉强够部署满血版DeepSeek,只要模型精度比Int8更高,单台服务器就无法部署满血版DeepSeek模型。

此时就需要多机互联,这正是国产AI芯片公司仍未很好解决地问题。

“Nvidia有NV Link,国产芯片没有多机互联的解决方案会选择InfiniBand(IB)或者高速以太网RoCE实现互联,这些方案的通信的延迟很大,这就极大程度会影响最终部署的效果。”杰克说,“多卡和多机互联是国产芯片适配满血版DeepSeek的第一个难点,如果之前没有解决通信问题,想做起来很难,距离成功适配满血版DeepSeek可能遥遥无期。”

梓豪认为在多机互联方面,摩尔线程和沐曦有一定的优势。

另一个难点是DeepSeek的MoE混合专家系统,MoE是多一个router(路由模块)的计算,它会将token路由至合适的专家权重去做计算,这个路由是动态的,这和此前的Transformer大模型的部署不一样,这也是一个全新的挑战。

对于所有国产AI大芯片而言,还有一个硬伤就是不原生支持FP8数据类型,DeepSeek模型采用了 FP8 混合精度训练,全球领先的AI芯片公司英伟达从H100开始,AMD MI325X都原生支持FP8。

“不原生支持FP8不意味着就不能部署满血版DeepSeek,只是会带来效率问题,比如用FP16来部署,就需要2倍的存储。”杰克表示,这就意味着需要更多卡,问题又到了多卡多机互联。

要注意,即便是2024年推出的新一代国产AI卡,也没有支持FP8。

柏林认为,最新的国产AI芯片不支持FP8、FP4这类非IEEE定义的数据类型,说明企业内部没有前沿的研究指导这些公司的设计。并且英伟达2022年推出的H100就已经支持了FP8,已经有人做出产品,就算照着“抄”也不难了,这体现了国内许多做AI芯片的人并不懂AI。

即便解决了技术难题可以部署满血版DeepSeek,从可用到好用还有一段很长的距离。杰克就深有感触,此前适配大模型的时候,杰克所在的公司跨机通信也解决了,但是要实现性能的提升难度很大。

这也是目前国产芯片公司适配满血版头疼的问题。

雷峰网(公众号:雷峰网)了解到,目前国内领先的AI芯片公司以4台服务器(32卡,FP16数据类型),或者2台服务器(16卡,Int8数据类型)适配满血版DeepSeek的效果也只达到了10tokens/s,其目标是在本月底前能够达到25tokens/s,性能大概是英伟达H100的25%。

另有消息称,国内上市AI芯片公司在智算中心已经达到了适配满血版DeepSeek 25tokens/s的性能。

从用户的角度,使用满血版DeepSeek要有比较好的使用体验有两个非常直观的指标,一个是首字延迟,另一个就是每秒吞吐量。大致而言,首字延迟在1-1.4秒是大部分用户能够接受的延迟,而每秒生成20token能满足正常阅读的需求。

这样说来,即便是国内领先的公司,最快也要到本月底达到让用户相对满意的使用体验。

至于其他AI芯片公司,雷峰网了解到,在上市辅导流程里的AI芯片公司有两家适配满血版DeepSeek的速度在10 tokens/s及以下。

AI大芯片公司的张伟判断,未来一个月适配不好满血版DeepSeek的AI公司可能有一半。柏林认为,未来一个季度国产AI芯片都会陆续适配满血版DeepSeek。

“其他已经有成功部署大模型经验的芯片公司适配满血版DeepSeek只是时间问题。”杰克说,“这些公司里好几家都处于上市辅导阶段,我认为谁能更快、更好支持好满血版DeepSeek,会大幅增加他们上市的概率,因为很多机构和公司都在积极部署满血版DeepSeek,有利于AI芯片公司做出真实的业绩,支撑其上市。”

不过两位芯片投资人都对雷峰网表示,A股的成功上市的因素比较复杂,能够支持好满血版DeepSeek确实是实力的体现,但对于最终成功上市很难说有直接利好。

毋庸置疑的是,DeepSeek对于国内芯片、智算中心、AI应用都是巨大利好,我们已经处在AI变革前夜。关于AI算力的更多挑战,欢迎添加作者微信BENSONEIT讨论。

注,文中梓豪、杰克 、柏林、博远、张伟均为化名。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
Baidu
map