您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给二维马晓宁
发送

0

独家对话刘知远:AGI 是一场技术理想与商业现实的「持久战」

本文作者: 二维马晓宁   2025-03-04 16:26
导语:这是一个与「朱啸虎们」相反的 AGI 叙事。

DeepSeek 以迅雷不及掩耳之势出圈后,中国大部分的大模型团队都被打得措手不及,只有一家公司因为底层技术和 AGI 思想路径与 DeepSeek 相近而暂时“逃过一劫”,这家公司就是:面壁智能。

作为中国最早的一批大模型团队之一,面壁智能成立于 2022 年 8 月,其创始团队从 2021 年就主力参与北京智源人工智能研究院的大模型项目“悟道”,训练出多个百亿、千亿参数规模的大模型,并成立大模型开源社区OpenBMB,是国内最早提出“平民版大模型”、最早促进大模型开源事业的团队之一。

但意料之外、又情理之中的是,尽管团队技术实力出色、对 AGI 的理解深刻,其在 2022 年到 2023 年大模型浪潮刚起、国内纯种大模型团队并不多时,却遭到冷落与误解,未能吃到首轮红利。

2023 年,面壁智能在训练出千亿参数规模的基础模型后,由于早期融资少、且在探索商业化时发现千亿模型难以落地,战略决定转向训练参数规模更小、算力更低、但性能更强的端侧模型——虽在国内一批大模型创业团中打出差异化,但也错过了诸如 DeepSeek V3 这样在与 Llama 3、GPT-4 等同级别的基础大模型上验证“更低成本训练更强模型”的胜利。

面壁的发展提供了大模型创业热潮中的另一视角。当 ChatGPT 引爆市场热情后,资本陷入对标 OpenAI 的狂热,对强调技术创新的差异化路线反应冷淡。这种认知滞后揭示了中国科技投资的深层困境:在技术演进曲线上,相比成为先验的引领者,资本往往成为后验的追随者。

2024 年,多位投资者对面壁智能的评价是:“这个团队的技术很好,但就是给人的感觉太阳春白雪,如果在国内做 To B 的话,我不知道他们能否有团队去跟 B 端的客户老大哥们勾肩搭背、抽烟喝酒。”

DeepSeek 在硅谷掀桌,以及国产动漫电影《哪吒 2》的大热,使得 2025 年被称为是“理想主义者的胜利”。那么,大模型圈中的典型理想主义者面壁智能,是否也迎来了他们所想象的胜利?

事实上,AGI 比我们想得更大,胜利的到来也或许更遥远。

不久前,雷峰网(公众号:雷峰网) AI 科技评论也与面壁智能的创始人、清华大学副教授刘知远博士进行了一次深入交流,可以作为勾勒技术理想主义的一个典型画像。在交谈中,刘知远多次引用毛主席所著的《论持久战》来解释他们在“征战” AGI 路上的一些思考。他认为,AGI 的胜利需要战略上的持久战、战术上的速决战。

在刘知远看来,大模型的技术还远远没有收敛,反而是在加速前进。AGI 是一场关于“智力”的持久战,真正的胜利不在于短期估值的高低,而在于能否实事求是地追寻理想主义。

站在 2025 年的门槛回望,面壁智能的历程折射出中国创新生态的复杂图景。资本市场的认知滞后、技术路线的摇摆争议、商业化与理想主义的碰撞,这些挑战共同构成了中国攀登 AGI 高峰的必经之路。

以下是 雷峰网 AI科技评论 与刘知远的对话全文,为方便阅读,进行了不改变原意的文字调整。


1
AI 资本寒冬的亲历者

AI 科技评论:记得 2023 年5 月采访跟您交流时,您就提到面壁的成立初衷是做“平民版大模型”、让 AGI 普惠。能否谈谈面壁的成立背景?

刘知远:2021 年我们在智源做完第一版“悟道”模型之后就有了要商业化的想法,很重要的原因是:从技术来讲,我们认为大模型已经找到了一种通用地从数据学习知识的方案,已经在迈向通用智能了。对于接下来怎么做,当时我有两个判断:

第一个判断是 AI 已经具有商业化的能力,具有实际应用的成熟度了。

历史上就有相似的案例,譬如说搜索引擎:它的研究大概在上个世纪六七十年代就开始了,在相当于长的一段时间里面,主要是由实验室来开展研究,因为技术还不成熟,不足以去进行商业化的应用。

但是到了上个世纪 90 年代末,雅虎和 Google 这样的公司出现,就意味着搜索引擎技术已经具备了商业化的价值,也有了大规模应用的可能性。

在这种情况下,如果研究人员还躲在实验室、躲在高校去做研究,那就一定不能够站在这个领域的前沿去看问题了,因为问题已经转移到了大规模应用层面,只有在企业才能找到最前沿的问题。

2000 年之前,搜索引擎最前沿的技术主要是由学术界来提出的;2000 年之后,这一领域绝大部分有影响力的技术,就变成了主要是由 Google 等企业提出的。

AGI 从业者也应该看到这样一个变化。我觉得我要有这样的自觉性,就是前沿的问题在哪,我就要做什么样的事。

第二个判断就是,大模型的技术特点已经跟之前的 AI 技术有相当大的不同。

现在的大模型是一个系统工程,要有数据、要有底层架构、要做模型设计、要做模型训练。这样的一个系统工程已经不是学校实验室的学生单打独斗能完成的工作了。

结合这两个判断,在 2021 年,我们认为一定要成立一家公司,才能够在 AGI 时代做出更大的贡献。当时就拿到了智源和智谱的投资,在 2022 年 8 月份正式成立面壁智能、想训练平民版大模型。

AI 科技评论:但一开始的融资并不顺利,很多 VC 不 buy in 这个观点。

刘知远:我们一开始在融资上确实有比较大的挑战,最早去见投资人的时候,很多人尚不了解大模型是什么东西,有什么用处。后面从 2022 年下半年到今天,经历了三个分水岭,过程中我们的认知和能力也发生飞速蜕变。

第一个分水岭就是 2022 年底 ChatGPT 出来。

我印象比较深的是,春节前后,A 股上的大模型概念股火了一把,人人都在谈论 ChatGPT,  大机构挨个探寻国内大模型团队,包括我们。

2023 年的上半年,大模型公司都在融资,业内认为大模型融资的窗口期可能就那么一两月的时间。而当时面壁团队还处在非常早期的状态,主要是实验室的几个学生。那个时候大家对我们最大的 concern(顾虑点)是,团队商业化经验不是特别丰富。这个阶段我们拿到了知乎的风投,知乎 CTO 李大海也加入我们担任 CEO,为我们补足了开办大型公司的经验。但当时花了比较多的时间来安排大海加入面壁的事情,商业化团队的铺垫,一定程度上延缓了融资的整个节奏,错过了投资人最上头的时刻。

现在反过来看的话,即使当时不是这些,我觉得可能也不会有大的改变,因为当时投资人更想去看国内哪个团队的模型可以去对标 OpenAI,会把这个对标作为评价的标准。而当时我们的叙事,特别强调高效,强调以更低的成本去训练大模型,这个事情对于投资人来讲是没有感知的。

到 2023 年的下半年我们接着去融资,大概八九月份的时候,明显的感觉到整个市场对于大模型的态度有一些变化了:大家觉得该投的已经投了,再出手的意愿就没有那么强烈了。等2024 年我们做出来了端侧模型,在全球算是出圈了,一定程度上也加强了大家的信心,比之前顺了很多。大概是因为我们做出来了一些能够让大家有体感的东西。

AI 科技评论:投资人当时的主要质疑点是什么?

刘知远:不同阶段可能会有不同的质疑,可能大模型投资会有一些 Mismatch(匹配错位)。

譬如说高效训练。这次 DeepSeek 出圈,所有的投资人和券商都在分析什么是 DeepSeek 取得成功的关键技术,比如 MoE、流水线并行、FP8 之类,但其实我们早在 2023 年初就在说我们拥有非常强大的大模型的并行计算能力、全流程的高效处理能力。

投资人他们可能也很苦,DeepSeek 做出来后、他们会比较能够 get 到模型高效训练的重要意义;没做出来之前,他们就只能从人才队伍等各个方面去研判一个团队到底能不能投。

在两年前,大家很难 get 到我们可以让模型加速多少倍这件事有什么意义、从商业上说具有什么价值。大家的问题还是,你们这些技术到底该怎么去商业化、怎么赚钱,而不是想问,你们是不是像 OpenAI 那样去推进 AGI,在 AGI 时代这些技术到底会有什么样的重要价值或者意义?但一些有希望的团队,在发展早期,可能还没什么钱、没什么资源的时候,还是更需要去争取理解和支持。

AI 科技评论:现在(匹配错位)这个问题被纠正了吗?

刘知远:客观上来讲,即使是在学术界,绝大部分人其实也不能把握技术发展的脉络或者趋势,会更相信眼前已经看到的这些现状。但高价值的人、高价值的团队和产品,会通过时间的检验,最终收获到能够跟他们相匹配的一个价值。


2
大模型还在快速演进

AI 科技评论:面壁不在“大模型六小虎”之中,会遗憾吗?

刘知远:从融资估值排位看,显然就进不去了(笑)。

AI 科技评论:DeepSeek也不属于六小虎。

刘知远:对。DeepSeek 出来后,我最近参加一些政府与学校的座谈会,大家也会讨论为什么“DeepSeek”不是六小虎、或者大公司做出来的?

但是我说实话,既然是风险投资,就要允许出错,允许有各种各样的探索,也不能因为 DeepSeek 火了就觉得六小虎都不行。也许他们过两三个月也会做出一个特别厉害的东西。我觉得还是要保持宽容的心态。中国未来一定不会只有 DeepSeek 这一家创新的公司,所以我觉得不要让大家有那么大的压力,要互相学习、不断进步。

譬如2023 年,很多人会觉得 ChatGPT 就应该是人工智能的最终形态了,只要国内有公司能够有实力把这样的一个模型给做出来,那它就是可以被投的——实际上并非如此。

AI 科技评论:那你觉得你们的竞争优势是什么?

刘知远:我在很多场合都强调过,我们的竞争优势就是,我们认为大模型技术还在快速地演进,最先进的技术要么是我们做出来,要么是别人做出来之后、我们能够把技术快速地融合到我们的体系中。

我们会觉得,有一个具有创新能力的团队,能够持续不断地站在最前沿,看看未来的路到底该怎么走,这是我们的优势。但是这点并不被多数人 buy in,一些人会觉得大模型只需要足够多的钱、买到足够多的算力,就能做出来,这显然是不对的。

AI 科技评论:你们早期也训练过千亿大模型,但后来是因为融资不够、才转去训端侧小模型的吗?

刘知远:2023 年下半年,我们做出了一个 GPT-3.5 级别的千亿大模型,但之后决定去做端侧模型。这是因为根据我当时的研判,国内的这些一线大模型团队,只要他们愿意,那么他们一定是可以在未来的半年之内,也就是2024 年的 4 ~ 6 月份之间实现 GPT-4 水平的模型。后来事实上也是如此。

沿着这个趋势,就一定会出现价格战。果然,DeepSeek 发布 V2 后 API 的价格非常低,其他团队不得不加入,进一步地压缩了所有团队的盈利空间。所以这条路本身是有问题的——指望 OpenAI 做出一个东西,然后我们在国内复现,从而占据国内 OpenAI 的生态位,这个逻辑是不通的,主要原因有几个:

一是国内能复现的团队其实非常多,所以一定会导致恶性竞争;二是我们认为更重要的是前沿技术的原始创新,确保团队永远站在 AGI 技术发展的最前沿才是最关键的。大模型的技术其实还远远没有收敛,反而是在加速前进,所以这个时候应该是要花更多的精力,去组建一个高效协同的大模型团队,这也是我们这两年的主旋律。

作为前沿技术导向的创业团队,我们的优势在创新,不应该去做重复性的工作。我们内部就总结了两句话,一个是叫“走先人一步的路”,一个是叫“打以少胜多的仗”,就是得考虑多几步,确保每一场仗都能够打赢。

AI 科技评论:最早支持你们的资本都是什么类型、什么风格的?

刘知远:我觉得我们的投资人都会比较务实,跟我们的气质都比较像。我们不会去讲一个特别让大家心潮澎湃的故事,而是会去说如何一步一步地抵达 AGI。

这个务实不是实用主义的意思,而是说他们会比较实事求是地考虑相关的问题。不论是知乎、华为哈勃这样的公司投资者,还是春华资本这样的财务投资方,都有类似的特点。

他们会更加务实地去考虑大模型往前走的这么一小步需要什么。模型提供的智力,就跟芯片提供的算力、电源提供的电力一样,是未来人类社会的基本需求。我们就是要把模型做得集成度越来越高、成本越来越低、算力越来越强,让更多的人能够用得上这种高质量的智力。

朱啸虎说可能接下来就要进入到应用的阶段了,但我觉得还远远没有。应用当然值得做,但我会觉得, AGI 技术的收敛还远远没有完成,至少需要 3 到 5 年的时间,才能让我们把模型构造得质量足够高,成本足够低,真正让每个人都能用得起。这应该是未来的一个发展方向。

我们不能够一会儿相信这样、一会儿相信那样,还是要有战略定力在。


3
战略是持久战、战术是速决战

AI 科技评论:怎样理解战略定力?

刘知远:这个寒假我把毛主席的《论持久战》又仔细看了一遍。我觉得,也许每一场仗你可以有非常多不同的打法,但你的战略应该是不能够有太大的变动的,AGI 就是如此。

一会今天是这样,一会明天是那样,那就说明你对这件事情其实还没想透、还没想明白。就像《论持久战》里说的,解放战争时期,有些人今天赢了一场仗就觉得中国要大胜、输了一场仗觉得中国要完了。这些观点在很多领域都是存在的。

AI 科技评论:既然你们之前已经做出了一个千亿模型,最终因为资源问题选择了端侧模型这样一个更具差异化的道路。如果面壁有更多的资源,你会考虑重新训练一个大模型,去验证你们的高效能力和目前的技术路线吗?

刘知远:跟 DeepSeek 对照一下,如果回到 2023 年下半年,我们有足够多的算力、足够多的资源,我们要去做大模型,那我们一定是要去做一个足够高效的大模型。

在那么多团队都能够实现 GPT-4 水平的模型能力的前提下,我们要做差异化的竞争,就是把这个模型做得足够小、足够高效,让它的成本足够低。另一方面,这个模型要用在哪些特殊的场景,拥有哪些特殊的能力上,我们跟其他的模型要有截然不同的区别。

如果做的都是一样的模型,显然就是不对的。学我者生,像我者死。到了大模型阶段,不能简单地靠资源、靠铺量、靠投放去参与竞争,这么做没办法取得最终的胜利。

AI 科技评论:那做出一样模型的这些公司,他们是战略上误判,还是不够实事求是?

刘知远:我倒是觉得不是什么战略上的误判,只是对未来没有多想几步,或者多想几步之后仍然做出的当时最优决策。这个是一个很自然的决定,对吧?因为 OpenAI 就是这么做的。但那么多家做出来之后,事情一直在变化,仍然会面临一些现实的新局面(如价格战)。

AI 科技评论:像面壁这样做端侧模型的公司,能迎来像 DeepSeek 这样的大爆发吗?端云两条路,最终能走向殊途同归吗?

刘知远:不管是做端侧模型,还是做云侧更大体量的模型,技术体系基本上是一致的,都是要做数据治理、架构设计、学习的算法等。就像是端侧芯片和服务器芯片,光刻机体系是一致的一样。我们做端侧模型,对相关算法创新、数据治理会提出更高的要求,所以端侧模型应该更难做。

迈向 AGI 时代,就意味着全社会的算力就是分布式的,既有端侧算力,又有云侧算力。如果我们有更多的资源和支持,显然我们也应该去布局服务器端的人工智能。我们要探索出一条把云侧和端侧的人工智更好协同的道路。

AI 科技评论:在过去两年,投资人对你们商业化能力的质疑有改善了吗?

刘知远:大海加入之后,2023 年的下半年,由大海来牵头去进行融资后,这个面的质疑就几乎没有了。最近这半年我们在端侧上做得比较好,现在各大汽车厂商都有非常多的承诺,感觉大家比较认可(我们)。

AI 科技评论:六小虎中,你觉得哪一家大模型公司能活到最后?

刘知远:虽然刚才说了大模型投资的一些问题,但我觉得过去的两年时间,我自己也收获非常大。回顾两年前,如果我是投资人,可能我也不会投这个团队,这两年我们自主成长还是挺大的。

我刚才提到了毛主席的《论持久战》,文中的观点是,因为我方幅员辽阔,但是相对弱小,所以中国的抗日战争一定是一个内线防御的持久战。我们现在判断 AGI 的到来,可能需要未来五年到十年的时间,也是一个持久战。

战略上是持久战,但是在战术上,具体到打每一场仗、每一个具体的战役,则要去主动进攻,包围敌人,打出外线进攻的速决战。要主动选择战场和时间,把局部的敌人以绝地的优势歼灭掉。这里的战略和战术恰恰是辩证的相对关系。

对应到我们创业上,面壁之前、包括现在来说还相对比较弱,资源比较少,那我们怎么迈向AGI?我不可能现在哭着求别人,说因为我有 AGI 的梦想,所以你们一定要来支持我们。大家投或不投,都是正常的,我们还是要坚持实现我们的梦想。这就跟抗日战争一样,是一个持久战的过程。我们要做到,打的每一场仗,都是一个主动进攻,做到速决,做到歼灭。

也就是说,我们选择了端侧,那我们就一定是在端侧上迅速打出我们的声音,得到进一步的壮大,然后再去打下一场仗。通过一场接一场战术上的胜利,最终赢得战略上的成功。

如果融资多,如果有一场仗打得不好,其实会有非常大的影响。我们这个小团队当然更不容易,但是只要打得漂亮,就可以赢得更多的资源,进一步发展壮大。如果我们处处防御,处处被动,显然也迎不来最终的胜利。

AI 科技评论:抗日战争是有一个很明确的目标,就是把日本侵略者赶出中国,这就是胜利的终点。对您来说 AGI 胜利的终点在哪?

刘知远:2021 年,当时我们在智源的支持下去孵化面壁的时候,我们就搞了一个开源社区叫 OpenBMB。当时我们给 OpenBMB 提出的 Slogan 就是,让大模型飞入千家万户。经过这两三年的探索和发展,我们进一步丰富了这个内涵,我们要“智周万物”,把大模型放在距离用户最近的地方。

我们最内核的精神没有变化,就是我们认为 AGI 带来的智能革命,其内在要求就是要让这个大模型质量足够高、成本足够低,能够让每个人用得上、用得起大模型。这是我们的一个基本判断。

因为智能革命还没到来,所以我们很难预期它到底会对整个社会形态产生什么样的影响,但是我们可以从历史上大概推演出一点远景。这个历史就是过去 80 年,我们整个人类社会所经历的信息革命历史。

上个世纪 40 年代计算机刚刚发明的时候,一台大型计算机重 2.7 吨,一间屋子才能放得下。由于构造这个大型机的成本极高,一般人根本用不上、也用不起,只有国家级别才能够装备得了这样的一个大型机。当时的 IBM 就是大型机的巨头。IBM 的董事长 Watson 曾说过,这个世界上不需要超过五台计算机,原因就是当时大型机实在太昂贵,也只能在非常少的重要场合发挥作用。难道我们会说,大型机的出现,标志着信息革命的出现吗?显然不会。

一场革命,一定是让这个社会上的每个人都能感知到革命的到来,这才是真正的革命。所以我们觉得,信息革命的标志应该是上个世纪 80 年代个人计算机的出现,以及智能手机的普及,能够让我们每个人都用得上、用得起这些廉价的高质量算力。

以此为参照来看的话,我们会发现,英伟达也好、OpenAI 也好,阶段性对大模型的判断,就是要越训越大,越训越强,我觉得它大概的历史地位就跟当年的大型机一样。今天我们也需要大型机,每个国家都会有超级计算机来做天气预报、做科学计算,但这不是每个人都需要的。

我们需要那种超级大的大模型,智力足够强,甚至能拥有超人的智力。但是智能革命的标志应该是,我们能够建立起足够廉价的、足够高质量的、每个人专属的 AI 模型。

也许有人会认为,端侧模型的市场份额不会很大,所以端侧模型显得不那么重要。真的吗?我并不这么认为,但我也不会尝试用没实现的东西说服他们。

DeepSeek 给我们带来的启示就是,只有这个东西做出来了,被大家看到了,大家才能感知到它的革命性。所以我们要做的就是通过一场又一场的胜利,把这件事情做出来,让大家真正感受到我们内心的愿景。

AI 科技评论:从大型机到小型机,你觉得这个过程会需要多久?

刘知远:我觉得 AI 的发展跟计算机的发展一样,一开始肯定是大型机,大型机做出来后,再开始做小型化,芯片做得越来越小、算力越来越强。大型机发展到了一定的阶段之后,开始有人去考虑商业化到底该怎么做的时候,慢慢找到了做 PC(个人电脑)的路子。有一本书叫《硅谷之火》, 就是讲 80 年代的这段故事。

从技术路径上来讲,大模型肯定是某一些能力得先有人能做出来、然后我们再去考虑它的小型化。DeepSeek V3 就是对 GPT-4 能力的一个复现,它做了GPT-4的效果,但是算力要低 1/10。这显然是大模型“小型化”的一个表现,对应的 R1 也是非常出圈。

OpenAI 发布的 o1 也可以看成是高阶推理的大型机,未来一定是要小型化,变成低成本、高质量的模型。整个发展路径在我来看非常清晰。

我提过一个叫“Densing Law”的概念,类似于大模型领域的“摩尔定律”。我们发现,从 2023 年到 2024 年这两年,全球开源的大模型能力密度大概是每 100 天翻一倍。就是说,如果当前我训练出一个模型、它具备 GPT-4 的水平能力,那么过了 100 天之后,只需要一半的参数我就可以实现这个能力。

去年 12 月初我们发布了 Densing Law,现在去看 DeepSeek V3 就是这个定律的完美证明。2024年4月18日发布的 Llama 3-405B 是 4000 亿参数,如果按照 Densing Law 估算,经过 3 个周期(即300天)就可以用 500亿 激活参数实现该能力,而 DeepSeekV3 发布于2024年12月底,全部参数 6700 亿采用 MOE 架构激活参数为 370亿。


4
看向未来:战争与人才

AI 科技评论:这个春节 DeepSeek 赢得了一场很漂亮的战役,我们接下来要赢得什么战役?

刘知远:其实 DeepSeek 这场战役还是一场比较大的战役,因为它的投入其实还是非常高的,模型训练有几千万人民币的投入,更不用说前期的人力、实验算力的投入,肯定是要十倍预期,所以我觉得这是一场几个亿的小型战争。

面壁在 2024 年已经打过几场比较漂亮的战斗,我们发布了 MiniCPM、叫“小钢炮”,在国内外的声誉很高。去年的《经济学人》和最近的《MIT Technology Review》,都提到我们的模型以及我们的团队。我觉得从我们当前资源的角度来看,这场仗打得非常好。

接下来要打类似于 DeepSeek 这样的仗,我觉得还需要通过更多的战斗胜利,不断扩大我们的影响力,积累更多的资源。所以我们并不谋求马上去得到这样一场大胜,这个目标比较远大。现在面壁要把当前的资源做到极致利用,实事求是地要求自己。

DeepSeek 的成功对于大模型创业团队是个巨大的鼓舞,当一定的资源、优秀的青年人才团队、AGI使命感,赋能于一个正确的领导者,赋能于一个正确的战略方向、一件正确的事,可以爆发出惊人的威力。我们的内在自我要求,是通过对大模型本质规律的掌握,去成为那个正确团队、正确方向,做正确的事。世界的走向浩浩汤汤,国家也在投入大量的基金,我们正值一个重大的历史机遇,一旦我们能够获得更多的资源,我们肯定能够更完备地组建大模型团队,瞄着 AGI 需要我们完成的阶段性目标进行攻坚,做出我们的贡献。

这次 DeepSeek R1 做出的高阶推理能力本身就是迈向 AGI 的一个重要能力,此外还需要很多种能力,比如定制模态具身、AI 终端的群体智能等等,还有这么多仗要打,所以我们还是觉得很有信心。

AI 科技评论:2025 年才刚开始,这一波热潮之后,你觉得国内的大模型,会往哪几个方向去发展?面壁想要在当中扮演一个什么样的推动力量?

刘知远:很难说都会在 2025 年实现,但是我觉得肯定还是会有很多值得期待的,一个是高阶推理,肯定会在 2025 年持续地去改进。DeepSeek R1 的技术方案以及工程化,在 2025 年还会有很多可以改进的地方,可以让它更加高效。

高阶推理会成为一个非常重要的话题,但是民众以及投资的兴趣可以会发生快速的衰减,就像 ChatGPT 刚出来的时候,大家也都为之一振,觉得非常 Amazing,但是只过了半年,大家就已经习以为常,觉得没什么大不了的,特别是很多团队迅速跟上了之后。所以如果只看 2025 年的话,我觉得大概率在 6 月前后,国内会有非常多的团队都能做到 R1 的水平,我们也会在端侧实现这个能力。

高阶推理之后,有多模态、有具身、有群体智能,有小型化、有终端智能、底层算力和硬件的深度融合等,依次为支撑产生各种各样的创新应用,这是未来两到三年的主旋律。

今年哪个点上会有突破,这件事情可能很难预期,但是两到三年我会觉得还是非常明确的。我们团队肯定坚持要做的就是模型的小型化、高效化、低成本,别人用 500 亿参数才能做的模型,我们就要努力用 100 亿体量之内做出来,争取尽快能放在终端上跑起来,让他真正地离用户更近,这是我们的一个基本思维方式。

AI 科技评论:以一个人工智能老师的身份角色,你怎么看人才的识别、人才的发展培养,并且将之和整个公司的执行紧密配合起来呢?

刘知远:还是回到毛主席的《论持久战》上来。其实战略的重要意义就是要让大家相信,战略是用来统一思想的。我们相信抗日战争是一个通过持久战可以达成的目标,这是我们统一全国人民思想的重要目标,军民全体都为之而奋斗努力,大家才能更加主动把每一场仗都打好。

我们以 AGI 为目标,去创建一家公司,显然是要有一个非常清晰的、明确的、持久的战略意图。我们提到的 AI 终端、Densing Law、对端侧大模型的预期、以及信息革命和智能革命的类比,其实都是希望能够让整个团队有一个清晰的战略共识。只有这样,大家才能达到高度协同,将来去打每一个具体的仗的时候,他就会知道,这场仗的目的是什么,有什么意义。如果我们在战略上反复横跳,不仅投资人无所适从,整个团队都会人心涣散。

AGI 和光刻机一样,是一个非常复杂的系统工具,需要大团队协作的组织模式,光靠组织创新可能很难做到,创业公司还是得让大家思想上非常统一,目标一致,才能做好协同的工作。

AI科技评论:那这些人才是哪来的?应该从大厂挖,还是自己培养?

刘知远:我是从 2013 年开始带研究生,到今天应该差不多十年的时间了。这么多年来,我最大的感受就是,人的潜力是非常非常巨大的。如果你让他掌握了一些知识,让他建立了一些自信,给他找到了一个让他发自内心幸福的目标,那么他的这个潜力一旦迸发出来,力量是非常非常大的。

我认为,如果是从大厂去挖那么两三个人,这两三个人只是见过的东西多一点、能力好像稍微出众一点,而本身在目标上没有那么地坚定,不把 AGI 作为他的奋斗目标,那他也没有那么强的动力去做相关的工作。所以我不觉得我们应该把主要精力放在挖人上。

我们要做的就是把大家的潜力挖掘出来,把动力激发出来,一旦激发出来,他们的能力就会发生裂变,像原子弹一样迸发出非常强大的能量。


雷峰网原创文章,未经授权禁止转载。详情见转载须知

独家对话刘知远:AGI 是一场技术理想与商业现实的「持久战」

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
Baidu
map