| 雷峰网
0
本文作者: 我在思考中 | 2021-08-23 10:01 |
作者 | 琰琰
编辑 | 陈大鑫
实习论文刷新Image世界记录;
博士毕业收割常春藤大学教职offer;
入职几个月晋升为“校长青年教授”,成为首位获此殊荣的华人学者。
这位出道即巅峰的华人学者,便是现新加坡国立大学青年教授尤洋。
近日,尤洋在北京中关村创办了一家高性能计算公司“潞晨科技”,作为高性能计算和人工智能领域的知名青年学者,尤洋回国创业的消息在业内引起极大关注。
8月4日,潞晨科技完成种子轮融资,获得创新工场、真格基金两家顶级VC机构的超千万元投资。当时创始人尤洋表示,其创业目标是期望最大化人工智能开发速度的同时最小化人工智能模型部署成本。
从左到右:创新工场执行董事任博冰、潞晨科技创始人尤洋、真格基金董事总经理尹乐
近几年人工智能产业发展并不算太好,泡沫、亏损、裁员、流血上市......这些负面评价笼罩着整个行业。而人工智能投融资与创业热潮也确实从2018年开始逐渐趋缓、甚至遇冷。据亿欧统计显示,中国人工智能初创企业数量连续四年下降,AI领域投融资频次也连续三年下滑,且没有触底反弹的迹象。
在这样的大环境下,尤洋为何选择回国创业?高性能计算在国内市场到底有多大潜力?李开复、徐小平,以及更多顶级VC为什么看好潞晨科技?未来这家公司有何战略规划?AI科技评论有幸对话了创始人尤洋,与他聊了聊创业的初衷和战略规划。
AI产业的“阿喀琉斯之踵”
“我目前仍在新加坡国立大学(NUS)任职,但已辞去了其它兼职顾问",尤洋告诉AI科技评论,他之后会把任教之外的所有时间用于创业,以希望能做到产学结合,对社会产生价值。
尤洋创办的潞晨科技是一家高性能计算公司,主要面向B端企业提供分布式软件系统,大规模人工智能平台,以及企业级云计算解决方案等服务。
有统计数据显示,截止2021年,企业级人工智能的市场规模已经超过万亿美元,AI云解决方案相比去年也增长39%,达到了50亿。
庞大的市场规模为创业者们提供了更大的潜在机遇,但从技术角度来看,这也导致AI模型开始出现越练越大的现象。
自2020年GPT-3首次突破千亿级规模后,AI模型的参数量和计算量都开始呈现爆发式的增⻓,目前最大模型智源悟道2.0参数量已达到1.75万亿。
虽然大模型创造了超乎想象的性能神话,但它也让神经网络的训练时间变得非常漫长。
例如,用1个英伟达 V100 GPU训练 ResNet-50 (2500万参数)网络需要1周,而训练 GPT-3 (1750亿参数)可能需要355年。
因此,近几年有越来越多的企业开始创建大规模集群或自研超级计算机,希望通过分布式计算的方式提高模型的训练和部署效率。
例如,Google的TPU Pod,微软为OpenAI 打造的1万GPU集群,英伟达的SuperPOD,包括连自动驾驶领域的特斯拉也加入了这场军备赛,它在今年6月推出的超算 Dojo,已经在世界超算排行榜中位列第五。
超级计算机具有很强的计算和处理数据的能力,其运算速度基本上可以达到每秒一万亿次以上。对于任何AI而言,这种高性能计算有助于大幅提升模型性能。
尤洋认为,当机器到达一定数量后,再多堆砌也无法带来效率上的明显提升,即便是技术实力雄厚的巨头,也难免在大规模人工智能上陷入瓶颈。
高性能计算其实就是使用集群进行计算的方式,实现计算资源的最大化——下到提升一个GPU的吞吐率,上到提升上千台机器的可扩展性。在他看来,未来没有高性能计算,前沿AI是无法发展进步的。现阶段的主流模型AlphaGO,BERT,GPT-3,Switch Transformer,以及智源悟道模型都在一定程度上用到了高性能计算。
除了训练和部署效率低之外,超大模型所带来的并发症也是显而易见的。深度学习模型越大,意味着能耗越高。一般训练一个小型AI模型基本可以达到一个人一年能耗的60倍,而现有的模型参数量已经突破万亿级规模。
根据Emma Strubell等人的研究,从纽约到旧金山每位旅客乘坐飞机产生二氧化碳排放量是1,984 lbs。然而,训练一个2亿参数的模型可以达到626,155 lbs,几乎是前者的300多倍。所以,要想实现人工智能在未来的广泛应用,低能耗计算是非常必要的。
多维度是近年来AI模型发展的另一显著特征。例如,BERT是基于Transformer Encoder,GPT-3是基于Transformer Decoder,Switch Transformer和清华智源是基于混合专家系统,MLP-Mixer是基于全连接网络的变种等等。
与之对应的是,超算系统,联邦学习,跨云计算等硬件配置也越来越复杂化。这两者之间的自适应配置对整个训练系统的性能起着决定性影响。
在尤洋看来,分布式人工智能是未来的大趋势。而分布式计算效率、 高能耗、多维度自适应切分已经成为阻碍当前AI学术与产业发展的“阿喀琉斯之踵”,因此高性能计算当前人工智能市场中极具发展前景。
高性能计算领域的佼佼者
创业项目越是早期,风险越大。由于没有稳定的商业模式、发展战略也可能随时调整,因此VC投资在很大程度上取决于投资人对创始人的判断。
种子轮的投资金额一般比较小,大多在500万(人民币)以下。潞晨科技获得创新工场、真格基金两家顶级VC机构的超千万元种子轮投资,可见李开复、徐小平对创始人尤洋的信任。
翻开尤洋的履历,其在高性能计算领域的学术成就可见一斑。
尤洋在求学阶段,获得过清华大学计算机系最高奖学金西贝尔奖、优秀毕业生等荣誉,并以第一名的成绩保送清华计算机系硕士。在申请博士时,获得了UC Berkeley、CMU、芝加哥大学、UIUC、佐治亚理工、西北大学等六所名校全奖offer。
2018年,尤洋选择在Berkeley计算机系读博,师从美国科学院学院与工程院院士、ACM/IEEE Fellow James Demmel,由此开启了他开挂式的学术生涯。
2019年,尤洋以一作作者的身份发表一篇题目为《Large Batch Optimization for Deep Learning :Training BERT in 76 Minutes》的研究论文,在国内外学术界引起了不小的震动,被ScienceDaily,The Next Web,i-programmer等几十家媒体广泛报道。
论文地址:https://arxiv.org/abs/1904.00962
他在这篇论文中提出了一种新型优化器 LAMB,将超大模型BERT的预训练时间压缩到了 76分钟。
要知道BERT-Large预训练的计算量非常大。例如,Transformer 使用 8 块 P100 在 8 亿词量的数据集上训练 40 个 Epoch 需要一个月,而BERT-Large 模型在有 33 亿词量的数据集上训练 40 个 Epoch,使用 8 块 P100 上可能需要 1 年。
论文中表明,相比基准 BERT-Large 用 16 块 TPU 芯片,LAMB 训练 BERT-Large 采用一个 TPU v3 Pod(1024 块 TPU 芯片)。在批量训练大小接近 TPUv3 pod 内存极限的情况下,将预训练的迭代次数由 100 万次减少到了 8599 次,从而使训练时间由3天缩短到了 76 分钟,刷新世界记录。
到目前为止,LAMB仍为机器学习领域的主流优化器,并被广泛应用于谷歌,微软,英特尔,英伟达等科技巨头。
而在更早之前,尤洋还刷新了ImageNet训练速度的世界记录,他发表的这篇《ImageNet Training in minutes》提出的算法将 AlexNet模型训练压缩到了24分钟。此前,在英伟达的 M40 GPU 上利用 ImageNet训练ResNet50 需要 14 天。
根据Google Scholar显示,尤洋在并行计算、机器学习以及高性能计算研究领域已经累计发表论文40多篇,其中两篇论文被国际并行与分布式处理大会(IPDPS 2015)和国际并行处理大会(ICPP 2018)评选为最佳论文。
AI技术和人才是任何一家人工智能创业公司最核心的资本。尤洋告诉AI科技评论,潞晨公司招募的十名核心成员均来自美国加州大学伯克利分校,斯坦福大学,清华大学,北京大学,新加坡国立大学,新加坡南洋理工大学等国内外知名高校。
他们在高性能计算,人工智能,分布式系统方面已有十余年的技术积累,并在国际顶级学术刊物或会议发表论文30余篇。
如潞晨科技的CTO卞正达硕士毕业于新加坡国立大学,曾以第一作者的身份在国际超级计算大会SC上发表论文 。国际超级计算大会每年有上万人参会,但只收录100篇左右论文,是超级计算机领域最有影响力的会议。
同时他们还邀请到了美国科学院院士,工程院院士James Demmel教授还担任该团队的顾问。Demmel教授是加州大学伯克利分校前EECS院长兼计算机系主任,中关村战略科学家 (陈吉宁市长亲自颁发),ACM/IEEE Fellow,也是尤洋读博期间的导师。
先造锤子,再找钉子
人工智能产业的发展趋势,让尤洋看到了其中的创业机遇,而真正推动他回国创业还是在UC Berkeley读博期间的思想熏陶。“Berkeley计算机系的教授追求产研结合,希望真正做出一个有影响力的实用系统,而不仅仅是发论文”。
创业是产学结合的一种常见方式,近几年越来越多的学术专家开始涉足产业界,尤其是在高性能计算领域。例如去年3月,知名机器学习华人学者、CMU助理教授陈天奇回国创业,试图解决优化深度学习模型的高效训练和部署问题。
尤洋表示,Berkeley计算机系的产业化精神对青年学者产生了深远影响,Ion Stoica,Matei Zaharia等从Berkeley走出来的教授都在兼顾学术与产业,而他的学长Prateek Saxena也总强调,‘my startup is my research’,这些思想让他深受启发和鼓舞。
虽然处于创业早期,但潞晨科技发展战略似乎已经非常明晰。“我们希望‘先造锤子,再找钉子’,在创业初期先努力打造一个通用系统,并在1年完成系统优化,应用于中小型企业”。
在尤洋看来,企业完成分布式训练需要投入昂贵的专业人员,这无形中大大降低了模型的部署效率,而且机器资源的价格往往是动态变化的,动态改变负载很容易造成人工智能系统学习效率低或崩溃,这对于中小企业而言更是致命一击。
针对当前的行业痛点出发,他们希望以优化技术为基础,大幅度提升系统在超大规模计算的扩展性效率。在动态改变负载的同时,能够稳定人工智能系统,让系统效率能随着机器规模自动扩展,并在应用场景提供一些跨云服务。
此外,针对模型的多维度自适应切分,他们已经实现了2维网格参数划分,3维立体参数划分,以及2.5维通信最小化参数划分,这样的动态模型并行技术也有助于大幅提升计算效率。
作为一家面向B端的AI企业,尤洋表示当前公司发展最重要的是积累技术实力,所获超千万元投资将主要用于技术研发。有了成熟稳定的技术解决方案之后,再需要根据市场的需求调整战略,制定更为详细的商业化路径。
现阶段,他们希望潞晨科技在中期发展阶段能够设计出自适应新兴智能硬件芯片的系统和自动扩展智能编程系统,以满足中等互联网公司或传统行业公司的需求,进而再推出企业级的SaaS服务以及AI云服务(AIaaS),与大型云服务商合作共同构建商业化智能计算中心。
广纳英才,可自荐CEO
目前潞晨科技正在招聘全职/实习软件工程师,全职/实习人工智能工程师 等技术人才。可协助申请北京户口,特别优秀的人,还可以申请担任公司的CEO。
岗位职责:
开发分布式人工智能系统并部署到大规模集群或云端。
从具体的场景和问题出发,研发和优化算法系统,产出解决方案应用到场景中。
参与人工智能技术与现有工具的融合设计和优化,提高产品性能。
撰写高质量的科技论文,有机会担任重要论文的第一作者 (未来换工作或升学的重要加分项)。
任职要求
精通TensorFlow, PyTorch, Ray, DeepSpeed, NVIDIA Megatron,熟悉上述系统的内部运行机制。
熟悉各类优化算法与模型架构,熟悉python或C++的优化算法库,包括各类基于梯度的经典算法与经典模型 (BERT, GPT-3, Switch Transformer, ViT, MLP-Mixer)。
有较强的编程能力和工程实现能力。获得过编程竞赛奖或发表过高质量论文的优先录用。
211、985、海外知名高校本科以上学位(或在读),计算机科学、软件工程,电子信息,自动化,数学,物理或其它人工智能相关专业。
雷锋网雷锋网雷锋网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。