过去半年,为了追赶OpenAI的研发脚步,科技巨头Meta公司(前Facebook)接连发布免费开源大语言模型LLaMA、Llama 2以及编程模型Code Llama等,引发了一场关于开源与闭源模型优劣的广泛热议。
但对于一些参与Llama大语言模型研发的Meta 科学家们来说却不这样想,普遍认为这款大模型来的太晚了,团队精英 AI 人才流失太高了。
据The information近日报道,今年2月发表的Llama原始研究论文的14位作者中,包括FAIR巴黎团队负责人Antoine Bordes在内的超过一半(7人)AI科学家离开了Meta,其中几位跳槽或创办了 AI 初创公司,或是到大公司,原因与内部算力资源斗争有关。
同时,OPT、ESMFold等多个项目也同时解散,员工合并重组,影响超过数十人,其中OPT研究论文的19位作者中,已经约有一半已不在Meta工作,近10位AI领域核心研发人员。
实际上,过去10多年来,马克·扎克伯格(Mark Zuckerberg)一直将 AI 当作Meta新发展的重要起点,而且挖来了 AI 学术领域重要的科学家,如图灵奖得主、Meta首席 AI 科学家杨立昆(Yann LeCun)等,但持续性团队内斗影响了Meta AI对于研究资源的分配。
而随着全球经济衰退加剧、紧急追赶ChatGPT,经历一段时期的人员波动和内部整合、超过1万名员工被裁掉。最终,Meta选择商业化的 AI,放弃纯科学性AI技术。
超半数Llama团队愤然出走,因与OPT团队内部算力争夺有关
Meta在人工智能(AI)领域的核心研究,主要来源2013年成立的FAIR(Facebook AI Research)。
团队组建之初,Meta聘请了图灵奖获得者、法国科学家杨立昆担任 AI 研究负责人,整个FAIR的研究任务是将 AI 用于翻译语言,推进AI医疗等场景。同时,FAIR团队大手笔在美国加州门洛帕克、纽约、蒙特利尔、巴黎、伦敦和西雅图六地设立实验室。
据报道,FAIR在巴黎的团队主要研发了Llama大模型,而FAIR美国团队则研发OPT模型,两个团队主要向Meta基础Al研究负责人Joelle Pineau汇报。据悉,Pineau不仅是Meta AI研究副总裁,而且还是麦吉尔大学教授,主要研究新的模型和算法。
早在2022年5月,ChatGPT发布之前,Meta美国团队就公开发布了OPT-175B。当时Meta声称该模型比OpenAI的GPT-3训练所需能源更少,而这两个模型用于训练的参数规模相同。据两位知情人士称,几个月后,该团队已经开始研究媲美谷歌PaLM的一款大模型。
与此同时,巴黎FAIR团队已经开始研究另一种独立的大模型,最终被称为Llama,该模型参数比OPT小,团队认为较小模型在推理(即对问题生成响应的过程)方面会更有效,尤其Llama需要的算力资源低于OPT模型。
不过,由于Meta的算力资源有限,内部分配一直不合理。而这种算力争夺加剧了团队之间的紧张关系。
据报道,Meta内部每月做出一次算力分配决定,与不同业务部门、不同优先事项,以及项目发布时间等因素有关。而如果FAIR的员工提出争议,这些争议就会升级,交由Pineau做出决定。
Pineau回应称,Llama和OPT团队在算力分配的问题上“有些紧张”,称“尽管我们不保证每个人都会得到想要的,但我们一直试图在平衡各方需求”。
2023年开始,随着ChatGPT对话 AI 模型风靡全球,两个团队内斗紧张局势达到了顶峰。
今年2月,Meta FAIR发布了Llama开源模型,并获得研究使用许可,而且多个团队使用Llama开发了Vina等其他开源大模型,广受好评。
但在发布会前一周,FAIR团队联合创办人兼巴黎团队负责人Antoine Bordes却离开了Meta公司,报道称,其主要与美国团队的内斗让Bordes精疲力尽。Bordes拒绝置评。
同时,自去年11月起,扎克伯格开始了Meta全公司范围的裁员,涉及超过1万名员工,FAIR团队也未能幸免。今年2月,Meta成立了一个新团队,专注于开发生成式 AI 技术,团队负责人是苹果前高管Ahmad Al-Dahle。随后很多FAIR、Llama 2开发团队都加入其中,又一次进行了团队洗牌。
而Meta这种人员变动、整合,让FAIR团队只能研究Code Llama。因此,更多Llama、OPT等项目的研究人员感受到了更大的内部斗争氛围,愤然离职。
据报道,目前,Llama原始研究论文的14位作者中,超过7人已从Meta离职。而2022年5月公布的OPT原始研究论文的19位作者中,约有10名 AI 大牛已经从Meta离开。The information提到了其中四位的去向:
FAIR巴黎分部负责人Antoine Bordes已离职,加入了军工 AI 公司Helsing Llama论文作者、FAIR研究总监Armand Joulin,今年5月离职,随后加入了苹果公司。 Llama论文作者Timothee Lacroix和Guillaume Lample已离职,共同创立了 AI 初创公司MistralAI Llama论文作者Marie-Anne Lachaux已离职,加入了MistralAl
另外,今年8月有报道称,Meta为了降本增效,裁掉了对标谷歌DeepMind AlphaFold、利用 AI 大模型实现蛋白质预测的生物科学ESMFold项目团队。此前,该团队研发出了150亿参数、预测超6亿个宏基因组蛋白质序列大模型ESMFold,AI 的速度比 AlphaFold 快 60 倍。不过如今,该团队已解散,负责人已辞职创业。
英国《金融时报》认为,Fair实验室内部的学术文化是Meta迟迟在 AI 大模型竞争中获得领先的原因,而随着ChatGPT的爆发,如今Meta试图调整目标“GenAI”,并重新配置其Fair团队的研究方向,转向 AI 模型的商业化。
扎克伯格表示,随着开发者不断改进模型,Meta可以将这些改进融入其广告和消费产品中。看起来,扎克伯格从Llama看到了以开源在AI竞争中打开局面的可能性。
Joelle Pineau坦言,留住和吸引优秀人才是公司花费大部分时间的原因。如果没有优秀的研究人员,她什么也做不了。
“由于 AI 领域发展如此之快,我们正在共同思考,FAIR应该拥有哪个项目?Gen AI 应该拥有哪个项目?我们应该持续关注两个团队的工作成果。”Pineau表示。
算力不足下,Meta仍计划明年发布对标GPT-4的大模型
Meta AI 研究团队这一内斗、核心人员离职案例,可以从两个角度解读。
一是大公司创新能力随着内部问题不断下降,资本和大科技公司创新鸿沟加深。(详见钛媒体App前文:《全球经济巨变下,资本和科技创新之间的冲突与平衡》)
此前,谷歌也做了类似的事情,DeepMind研发 AI 技术多年,诞生出了AlphaFold、AlphaGo等行业顶级技术,但难以盈利,2018年-2020年总亏损额超过17亿美元。因此在今年4月,谷歌母公司Alphabet CEO Sundar Pichai (皮猜)宣布,将谷歌大脑和DeepMind 两大团队合并,组成“Google DeepMind”部门,研发任务之一是多模态 AI 模型,而此前谷歌大脑、DeepMind内部竞争颇多。
另外在阿里内部也产生一定的竞争。近日,阿里达摩院M6大模型带头人杨红霞、阿里云AI大牛贾扬清、机器学习科学家金榕等 AI 大牛也纷纷离职,有消息称,阿里大模型研发时经过内部的竞赛流程,金榕和杨红霞团队技术产生竞争,最终诸多因素下才最终选择杨红霞的模型技术,从而诞生通义千问,不过最终两位技术负责人均从阿里辞职。
搜狗创始人、百川智能创始人兼CEO王小川告诉钛媒体App,“资本是逐利的,所以不是投自动驾驶就是安防。对大厂来说,当时投钱创新是有巨大风险的。对企业的一号位来说,想的更多还是业务上的东西,花钱最后没出成果,算谁的?”
另外一方面是Meta的算力资源不足。
随着OpenAI用微软云的算力、谷歌则自行购买GPU(图形处理器)芯片,多家科技巨头加大算力基础设施布局。而Meta没有自己的庞大云算力储备,因此在生成式AI的赛道上明显“掉队”。
2022年的一场5个小时会议上,Meta的基础设施负责人当时表示:“我们在开发AI的工具、工作流程和程序上存在显著差距,我们必须得投入大笔投资。”而随着ChatGPT的发布,全球 AI 训练、推理算力需求加剧,Meta似乎只能追赶。
据报道,GPT-3使用10000张GPU A100显卡、花了30天才训练完了1750 亿参数,单 GPU 计算性能为12TFlops,消耗的总算力为每天每秒3640PetaFlop,GPU-4数据更高。即便是利用3584 个英伟达最新 H100 芯片,GPT-3大模型训练任务也需要11分钟。而OpenAI尚未透露GPT-4的大小,但估计参数为1.5万亿。
庞大的数据量需要大量的算力支持。因此,Meta依然需要购买大量英伟达产品,补足算力缺口,例如Meta Llama模型已经在微软云平台Azure上提供。
Meta CFO Susan Li在今年2月坦承,Meta投入给生成式AI的算力相当有限,基本上所有的AI算力都投向了广告、信息流和短视频项目。
即便是算力不足,扎克伯格仍希望尽力追赶,并且打造更多的大模型产品落地应用。
据外媒9月11日报道,Meta正在开发一种新的 AI 大语言模型(LLM),超越Llama 2,性能比肩GPT-4。报道称,预计Meta将在2024年初开始训练这一大模型。