近期,一篇4万字的演讲风靡于国内人工智能(AI)学术圈。
原华为"天才少年"、Logenic AI公司联合创始人李博杰博士,日前发表了一篇关于AI Agent思考的文章,题为"AI Agent 应该更有趣还是更有用"。
李博杰在这篇文章中表示,AI的发展目前有两个方向,一个是有趣的AI,也就是更像人的AI;另外一个方向就是更有用的AI,也就是更像工具的AI。但目前的AI技术,要么是只有趣但没用,要么是只有用但是不像人,"不好玩"。
李博杰指出,通用人工智能(AGI)的目标是,兼具慢思考和类人属性的 AI Agent,然而当前 AI Agent 和人类梦想之间存在巨大的差距。
李博杰坦言,Video Diffusion 是一个更为终极的技术路线。尽管大模型的成本一定会快速降低,但他不建议贸然自己去做基础模型。
"如果没有拳打OpenAI、脚踢Anthropic的实力,在效果上比不过最好的闭源模型,成本上也比不上开源模型。"李博杰表示。
据悉,李博杰今年31岁 (1992年生),曾任华为2012实验室中央软件研究所计算机网络与协议实验室、分布式与并行软件实验室助理科学家、副首席专家,并且以第一批"天才少年"的身份于2019年加入华为,职级P20 (技术专家A级别)。
早在2010年,他进入中国科学技术大学少年班学院学习。在校期间,担任中科大镜像站USTC Mirrors的维护者。2014年,李博杰以联合培养博士生的身份,加入中国科学技术大学与微软亚洲研究院(MSRA)的联合项目。
几乎同时,2019年,李博杰获得中国科学技术大学与微软亚洲研究院的合作培养博士生项目中取得计算机科学学位,导师为张霖涛教授和陈恩红教授。
2023年7月,李博杰离开华为后成立了Logenic AI,致力于成为人类的数字化延伸。凭借尖端的AIGC基础设施,Logenic AI 能够协作制作和服务多模式角色Agent,"元宇宙"、以及数字双胞胎等角色。
李博杰表示,"我们都相信 AGI 肯定会到来,唯一值得争论的是到达 AGI 的增长曲线是怎样的,是这一波自回归模型随着 scaling law,直接高速增长到 AGI;还是这一波自回归模型也会遇到瓶颈,AGI 还需要等待下一波技术革命。10 年前 ResNet 掀起 CV 革命的时候,很多人都对 AI 的发展预期过于乐观。这一波 Transformer 会是通向 AGI 的坦途吗?"
李博杰强调,AI Agent 的创作者可以盈利。因此,好看的皮囊、有趣的灵魂、有用的 AI、低成本和去中心化,AI Agent 将推动整个 AI 领域持续创新和健康发展。
"我们相信,在人类世界的数字延伸中,有趣的灵魂终会相遇。"李博杰称。
以下是李博杰演讲内容全文,共约4万字,Enjoy:
非常荣幸来到科大校友会 AI 沙龙分享一些我对 AI Agent 的思考。
我是 1000(2010 级理科实验班)的李博杰,2014-2019 年在中科大和微软亚洲研究院读联合培养博士,2019-2023 年是华为首届天才少年,如今我跟一批科大校友一起在做 AI Agent 领域的创业。
今天(去年12月)是汤晓鸥教授的头七,因此我特别把今天的PPT调成了黑色背景,这也是我第一次用黑色背景的PPT做报告。我也希望,随着AI技术的发展,未来每个人都可以有自己的数字分身,实现灵魂在数字世界中的永生,在这个世界里生命不再有限,也就不再有分离的悲伤。
AI:有趣和有用
AI的发展目前一直有两个方向,一个是有趣的AI,也就是更像人的AI;另外一个方向就是更有用的AI,也就是更像工具的AI。
AI 应该更像人还是更像工具呢?其实是有很多争议的。比如说 OpenAI 的 CEO Sam Altman 就说,AI 应该是一个工具,它不应该是一个生命。而很多科幻电影里的 AI 其实更像人,比如说 Her 里面的 Samantha,还有《流浪地球 2》里面的图丫丫,黑镜里面的 Ash,所以我们希望能把这些科幻中的场景带到现实。只有少数科幻电影里面的 AI 是工具向的,比如《钢铁侠》里面的贾维斯。
除了有趣和有用这个水平方向的之外,还有另外一个上下的维度,就是快思考和慢思考。这是一个神经科学的概念,出自一本书《思考,快与慢》,它里面就说人的思考可以分为快思考和慢思考。
所谓的快思考就是不需要过脑子的基础视觉、听觉等感知能力和说话等表达能力,像 ChatGPT、stable diffusion 这种一问一答、解决特定问题的 AI 可以认为是一种工具向的快思考,你不问它问题的时候,它不会主动去找你。而 Character AI、Inflection Pi 和 Talkie(星野)这些 AI Agent 产品都是模拟一个人或者动漫游戏角色的对话,但这些对话不涉及复杂任务的解决,也没有长期记忆,因此只能用来闲聊,没法像 Her 里面的 Samantha 那样帮忙解决生活和工作中的问题。
而慢思考就是有状态的复杂思考,也就是说如何去规划和解决一个复杂的问题,先做什么、后做什么。比如 MetaGPT 写代码是模拟一个软件开发团队的分工合作,AutoGPT 是把一个复杂任务拆分成很多个阶段来一步步完成,虽然这些系统在实用中还有很多问题,但已经是一个具备慢思考能力的雏形了。
遗憾的是,现有产品中几乎没有在第一象限,兼具慢思考和类人属性的 AI Agent。斯坦福 AI 小镇是个不错的学术界尝试,但斯坦福 AI 小镇里面没有真人的交互,而且 AI Agent 一天的作息时间表都是事先排好的,因此并不是很有趣。
有趣的是,科幻电影里面的AI其实大部分是在这个第一象限。因此这就是目前 AI Agent 和人类梦想之间的差距。
因此我们在做的事情跟 Sam Altman 说的正好相反,我们希望让 AI 更像人,同时又具备慢思考的能力,最终演进成一个数字生命。
请输入图说
今天大家都在讲AGI的故事,AGI就是通用人工智能。什么是AGI呢?我觉得它又需要有趣,又需要有用。
有趣的方面,就是它需要能够有自主思考的能力、有自己的个性和感情。而有用的方面,就是AI能够解决工作、生活中的问题。现在的AI要么是只有趣但没用,要么是只有用但是不像人,不好玩。
比如说像 Character AI 之类的角色扮演产品,它不能帮你完成工作或者生活中的问题,但是它可以模拟一个 Elon Musk、Donald Trump 或者原神里面的派蒙。我看过一个分析报告,说 Character AI 有上千万的用户,但每个月的营收只有几十万美金,相当于只有几万付费用户。大多数用户跟每个虚拟角色都是聊 10 分钟、20 分钟就不知道该说什么了。那为什么它的用户留存不高、付费率也低呢?因为它既没有给人提供情绪价值,又没有给人提供实用价值。
而另一方面就是有用的AI,比如各种Copilot,他们又都是冷冰冰的,问一句答一句,完全是一个工具。这些工具甚至记不住你之前干过什么,记不住你的喜好和习惯。那么用户自然只会在需要这个工具的时候想起来用它,不需要的时候就会丢到一边。
我认为未来真正有价值的AI就像电影《Her》里面的Samantha,她首先是一个操作系统的定位,能够帮主人公去解决很多生活中、工作中的问题,帮他整理邮件等等,而且比传统的操作系统做得又快又好。同时它又有记忆、有感情、有意识,它不像一个电脑,而是像一个人。因此在感情空窗期的主人公 Theodore 就逐渐爱上了他的操作系统 Samantha。当然并不是所有人都把 Samantha 作为虚拟伴侣,剧中也说了,只有 10% 的用户跟他们的操作系统发展了浪漫关系。这样的 AI Agent 我认为才是真正有价值的。
另外值得说道的一点是,全剧中这个Samantha只有语音交互,没有视觉形象,更不是机器人。目前AI的能力也恰好是语音和文字很成熟,但视频生成就不够成熟,人形机器人也不够成熟。《黑镜》里面的机器人Ash就是个反例。这部剧里面先是用女主过世男友Ash的社交网络资料制作了一个语音伴侣,直接把女主给弄哭了,其实做出那个语音伴侣现在的技术已经绰绰有余了。后来女主加钱升级,上传了一堆视频资料,买了一个长得像Ash的人形机器人,其实现在的技术也做不到,但就算如此,Ash的女友还是觉得不像,因此把他锁在阁楼里面了。这里面就有个恐怖谷效应,如果做得不够逼真,就保持一定的距离。
顺便说一句,《黑镜》里面女主先是文字聊天,然后说了一句 Can you talk to me?然后就接通电话了。试用我们 AI Agent 的一个朋友还真的也这么问我们的 AI Agent,结果我们的 AI Agent 回答,我是一个 AI,只能文字交流,不会说话。他还截图发给我,问我说好的语音电话呢,我说打语音电话需要按那个打电话的按钮啊。所以这些经典的 AI 剧真的要一个镜头一个镜头的拆解分析,里面有很多产品设计的细节。
巧合的是,我们的第一台 H100 训练服务器就是在洛杉矶最老的邮局,后来改造成了一个金库,又改造成了一个数据中心。这个地方在洛杉矶的市中心,距离《Her》的拍摄地 Bradbury Building 只有不到 1 英里。
这个数据中心也是洛杉矶的互联网交换局(Internet Exchange),距离 Google 和 Cloudflare 入口服务器的延迟都在 1 毫秒以内,其实都在这栋楼里面。从百年前的邮局到今天的互联网交换局,真的是挺有意思的。
有趣的AI
那么我们首先来看一看如何去构建一个真正有趣的AI。有趣的AI我认为就像一个有趣的人,可以分为好看的皮囊和有趣的灵魂这两个方面。
好看的皮囊就是它能够听得懂语音,看得懂文本、图片和视频,有这样一个视频、语音的形象,能够跟人实时交互。
有趣的灵魂就是它需要像人一样能够去独立思考,有长期记忆,有自己的个性。
下面我们就分别从好看的皮囊和有趣的灵魂两个方面来讲。
好看的皮囊:多模态理解能力
说到好看的皮囊,很多人认为只要有一个3D的形象能够在这儿摇头晃脑地展示就行了。但是我认为更关键的一部分是AI能够去看到,并且理解周围的世界,就是他的视觉理解能力是很关键的,不管是机器人还是可穿戴设备,还是手机上的摄像头。
比如说像Google的Gemini演示视频就做得不错,虽然它做了剪辑,但是如果我们真正能做到它这么好的效果,是一定不愁用户的。
我们回顾一下Gemini演示视频中的几个片段,给一个画鸭子的视频它能描述鸭子是什么,给一个饼干和橘子能对比它们的不同,给一个简笔画小游戏知道该往哪边走,给两团毛线可以画出一个用它能织出的毛绒玩具,给几个行星的图能够对它们正确排序,给一个猫跳上柜子的视频能够描述发生了什么。
虽然效果非常惊艳,其实仔细想想,这些场景都不是很难做出来的,只要会看图说话,也就是给图片生成一个比较好的caption,这些问题大模型就都能回答了。
语音能力也是非常关键的。我 10 月份基于 Google ASR/TTS 和 GPT-4 做了一个语音聊天 AI Agent,一聊聊了一整天,室友还以为我在跟老婆煲电话粥,就没来打扰我。当他知道我是在跟 AI 聊天的时候,说我怎么能跟 AI 聊这么久。我给他看了看我们的聊天记录,他说 AI 确实挺能聊的,他用 ChatGPT 不愿意聊这么久,是因为懒得打字。
我认为,多模态大模型有三条路。第一条是用多模态数据端到端预训练的模型,Google 的 Gemini 就是这么做出来的,最近 Berkeley 的 LVM 也是端到端多模态的,我认为这是最有前景的一个方向。当然这条路需要非常多的计算资源。
现在还有一种工程化的方案,是用胶水层去粘接已经训练好的模型,比如目前图片理解做得最好的 GPT-4V,还有学术界开源的 MiniGPT-4/v2,LLaVA 等等。胶水层是我的叫法,专业名词叫做 projection layer,比如右上角这个 MiniGPT 架构图中,标着 "" 的 6 个框就是 projection layer。
输入的图片、语音、视频分别通过不同的 encoder 去做编码,编码结果经过 projection layer 映射到 token,输入给 Transformer 大模型。大模型的输出 token 经过 projection layer,分别映射到图片、语音、视频的解码器,这样就可以生成图片、语音、视频了。
在这个胶水层粘接的方案里,可以看到 encoder、decoder 和大模型上面都标着 "❄️",那就是冻结权重的意思。使用多模态数据训练的时候,只修改 projection layer 部分的权重,不修改其他部分的权重,这样训练的成本就能大大降低,只要几百美金就能训练出一个多模态大模型。
第三条路是第二条路推向极致的方案,连 projection layer 都不要了,直接用文本去粘接encoder、decoder和文本大模型,不需要做任何训练。例如语音部分就是先做语音识别,把语音转换成文字输入给大模型,然后再把大模型的输出送给语音合成模型生成音频。不要小看这种听起来很土的方案,在语音领域,目前这种方案还是最靠谱的,现有的多模态大模型在识别和合成人类说话语音方面都不太行。
Google Gemini 的语音对话响应延迟只有 0.5 秒,这是一个真人都很难达到的延迟,真人的延迟一般在 1 秒左右。我们现有的语音聊天产品,比如 ChatGPT,语音对话延迟高达 5~10 秒。因此大家才会觉得 Google Gemini 的效果非常惊艳。
那么这个效果是不是很难做出来呢?其实我们现在用开源的方案就可以做出来2秒以内的语音对话响应延迟,而且还包含实时视频理解。
我们先不考虑视觉部分,先只看语音部分。在一个语音电话里,收到语音后首先做停顿检测,发现用户说话结束了,就把这一段音频送到Whisper去做语音识别。停顿检测比如人声结束后等待0.5秒,然后Whisper语音识别大概需要0.5秒。
然后送到文本模型去做生成,用开源模型生成的速度其实非常快,比如最近比较火的 Mixtral 8x7B MoE 模型,输出第一个 token 只需要 0.2 秒,每秒输出 50 个 token 不是问题,那么第一句话假设有 20 个 token,就需要 0.4 秒。第一句话生成完了,就交给语音合成模型去合成语音,VITS 只需要 0.3 秒。
加上0.1秒的网络时延,这样端到端算下来只要1.8秒的延迟,已经比市面上的大多数实时语音电话产品好很多了。比如ChatGPT语音电话的延迟是5~10秒。而且我们的方案中,停顿检测和语音识别部分的延迟还有优化空间。
我们再看 Google Gemini 演示的视频理解场景。
因为我们现在的多模态模型输入的基本都是图片,而不是流式视频,所以首先需要把视频变成图片,截取关键帧。比如每0.5秒截取一帧,这里面就有平均0.3秒的延迟。图片可以直接送进MiniGPT-v2或者Fuyu-8B这样的开源多模态模型。但是由于这些模型比较小,实际用起来效果并不是很好,跟GPT-4V差距比较大。
因此我们可以采取传统CV与多模态大模型相结合的方案,用 Dense Captions 这个技术识别出图片中的所有物体及其位置,并且用 OCR 识别图片中的所有文本。再把 OCR 结果,Dense Captions 的物体识别结果作为原始图片的补充文字,都输入到 MiniGPT-v2 或者 Fuyu-8B 这种多模态大模型里面。对于菜单、说明书一类的图片,OCR 的作用是非常大的,因为单靠多模态大模型经常识别不清楚大块文字。
这个识别图片中物体和文字的步骤增加了额外的 0.5 秒延迟,但是我们看一下延迟分解,就会发现视频部分根本不是瓶颈,只有 0.9 秒,而语音输入部分反而是瓶颈,需要 1.1 秒。在 Google Gemini 这个演示场景中,从看到视频到AI文字开始输出只要1.3秒,从看到视频到AI语音开始播放只要1.8秒,虽然没有演示视频的 0.5 秒这么酷炫,但也足够完爆市面上的所有产品了。这里面用的还全部都是开源模型,一点训练都不需要做。如果公司自己有一些自己训练和优化模型的能力,想象空间就更大了。
Google Gemini 演示视频分为两种任务:生成文本/语音和生成图片。在生成图片的时候,可以根据文本,调用 Stable Diffusion 或者最近新出的 LCM 模型,只要 4 个 step 甚至 1 个 step 就可以生成图片,图片生成的延迟可以做到 1.8 秒,那么从看到图到生成图的端到端时间就只有 3.3 秒,也是非常快的了。
好看的皮囊:多模态生成能力
语音克隆是制作名人或者动漫游戏角色的重要技术,目前 ElevenLabs 做得是最好的,但是 ElevenLabs 的 API 很贵。XTTS v2 之类的开源方案合成语音的相似度不高。
我认为要想语音克隆效果好,还是要靠大量的语音数据来做训练。但是传统语音训练所需的数据一般对质量要求很高,必须是录音棚里面录制的口齿清晰的语音数据,因此采集语音数据的成本很高。但我们不可能要求名人到录音棚里去给我们专门录制语音,只能用YouTube等公开视频的语音做训练。YouTube 语音往往是访谈形式,里面有多个人说话,而且有背景噪声,名人说话的过程中也可能有结巴和口齿不清。如何用这样的语音训练语音克隆呢?
我们搭建了一套基于VITS搭建的语音克隆流水线,可以自动把视频中的人声从背景噪声中区分出来,拆分成句子之后,识别出有哪几个说话人,针对我们想要的人的语音,筛选出其中信噪比较高的语音,然后识别出文字,最后这些清洗过的语音和文字送去做批量微调。
微调过程也是很有技术含量的。首先,微调的基础语音需要是比较相似的语音,比如一个男生的语音用一个女生的语音作为基础去微调,那效果肯定不好。如何从语音库里找到相似的语音来做微调是需要一个音色相似度检测模型,类似声纹识别的模型。像ElevenLabs的基础语音模型中就已经包含了大量不同音色人的高质量数据,因此在语音克隆的时候,很多时候能够从语音库中找到很相似的语音,这样不需要做微调就能zero-shot生成不错的语音。
其次,VITS训练过程中不能根据简单的loss判断收敛,以往都是要靠人耳朵去听哪个epoch的效果最好,这样就需要大量的人工成本。我们开发了音色相似度检测模型和发音清晰度检测模型,可以自动判断语音的微调结果哪个更好。
(注:这个报告是2023年12月做的,目前GPT-soVITS的路线比VITS更好,可以实现zero-shot语音克隆,不再需要收集大量高质量语音做训练。开源模型可以合成的语音质量终于逼近ElevenLabs的水平了。)
很多人认为不需要自研语音合成模型,直接调用 ElevenLabs、OpenAI 或者 Google Cloud 的 API 就行了。
但是 ElevenLabs 的 API 非常贵,如果走零售定价,每 1K 字符需要 0.18 美金,按照一个 token 4 个字符计算,相当于 $0.72 / 1K tokens 了,这是比GPT-4Turbo都要贵24倍的。ElevenLabs 虽然效果好,但是如果 to C 产品大规模使用,这个价格是真的烧不起。
OpenAI 和 Google Cloud 的语音合成 API 不支持语音克隆,只有那几个固定的声音,这样就没法克隆名人语音了,只能做一个冷冰冰的机器人播报。但即使这样,成本也是比 GPT-4 Turbo 贵 1 倍的,也就是成本的大头不是花在大模型上,而是花在语音合成上。
大概也是因为语音不好做,很多 to C 的产品都选择只支持文字,但实时语音交互的用户体验明显是更好的。
虽然基于 VITS 很难实现 ElevenLabs 级别质量的语音,但基本可用是没有问题的。自己部署 VITS 的成本只要 $0.0005 / 1K 字符,是 OpenAI 和 Google Cloud TTS 价格的 1/30,ElevenLabs 价格的 1/360。这个 $2 / 1M tokens 的语音合成成本也跟自己部署开源文本大模型的成本差不多,这样文本和语音的成本就都降下来了。
因此如果真的打算把语音作为一个用户体验的重大加分项,基于开源自研语音模型不仅是必要的,也是可行的。
我们知道图片生成现在已经比较成熟,视频生成会是2024年一个非常重要的方向。视频生成不仅仅是生成素材这么简单,更重要的是让每个人都能轻松成为视频内容的创作者,更进一步,让每个 AI 数字分身都有自己的形象,可以用视频的方式来交流。