“经过这两次大的产业升级之后,中国在数字化支付、网络、用户终端,基本上都和美国在同一阵线,比其他所有国家都要好。我们在最高端的计算芯片、算法系统和一些大的平台性技术方面,现在感觉到是有些距离。但我觉得中国的创业者、工程师和科研人员,一旦把资源集中,并且有耐心,是可以赶上的。有很多挑战,但我还是充满信心。”
尽管中国是ChatGPT未开放服务的区域之一,但2023年2月初,在ChatGPT正式发布两个月后,这一聊天机器人程序在中国的热度开始走高——与之相关的话题多次登上社交媒体热搜榜单,A股市场上ChatGPT概念股板块历经多番涨停潮,百度、阿里、京东、网易等科技公司相继宣布推出或研发对标产品的计划。
在ChatGPT和同类产品引发持续热议的当下,大模型技术正在触发IT行业怎样的变革?我们应该如何理解“中国版ChatGPT”的意义?在新一轮行业爆发期,中国AI产业会面临怎样的挑战与机遇?就这些问题,本刊专访了清华大学智能科学讲席教授、智能产业研究院(AIR)院长、中国工程院院士张亚勤。
在学术界和工业界,以及人工智能前沿研究与产业应用领域,张亚勤都有着堪称辉煌的履历。他在1997年成为IEEE(电气电子工程师学会)历史上获授会士荣誉最年轻的科学家;自上世纪90年代末起,曾在微软公司工作16年,历任微软亚洲研究院院长兼首席科学家、微软中国董事长等职位;在2014年9月到2019年10月之间担任百度公司总裁。2019年底,张亚勤正式受聘于清华大学,牵头组建清华大学智能产业研究院(AIR)。
三联生活周刊:ChatGPT的出圈代表了大模型的第一次成功吗?
张亚勤:如果ChatGPT是指的一个产品,那它是大模型产品化和大众化的最大成功。大模型已经做了多年了,2020年GPT3.0的出现可以算是大模型的第一次成功。只不过那个模型更多是给专业人员用的,但在技术界已经有很大的震动。ChatGPT第一次有一个界面让普通用户使用。去年12月初,它刚刚出来的时候,我也注册了,简单用了一下,第一感觉是做得真好,会出很多错,但语言能力很强,后面又看到它很大的进步。实际上,从GPT3.0到GPT3.5,做了两年多,算法本身当然改进很多,但数据工程和系统工程尤其成功。算法里很大的改善是InstructGPT以及多了有人类反馈的强化学习(reinforcement learning from human feedback),用的人越多,迭代越快。那么现在GPT4就更不得了,功能比GPT3.5大多了。
但对我来说,ChatGPT更大的震撼在于它如此受欢迎!不到两个月的时间就有了上亿个月活用户。其实生成式AI,在过去这两年是进展最快的技术。比如在AI作图方面,有DALL-E、Midjourney、Stable Diffusion这些产品出来。我们学院也研究这类技术,比如自动驾驶的仿真模拟,也需要在机器人里面做生成,学生也发表了这方面的论文。总之,这个领域发展十分快,但没有感觉跳变。
而ChatGPT确实是一次跳跃和质变,是AI的一个里程碑。人机对话已经做了半个多世纪了,进步很大,但整体没有实质性的飞跃,主要应用在某些垂直领域(比如聊天、客服等),整体感觉更多是玩具和工具,是个机器人,不能通过“图灵测试”。但ChatGPT是第一个可以通过“图灵测试”的智能体,我看到一个通用人工智能的雏形。
三联生活周刊:在整个职业生涯中,你还经历过哪些类似的新技术爆发的时刻?
张亚勤:类似的让我感到震撼的经历有几个。一次是1986年,我刚到美国的时候,第一次用了苹果Macintosh电脑。因为之前在国内,我们最初用的还是字符型的输入,一行一行、一闪一闪的。到了美国之后,在学校的系里面第一次看到了带鼠标的电脑,看到它显示得如此之清楚、漂亮。那时就感觉到,哇,原来电脑还可以这么做,图形无界面,可以把鼠标放在任何地方,相当于立体化了。不仅仅能打字符,还可以用来画图。特别是出国前我们申请学校时,每天还在用打字机打表格,一张一张地打,感觉很困难。到了美国看到这样一个界面,完全是一个全新的体验。
还有一次体验是90年代初期,那时我在Sarnoff(注:美国桑纳福研究院,现SRI研究院)。当时我们在做高清数字电视,做视频压缩。我们第一次把所有系统集成在一起,加上5.1的立体声关在一个黑屋子里,放了15分钟SONY高清摄像机专门拍的高尔夫比赛/滑雪片段视频,雪花和高尔夫球是那样清晰,色彩是那样鲜艳,大家都震撼于电视还可以这么清楚。那时候有很多人,包括政策制定者,反对数字电视,但那15分钟放完,大家从黑屋子里走出来,都改变想法了。
再有就是2016年AlphaGo出来的时候。我自己也下围棋,之前我不相信AlphaGo可以赢李世石,即使要赢,我想可能还需要至少5年左右。因为这是人类最难、最复杂的棋类,虽然我已经在做AI,我还是没法相信它能赢了世界最优秀的九段。那次确实是第一次感受到AI的强大。
三联生活周刊:过去相当长一段时间,科技圈似乎都在等待下一个颠覆性的技术。人工智能行业内也经历了所谓的寒潮。现在可以说这种停滞过去了?
张亚勤:对。2016年AlphaGo让大家都感到AI很厉害的时候,人脸识别、语音识别其实已经比较成熟,但大家仍然感觉AI只能做一件事。自动驾驶给人的感觉很酷,但一直没变成一个主流的东西。包括搜索也用了很多AI技术,但大家可能感觉不到。总之,普通老百姓没有感受到AI给生活带来什么改变。但这次大家发现,可以跟它直接对话了,它什么都知道,虽然有时候胡说八道,有时候说废话和套话,但人也会这样。而且它很多地方做得比普通人要好,比如写东西很顺畅,语法也很正确,还可以帮你写程序、规划任务,在认知层有了很大提升,开始有了通用人工智能的雏形。
我们一直在探索,哪条技术路线会走向通用人工智能。GTP3.0出来的时候,我们有一批人感觉到,大数据和超大模型可能是一个正确的方向,ChatGPT和GPT4.0+ 给大家带来了信心。规模效应很重要。因为模型会自己进行in-context learning(上下文学习),这在规模不够大的时候看不出效果,但到一定规模会产生一些我们不知道的现象和能力。就像互联网,当年Metcalfe(今年的图灵奖获得者)定律提出,把N个人连在一块,创造的效益是N的平方,呈指数型增长。模型的规模效益也是如此。
三联生活周刊:大模型这条路走通后,会给整个AI行业带来什么?
张亚勤:我觉得可以把GPT这个系列的生成式AI模型看作一个由大模型组成的AI操作系统,和PC上的Windows,以及移动的安卓、iOS基本具有相似的意义。一个新的操作系统出来是什么意思?下面的硬件、上面的应用都会被重构、重塑,形成一个新的生态。如果说PC互联网的生态价值是1X,移动互联网的生态价值至少是10X,那么AI生态至少是100X。
PC时代,底层用的是英特尔的x86,在Windows上建立了许许多多的应用,也因此被叫作温特尔(WinTel)时代。到了移动时代,Android和iOS的底层硬件都是ARM系统,上面是各种不同的APP(应用软件)。当然,APP公司本身可能变成巨大的公司,比操作系统更大,比如微信和TikTok这样的Super APP(超级软件)。
到现在这个云计算的时代,硬件有GPU、CPU、FPGA、ASIC,操作系统就是AI大模型,或许可以叫它GPTx或者基础模型(Foundation Model,FM)。在AI还没发展到这个阶段的时候,有很多算法、模型、框架等,现在有了FM,你可以做各种各样的应用开发:大模型上层还会有小模型,还可以有插件,和现有的APP组合在一块。微软目前在这方面做得最好,把能力组合到了搜索、Office和Azure云等每一个产品。
三联生活周刊:这样一个新的生态,已经在很快地形成了?
张亚勤:对,但我也不认为马上就定了。在美国的话,OpenAI和微软抢先了一步,但是谷歌实力也很强,因为这里面其实很多最核心的技术是谷歌发明的。微软和谷歌这两家公司目前可能在全球领先所有人,无论是规模效应也好,还是应用场景、算法的成熟程度和产品的生态。当然英伟达的GPU芯片和架构最有竞争力。那么在中国的话,百度应该是走在最前面的。
三联生活周刊:百度的CEO李彦宏在大模型产品文心一言的发布会上也提到,之前云计算行业比拼的是厂家的算力,以后可能会更看中模型本身。
张亚勤:对,大模型变成操作系统之后,就形成了一个抽象层,开发者和用户对下面用什么就不太关心了。比如你现在用电脑还会在乎下面是什么芯片吗?无论算力多少、存储多少,基本就被这个操作系统隔离了,你更关心的是模型能提供什么功能。所以对云公司来讲,这也是重塑云的时刻。
三联生活周刊:还有一种挺普遍的看法,认为生成式对话产品会颠覆搜索引擎现有的商业模式,科技公司不得不自我革命。你也会这么认为吗?
张亚勤:我觉得不是。要是你没有这个产品的话,别人会革你的命。我们在搜索的时候,其实是在找知识,那现在有了生成式技术,它确实提供了一种找到知识的新能力。所以没办法,新技术来的时候,一个公司说我没有,那只能说太糟了。
但是有这个技术的话,生成本身又需要花很多钱,这也是谷歌遇到的问题。谷歌在搜索市场占有93%的份额,微软只占3%,那3%的份额加点东西可能没关系,93%的份额就要用很多算力,就会影响利润。从这个角度说,所谓的颠覆市场可能是因为,我们俩做一模一样的生意,但你谷歌的份额太高了,要比我(微软)的成本高得多,微软等于没什么可失去的。在中国的话,百度可能会有优势,因为它正好搜索和人工智能都很强,短期里挑战它的公司不太多。但我想,有公司挑战不是坏事,还是需要一些竞争的。
三联生活周刊:百度发布文心一言大模型后,吸引了大量的关注和讨论。实际上,自从ChatGPT推出,很多人就在问,国内什么时候能有一个自己的ChatGPT。中国一定需要能和ChatGPT对标的产品吗?国内大模型中文能力更强的原因可能是什么?
张亚勤:首先,我觉得这种多模态、预训练的大模型,特别是基于Transformer模型的,技术还会向前演进,所以不论是产品还是系统,肯定会出现不止一个。而由于地域的区别和限制,中国会有自己的类似ChatGPT的产品,或者自己的操作系统。就像云一样,美国有至少5个云,中国也有好多云,大家都会存在。
仔细看一下,你会发现ChatGPT中文做得也很好。这点其实很有意思,因为Transformer模型一开始是用于翻译的,在训练的时候就用了各种不同的语言。但它不仅仅是可以用很多语言工作,还在语言映射之间找到了结构,学到了语法、语义。所以,模型被训练的语言越多,其实会越好。如果要做中文大模型,最好里面也有英文和其他语言。
尽管我在百度曾经做过五年总裁,但我对百度目前的产品和技术不了解,所以关于文心一言的细节你要问李彦宏。百度是在2018年就开始做这个大模型(ERNIE),在那前一年,Google发布了Transformer模型(BERT)。百度在人工智能方面的实力最强,投入时间也最长。因为做搜索和推荐最需要AI,它也做各种各样的AI产品,比如小度、无人驾驶、智能云,等等。所以大模型背后的技术是它必然涉及的。我认为ChatGPT的“灯塔效应”使得包括百度在内的很多公司都发力了。中国最终会有多个横向的大模型,百度有先发优势。
三联生活周刊:有人会觉得文心一言很明显还不够成熟,推出得有点着急。当然,模型的迭代有赖于人的反馈,很多技术上的考虑,普通人可能之前不是很了解。
张亚勤:我觉得一个产品成熟起来的最好方式,就是让大家使用,用了之后,公司知道了反馈,相当于大家一起帮助这个产品做得更好。事实上,ChatGPT很好的一点就在于,它让整个行业意识到,原来很多不成熟的东西大家是可以接受的。谷歌研发这个东西的时间最长,它为什么不敢推一个产品出来?因为大公司会害怕产品不完善、会犯错,而ChatGPT相当于提供了一个用户的标准。包括ChatGPT为什么是由OpenAI推出来而不是和微软一起发布?其实微软已经一直在产品中集成GPT4.0,看到ChatGPT用户反馈好,微软马上光速推出,但它其实早就可以这么做。但大公司有时候会因为搞不清市场的接受度在哪里,比较谨慎。
因为我已经不在百度工作了,细节我不太知道,但我想,百度肯定是在比较之后,认为用户应该是可以接受的。推出之后,显然产品不完美,但是很多人会发现价值,会去使用。所以我觉得,这个推出的时间还是对的。GPT4和微软的搜索结合起来的时候,在美国也有各种各样的调侃。我觉得这些都正常,关键是要看主流是什么,它有没有价值。如果它有问题,也有价值,但价值大于问题,大家就会用。如果都是问题,没什么价值,这个产品自然而然就没人用了。
三联生活周刊:无论用ChatGPT还是文心一言,很多人都热衷于比较中英文回答的差异。一些分析也提出,中文的自然语言处理可能面临数据的局限,互联网上中文语料的数量和质量都不如英文语料。数据会成为中国研发这类大模型的限制吗?
张亚勤:这是个好问题。我不认为目前的模型用尽了所有的数据。现在我们生成的数据基本每一年都要翻倍,速度比摩尔定律要快,这适用于英文也适用于中文。中文语料的绝对数量可能少一些,但我不认为目前是个限制,也不认为以后会成为限制。有两个原因。第一,可以用英文以及别的语言去训练语言模型。第二,以后模型里面的大部分数据未必是语言,输入输出都可以是多模态的,视频、语音都可以放进去做训练。就像我们正在讲话,有语言的交互,但视觉所产生的信息量其实也很大。我们现在看到的数据很多都还是用户自然生成的数据、机器生成的数据,但还有很多关于物理世界的数据,比如说开车,车里产生的数据量每天是TB级别的,生物世界也产生很高量级的数据量。总之,数据量是很大的,我不认为这会是一个大的瓶颈。
但很重要的是,怎么用好数据。ChatGPT能做这么好,其实是在外围花了很多工夫。数据来了之后怎么清洗?怎样做半监督的学习?他们做了很多这类调试,包括在肯尼亚雇了很多人做各种标注、调试,还用了刚才提到的由人类反馈的强化学习,相当于我们每次用它都在反馈。所以,除了最重要的模型训练,这些环节也很重要。
三联生活周刊:关于哪几家公司会成为国内大模型的头部玩家,现在众说纷纭。有人说只有云计算厂家才有足够的算力基础,有人说拥有超级APP的公司掌握了独家优质数据。做大模型需要怎样的“入场券”?在后ChatGPT时代,国内科技行业的最大机会可能在哪里?
张亚勤:我可以画张图来说这个问题。ChatGPT之后,整个行业的结构会变成什么样。
首先,最下面一层是云,这里面可能会有上万个GPU(图形处理器)或者XPU(某种处理器),表示算力。
接着往上一层是现行的IaaS(Infrastructure- as-a-Service,基础设施即服务)操作系统,包括计算、存储、网络、数据、安全……
这一层上面,就是我们现在讨论的基础模型(foundational model),或者说MaaS(Model-as-a-Service,模型即服务)。
在这个上面,还会有很多垂直基础模型(Vertical Foundational Model,VFM)。比如,自动驾驶的、蛋白质解析的、气象预报的、面向教育的……
这些垂直模型还可以相互结合起来,再形成不同的应用,也就是SaaS(Software-as-a-Service,软件即服务)。
那么这样看下来,基础模型这一层当然是有机会,也需要具备底层才能有入场券,但其实不需要那么多人去做这一层。大部分的机会在垂直基础模型这一层及以上的SaaS。
同时,要在部署端(电话、个人电脑、物联网、机器人、智能汽车等等组成的)把人工智能用上,需要做边缘的模型部署,这一块也存在很多工作。而且在部署端,模型不是越大越好,而是越小越好,越快越好。比如自动驾驶,你把模型部署到车的时候,不会在乎它会不会写诗,而是要精确,在最短的时间内能把车开好,延时越短越好。边缘的机会其实很大,所以我们现在在做边缘计算、边缘模型、模型交互、联邦学习、小模型。
我觉得,可能有几家中国公司都会做自己的系统,最有可能就是BAT(指百度、阿里巴巴、腾讯),还有字节跳动、华为都可能做。当然,初创公司如果能拿到百亿的投资也可以做,OpenAI就是这样起来的。但我觉得,大家不一定都要一窝蜂去做操作系统这一层,主要的机会还是在上面的应用。就像手机时代,大家不能都去做安卓、iOS,不去做头条、滴滴、淘宝了。当然,这个操作系统可能也不只有一家。
还有,同一个App也可以接入不同的系统,和不同的基础大模型结合起来。所以我觉得以后要考虑模型和模型之间的互动,怎么把它运用起来,在模型之间工作,怎样在模型里面把知识收集起来。
这样做的一大好处是,过去做什么应用都需要海量数据,现在很多基础数据通过预训练模型给你了,那么每家就可以结合自己的专有数据做fine-tuning(精调),做prompting(提示),做这种适应就行了。之前做个公司,最怕数据不够,因为数据散着或者在别的公司那里。那在这个新的生态里面,它的模型已经建好,甚至以后模型都不再需要那么多,可能从模型里面再抽取知识去用就可以了。
总之,我觉得有好多事可以做。ChatGPT的成功促进了整个行业的生态改变,带来新范式,这可能才是它真正的含义。
三联生活周刊:目前行业各部分的参与者处在什么样的状态?
张亚勤:ChatGPT出来之前,GPT3.0/3.5和生成式AI已经在业界引起很大关注,但美国已经很快就形成了产品,比如做图的DALL-E、Stable Diffusion、Midjourney,还有帮助生成文案的Jasper.ai,这些应用马上就实现了盈收,变成真正的公司了。
在中国的话,目前也有很多这样的公司。ChatGPT是一个信号,就是这东西行得通。所以现在中国的VC(风险投资)、高科技企业,都开始意识到这件事的重要性。反正这个月每天都有很多人找我,希望给我们学院的团队投资,因为我们一直在从事这方面的工作。
现在大家都说想做大模型,可能只是“大模型”听起来比较容易理解,未必是非要自己做那个平台性的大模型,而是要去做上面的应用,或者某一个垂直行业的模型。我想创业者最终都会调整好方向,找到不同的东西去做。目前大家都很兴奋,每天绝对不无聊。
三联生活周刊:在大国竞争的背景下,GPT这类技术在早期就展现出这么强大的实力,战略意义不言而喻。但我们在某些环节上可能受到一定限制,比如芯片的进口。你会怎么看待这些问题?
张亚勤:这些都要考虑的。像2017年我还在百度的时候为什么决定自己做昆仑芯片?那时就是我们所有AI任务的训练都需要大量的算力,买的GPU太贵,供不应求,而且对我们的具体任务也不是最优的。我们就决定自己做,开始给内部业务,后来变成独立公司。
芯片的问题是个很复杂的问题。除了设计,还有光刻机、制程、EDA等问题。我们需要在基础的技术方面进行长期和有耐心的投入,以及扎扎实实的研发,没有捷径。
三联生活周刊:和之前几次行业变革发生时相比,这次中国的位置有什么不同,在积累上有什么不一样?
张亚勤:在PC和互联网时代刚开始的时候,中国基本上什么都没有,所以全是copy to China(复制到中国)的。美国有什么,我们copy什么。到了移动互联网的时代,中国在一些领域做得比美国要好,比如说5G、移动支付、微信、短视频等。
那么到现在,我们经过这两次大的产业升级之后,中国在数字化支付、网络、用户终端,基本上都和美国在同一阵线,比其他所有国家都要好。我们在最高端的计算芯片、算法系统和一些大的平台性技术方面,现在感觉到是有些距离。但我觉得中国的创业者、工程师和科研人员,一旦把资源集中,并且有耐心,是可以赶上的。有很多挑战,但我还是充满信心。
三联生活周刊:在清华大学智能产业研究院(AIR),产业内正在发生的变化会怎样体现在工作中?
张亚勤:对我们来讲,我们一直在做这事。我们没有做那种超大规模的模型,学校做不合适,我们也不可能买上万个A100/H100,但是我们一直在做多模态、强化学习、联邦学习、生成技术、自动驾驶和机器人。如果说改变的话,更多的是可以假定一个大的平台已经存在了,在这个平台上,可以做更多的新研究。我们现在很多东西不再用自己做,可以用横向的模型。实际上,我们每个团队都在研究,怎么能把这个东西融入到工作里面,这两三个月做了很多这样的讨论。对所有做研究、做产品开发的人来说,面对ChatGPT都一样震撼,我们看到大家对AI更有信心了,整个市场,不管是投资人也好,企业也好,政府也好,都知道这个东西是这样一个大的革新力量。我从2016年一直在讲,人工智能是第四次工业革命的技术引擎,是我们这个时代最大的技术变革力量,听的人有的信,有的不信,但现在大家都看到了AI的力量。而且AI现在所展现的只是冰山一角。
三联生活周刊:你之前一直在产业的前沿,但这次的变革发生时在学院里面,会感到稍有遗憾吗?还是说,在如今这个位置上,可以做你更感兴趣的事情?
张亚勤:其实有好多人问我,你怎么不下场?我觉得,现在只是处在这个场的不同地方了。培养人做研究、和企业一块创新,本来就是我这个时间想做的事。企业相当于前线,我们在后方和它们一起合作,都在“场”里面,也感觉挺好的。而且我们现在每天都在和公司一起讨论,一起规划,一起研发。这是我们和企业合作的模式。
三联生活周刊:这是清华大学智能产业研究院(AIR)比较独特的模式吗?国内的产学研结合目前处于一个怎样的水平?
张亚勤:我觉得是因为我们与产业联合得更紧密一些,这也是为什么我们叫智能产业研究院。
国内产学研的结合整个做得还是不好,我也不能讲美国做得有多好,但我觉得中国整体改善的空间还很大。因为大部分公司想的还是今天的产品,这样它就觉得离“研”比较远。如果公司很大,它能想到明天的下一代产品,甚至想到后天的产品,这个时候公司就会想到和学校合作,因为学校在做最前沿的研究。但如果你就想做今天的产品,学校也做不好,因为它不是做产品的地方。所以研究和产业自然就没法结合好。