靓嘟嘟

当前位置: 首页 >> 国内新闻

漆远-漆远:大模型发展与落地思考

2024年04月19日 靓嘟嘟 浏览量:

漆远 复旦大学人工智能创新与产业研究院院长,阿里巴巴原副总裁

以下观点整理自漆远CMF宏观经济热点问题研讨会(第73期)上的发言

一、大模型的优势

大模型的出现,如ChatGPT,让我们看到了强人工智能(AGI)的曙光。微软研究院的一篇文章《Sparks of AGI》也对此进行了深入的探讨。对于那些长期从事人工智能研究的人来说,当他们第一次看到ChatGPT时,无不感到震惊。因为它的表现超越了我们的期望,让我们看到了通用人工智能的影子。在过去,我们需要花费大量的时间和精力去训练不同的小模型,为解决一个个小任务。而现在,这种情况正在发生改变。大模型不仅能更好地跨领域泛化,而且能更好地推动产业发展和提升用户交互水平。

人工智能的发展可能会改变其应用落地的模式。以往,我们衡量一家公司的人工智能能力,往往是看它拥有多少个小人工智能模型。因为这些模型通常是针对特定场景进行定制的。例如,我们可能需要查看一千万张猫脸或狗脸的图片,才能精确地将猫脸和狗脸进行分类。这种模式需要大量的数据来进行特定模型的定制化研发,因此成本非常高。这容易使人工智能的应用实施变成一种外包模式,极大地限制了人工智能真正落地推广的能力。

大模型的出现则改变了这一状况。它具有很强的场景适应能力,可以通过学习上下文或少数样本的方式,使用少量的训练数据,做到快速泛化。简单地说,大模型(也称为大语言模型)随着参数的增加,其预测能力得到了质的飞跃,这种能力就是强的泛化能力。这意味着,我们或许能摆脱人工智能的人肉外包模式和定制化模式,走向真正产品化模式。

因此,生成式AI发展地非常迅猛。据统计,全球与生成式AI相关的企业估值去年已经达到480亿美元,并且仍在持续增长。2022年的投资额达到21亿美元,是2021年的10倍,OpenAI便是其中的核心代表。其中,主要有三类企业。第一类是开发基础模型的企业,第二类是开发应用程序的企业,第三类则是建立基础设施来帮助开发和部署模型的企业。这些公司及其背后的技术都在高速发展。

以一些具体的例子来说,Notion原本是一家SaaS公司,主要帮助人们编写文章,但现在它发展迅速,成功地将生成式人工智能与协作和文档等多种能力结合在一起;Bloomberg发布了金融领域的第一个大模型;Jasper也依托OpenAI的GPT模型构建了一套应用能力,迅速发展。

二、大模型时代的机遇

生成式AI在中国也发展地十分迅速。如阿里、百度、讯飞等大公司,以及许多初创公司都已经进入了这个领域。然而,随着越来越多的大模型的出现,我们不禁要问:它们的优势到底在哪里?真正的应用价值和产业价值在哪里?

1、有护城河吗?

人们常常会问,这个领域是否存在护城河呢?(是否有供应链、是否有生态、是否有数据?)目前看来,这个领域发展地非常快,还没有形成系统性的护城河。公司规模是护城河么?不一定是。例如,在ChatGPT出现之前,我们从未想过,像Google这样的大搜索公司会受到一家创业公司的冲击。尽管OpenAI很出名,但与Google相比,无论是在工程师数量、系统复杂性还是产品影响力上,都不在一个量级。可以看到,生成式人工智能可以让一个相对初创公司对大规模公司产生非常有力的冲击。微软和OpenAI的结合又打造了一个非常优秀的联盟。

在这个领域中,新的算法层出不穷,但随着算法的发表和开源,单个算法创新不是护城河。数据非常重要。从数据角度而已,生成式人工智能是在收集整个互联网的数据做一个压缩。传统的网上公开数据已经不再构成护城河。

未来的发展方向可能是在场景中打造真正需要的产品,将产品、算法和工程系统真正地结合起来。OpenAI的创始人在采访中提到,ChatGPT的成功并不是一个单点技术的成功,而是一个系统化的结合。

2、价值将在哪里积累?

当前,生成式人工智能总营收的10%-20%将流向云服务提供商,而应用程序公司平均将20%-40%的年收入用于推理和定制化的微调,同时模型提供商也将一半的收入投入到云基础设施上。在这个过程中,最大的赢家是生产硬件的公司。因为,无论是哪一家公司,它在快速迭代和探索中,都会有一个共同的依赖,那就是底层对GPU卡的需求。就目前来看,直接看到的最大收益者是GPU的生产商和云厂商。

3、谁与争锋?

1)大模型技术能对企业产生重大影响

一家值得关注的公司是Midjourney。这家公司在2021年成立,不到一年的时间就吸引了千万级别的用户,并在去年实现了过亿美元的营收。这家公司的员工数量极少,今年上半年只有11名员工,其中4名本科在读,8名研发工程师,另外3名员工负责法务、财务和后台工作。然而,这家公司产生的图片质量却非常高,覆盖了建筑设计、平面设计、用户界面设计和技术创作等多个领域。这家公司打破了“规模决定一切”的传统观念,向我们证明了少量的员工也能产生巨大的影响力和价值。从这个案例中,我们可以看到大模型技术能对企业发展产生非常大的影响。

2)大模型的产业应用

国内市场也正经历着非常迅速的发展。预计在2022年至2025年间,其年化增长率将超过40%,这是一个惊人的数字。人工智能未来在金融、医疗、教育、游戏设计等行业应用落地有不少空间。

3)大模型的应用边界

在过去的几个月里,大语言模型的应用边界得到了极大的拓展,其中一个焦点是代理(agent)。代理是指在大语言模型基础上增加规划、反馈和使用工具的能力。它作为大模型与场景间价值传递的桥梁,能极大地拓展大模型的应用边界,使其成为一种系统性的超级应用。

只有大公司才能做大模型吗?我认为并不是这样。小模型可以知识蒸馏。虽然现在大多讨论的是千亿模型参数、万亿模型参数,但我们发现,在某些特定领域,百亿、甚至十亿级的模型参数就能取得很好的效果。此外,国产替代也正在逐渐发挥作用。

4、大模型作为生产力工具的挑战

然而,大模型在真正转化为生产力的过程中会面临一系列挑战。

首先,在生成能力上,如何实现可信可靠,避免出现“幻觉效应”?其次,对于复杂的应用场景,如何实现信息的动态集成?这包括代理如何调用外部数据库?大模型本身如何快速、动态地集成和更新?这些都是技术领域的挑战。此外,海量数据的获取和算力方面也需要重点关注。据MIT团队预测,在2026年,我们可用的公开数据将全部耗尽。那么,未来的数据将从何处获取?如何获得大规模的算力支持?这些都是需要解决的问题。

这里我谈谈大模型在精确性、可信性方面可进行优化的方向。

首先,结合知识图谱与注意力机制能大幅提高模型的数值推理的准确性。例如,OpenAI 官网列出了GPT4在一系列真实数据集上和其他团队最好结果的比较——GPT4几乎超越了其他所有工作。但在阅读理解和数据推理的任务DROP上,GPT4落后于我们团队以前的QDGAT(Question Directed Gragh Attention Network)工作。该工作没有采用完全自回归的注意力模式,而是结合了知识图谱与注意力机制来提升数值推理准确性。我们认为在许多任务中,模型的大小并不是唯一重要因素。如果我们能够进行深入研究并结合其机制,也能取得良好的效果。

其次,在精准性方面,虽然“文生图、图生文”的AI应用已经十分普遍,但文本生成的内容仍然难以控制。在实际产业应用中,控制文本生成的精准性非常关键。例如,为金融监管机构编写一个自动生成的文本时,我们需要解释为什么我们认为某一笔交易存在洗钱风险。此时,我们将Transformer神经网络与基于合规知识的逻辑推理结合,可以更加可控地生成文本。

三、大模型的应用和发展方向

1、产业发展趋势

从产业发展趋势上看,我们发现大模型与互联网行业发展的趋势类似,当前正处于商业模式探索阶段。

2、垂直领域应用趋势

在垂直领域应用趋势方面,大模型在法律、咨询、金融、医疗以及更广泛的科学领域,都有广泛的应用。在科学领域,今年7月,马斯克成立了xAI公司,目标是解答更深层次的科学问题、利用AI帮助人们解决更复杂的科学和数学问题,甚至理解宇宙。

2)法律行业

路透社今年收购了Casetext,这是一个能够分析法律文书的工具,可以快速理解文书、整理文书、进行案情分析和案件对比等,具有很高的实用价值。

3)咨询行业

在咨询行业,由于其信息密集的特性,咨询服务通常以信息为基础,结合行业场景需求进行推理呈现。这个领域很可能直接受益于大模型的能力,比如知识总结要点、查询数据库等。因此,麦肯锡推出了Lilli产品,旨在帮助我们进行战略分析。虽然最初主要依赖人力,但随着模型能力的提升,大模型将会发挥更大的作用。

4)金融领域

在金融领域,例如微软与伦敦交易所的合作,已在新闻摘要等方面取得了一些进展。以下有两个例子。

例如,我们可以询问大模型“美国CPI核心通胀率高于4%时,市场发生了什么?”大模型将会根据历史上的情况,对美国财政和金融采取的措施及其达到的效果进行解释。如果我们再问:“如何进行资产配置?”它也会给出一些相当好的建议。

另一个例子是在财务报告分析方面。比如我们分析非常长的茅台公司财务报告,可以向大模型询问其经营状况。基于这份两百页的报告,大模型可以立即进行总结,包括经营状况、现金流、未来归属等。我们还可以请大模型对财务报告中的一个或多个报表进行评论和总结。以前,这种工作主要依赖人工,而现在通过人工智能,我们大幅提高工作效率。

5)医疗领域

医疗领域也是大模型非常适合的应用场景。比如,在问诊时,如果我说我感到口渴、疲劳和视力模糊,大模型可能会回答我可能患有糖尿病。如果我再问糖尿病有哪些类型,它会告诉我有一型和二型。如果我问做哪些诊断能够确诊,它会根据相关的医疗知识给出更精确的回答,推荐体检检查项目等。

此外,大模型还可以帮助我们理解体检报告。比如,如果你的体检报告很长,很多人看完后并不理解报告真正的意思,需要注意什么。大模型可以很好地帮助我们理解,比如血糖高、甘油三酯高意味着什么,某项指标或者多项指标合在一起它怎样解读。这能为广大老百姓在理解体检报告方面提供很大的帮助。

6)制药领域

我们可以将化学分子视为一个序列,然后将其输入到Transformer架构中做大模型预训练和制药ADMET的多任务学习,比如在ADMET中预测药物水溶性、穿膜性、毒性等。

7)气象学

此外,大模型也与气象学有关。我们可以将天气数据进行标记化(tokenization),并利用大模型的无监督学习能力进行分析。准确的气象预测不仅对我们的日常生活重要,对新能源领域,如风力发电和光伏发电也有重大影响。我们利用复旦CFFF集群构建了伏羲气象大模型,首次实现了精准的AI 15天中期天气预报,预报结果与欧洲气象台的预报结果相当,但预报速度从小时级提高到了十秒内,实现了千倍的加速。

我们不仅在研究科学大模型,同时计划通过复旦大学的CFFF计算平台,让更多的科研人员能够参与到科学大模型和科学智能的研发中。为此,我们发起了世界科学智能大赛,在生命科学、大气科学、材料科学、流体力学、量子化学等领域开放数据,并提供计算能力支持。目前,已经有上万个团队参加,取得了许多超出我们预期的有趣结果。我们希望未来能在更多的领域发展和应用人工智能,推进制药、智慧医疗、健康管理、碳中和等领域的智能化升级。

四、展望

大模型的研发如今才刚刚开始。它实际上是一个生态系统,需要产业、高校、服务平台和资金的深度融合。科技创新需要有长远的目光和良好的心态,如果一定要成功,那就不是创新了。我们需要进一步探索技术、工程和产品的结合,推进人工智能的发展与落地。

我曾看到一个很有趣的预测。到2030年,人工智能一天能学完人类2500年的知识。这意味着未来的发展将超越我们最大胆的想象。我们需要更深入地思考和准备迎接未来。

  • 友情链接
  • 合作媒体