腾讯汤道生:大模型只是起点,产业落地是AI更大的应用场景

6月21日消息,21日,北大光华管理学院联合腾讯,宣布升级“数字中国筑塔计划”,共同推出“企业管理者人工智能通识课”系列课程,助力企业创始人和管理者拥抱AI

在第一课上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生,简要回顾AI的历史,系统诠释了大语言模型推动的技术变革,行业落地的挑战与应对,以及企业拥抱大模型的基本准则。

汤道生回顾了AI发展的历史,表示算法创新、算力增强、开源共创三大因素的叠加,构成了AI的“增长飞轮”。

汤道生表示,大模型只是起点,未来,应用落地的产业变革是更大的图景。企业过去的研发、生产、销售、服务等环节中,有很多依赖人来判断、协调与沟通的地方,今天都值得去看看,哪些环节可以叠加AI的生产力,来提质、降本与增效。

以下为演讲全文:

大家好!非常高兴参加今天的发布会,一起探讨产业智能化升级。随着大语言模型的发展,我们正在进入一个被AI重塑的时代,从生产销售、组织人才,到产业革新、社会发展,都会发生剧烈的变化。

许多企业管理者也在思考,如何把大模型技术应用到自己企业场景中,比如在客服与营销环节,为业务经营带来更多降本增效?如何在使用大模型时,保护企业数据的产权与隐私?如何降低大模型的使用成本?这些都是企业管理者需要考虑的现实问题。

今天,我们和北京大学光华管理学院携手共建的“企业家人工智能通识课”,就是期望能够帮助大家,在前沿技术理解、公司组织变革、商业模式验证、模型实际落地等重要问题上,一起寻找新的解题思路。

在这里,我也分享一些对人工智能和产业融合的想法,跟大家探讨,如何以AI驱动产业变革。

我想从四个部分,分享一下自己的观察和看法,包括AI的历史、技术现状、产业落地和带给我们的挑战。我先从技术发展的角度,回顾一下AI发展史,这会帮助我们更好的理解人工智能的现状和未来发展。

一、人工智能发展历程

1950年,人工智能之父图灵在论文中,提出了一个关键问题:“机器是否可能具有人类智能?”由此诞生了“人工智能”的概念。

人工智能究竟是什么?它是一门研究、开发,如何模拟、扩展人的智能的科学。包括机器人、语言识别、图像识别、自然语言处理等方向。

简单说,就是研究怎么让机器和人一样,会听会说,会看,会思考,可以行动。其中尤其重要的一个方面,是让机器掌握语言,从理解、学习,到生成表达,这也是今天,GPT-4这样的大模型所表现出来这种“超能力”。

语言是人类思维最重要的载体,《人类简史》作者尤瓦尔(Yuval)甚至说,通过掌握语言,人工智能已经破解了人类文明的操作系统,掌握了通往未来的“万能钥匙”。 

过去40年,AI发展不断加速。也有一些大众熟知的标志性事件,比如,IBM的专用超算机深蓝,在1995年,通过穷举棋盘上所有可能性,夺得国际象棋世界冠军。

2016年,AlphaGo结合深度学习与强化学习,在围棋上打败李世石。还有AlphaFold对生物科学的贡献,把蛋白质的折叠做到非常高的精度。再到最近让大众风靡的ChatGPT、GPT-4,文生图技术Midjourney、Stable Diffusion等等。

这些事件的背后是底层技术,特别是神经网络的持续突破。1986年,深度学习之父杰弗里·辛顿(Geoffrey Hinton)发明反向传播算法,奠定了现代机器学习,用数据来训练神经网络的理论基础。

神经网络计算模型的原理,是通过模仿人脑构建人工神经元模型,以多层架构,层层抽象。

随后,模型架构不断创新,比如卷积神经网络、循环神经网络等,带来了深度学习的大发展。最近一次重要的突破是2017年,Google多名研究员发布了一篇开创性的论文《Attention is all your need》,提出Transformer架构,以自注意力来表达序列中每个单词的关联,今天包括GPT在内的AI模型,都是在这个Transformer通用框架上衍生而来。

AI的发展,除了底层技术,还要受到算力等因素的限制。神经网络的训练非常消耗算力,在80年代,计算机能力仅能支撑浅层神经网络,当时一个较为典型的神经网络只有1960个参数,连最简单的文字识别基本都无法完成。哪怕到了2000年代初,算力仍然是瓶颈,可供训练的在线数据也不足。

到了最近20年,硬件算力不断提升。一方面,摩尔定律让芯片计算能力持续翻翻;另一方面,高速网络与分布式计算技术,也让计算机集群规模不断扩大。

2000年代中,英伟达打造了CUDA,把GPU变得更通用与可被编程,一下从图形渲染,延展到科研超算领域。基于不同的设计理念,GPU重点攻克并发的向量计算,单个GPU的算力,比过去基于CPU的算力多了一千倍。

加上互联网的高速发展,快速增加了可训练的数据,让神经网络可以做到更大、更深、更多参数、更复杂的模型结构,由此诞生了千亿级以上参数的大模型。

此外,全球产学研力量,携手开源共创,也是人工智能快速突破的重要因素。无论是科研论文、数据集、模型算法,还是软件平台,一代一代的人工智能科学家,都无私的开放自己的研究成果,让后来者能在前人的基础上不断前进。

在开源软件方面,全球高校与科技企业,都为开发者贡献了多种AI训练与推理框架,还有大量数据处理工具。

到今天,大量各类预训练的开源模型,都能从huggingface、github等平台下载,让全球研究人员可以在各种开源模型上搭建服务,与优化出更好的模型。

开源共创、算法创新、算力大幅增强,这些因素叠加,构成了AI的“增长飞轮”。 GPT-4、PaLM2、LLaMa等大模型的问世,让大家看到了通用人工智能的曙光。 

二、大模型推动智能变革

如果说,大语言模型已经涌现出一定的智能现象,也就应该能产生出,在训练数据中从来没有出现过的新组合内容。

通过这个画画的案例,我们可以看到现在的AI大模型处理问题的方式,不再是靠完整的保存与复制,而是通过理解指示后,把训练过的知识重新组合生成的。

可以看出,大模型可以按照指令,逐步画图,比如,用字符来画一个人出来。其中用字母O表示脸,用字母Y表示躯干,再用H表示双腿。第一次画的并不理想,但可以根据反馈,调整身体、手的比例,给小人穿上衣服。是一个不断反馈和调整的过程。

另一方面,著名的图灵测试,就是在对话中能否识别出对方是人还是AI,在今天已经不足以评估人工智能的智能程度。

如果做题考分是评估人的智能最直接的工具,那么大语言模型在语言理解与逻辑推理能力上,已经超过了平均人类的水准。

在编程领域,GPT-4参加了亚马逊的模拟技术考试,拿到了满分,这个考试规定的时长是两小时,它只用了不到4分钟。在美国GRE和生物奥林匹克竞赛考试当中,GPT-4也超过99%的人类;模拟律师资格考试的成绩,大约是前10%。此外,谷歌的Med-PaLM 2,也在美国医疗执照考试中达到了专家水平。

最近,OpenAI又给ChatGPT API增加了函数调用能力,这意味着大模型也能使用工具了。自己不具备的能力,可以靠各种第三方服务尝试解决,大大增加了通用大模型解决问题的能力。

大语言模型代表人工智能的发展,已经达到了一个新的高峰,有卓越的语言理解、强大的逻辑推理与沟通能力,能带入角色,主动思考。

用大量数据预训练的模型也推动机器视觉、语音识别、机器人等AI能力发生新的突破。通过对机器想、听、看、动等能力的整合,AI也将真正成为人们的工作和生活助手。

首先,基于多模态的大模型,计算机视觉从“能看”到“看懂”。

在银行业务中,要处理很多的回单、发票、申请书、业务邮件等数据,例如我们合作的一家商业银行,在资产托管业务中,每天需要处理1万多件邮件和传真。来自投资、保险、融资等等不同的业务系统,内容有票据、证件照片等等,多种样式。靠人工处理,录入系统,费时费力,就需要借助更智能的机器识别。

在传统的算法模型下,需要输入2千张的单据,机器才能识别一种单据,也没有整理成表格或者标签的能力。

现在,基于大模型能力,我们的TI-OCR只需要50张被标注的单据,就可以快速识别一种类型的单据。同时可以根据分析能力,自动提炼核心标签,生成电子数据文件,进行后续的商业分析。

大语言模型不仅懂多种人类语言,还掌握多种程序语言,还可以帮助程序员写代码。

我们也打造了腾讯云新一代AI代码助手,实现AI对代码的理解,辅助程序员编写、排错与测试,为软件研发的全流程助力,提高开发效率与代码质量。

这是上周新发布的一段视频。腾讯Robotics X机器人实验室的机器狗Max,能力又升级了。大家可以看到,两只机器狗正在进行一段障碍追逐赛,把他们随机放到场地中,一个追,一个躲,还有一面随机出现的旗子。躲的机器狗,要努力在不被抓到情况下,摸到旗子,摸到旗子后,角色调转。

在这个过程中,两只机器狗要实时的根据对方的行动,判断自己的行为,同时还要惦记着目标,也就是碰到旗子,或者抓住对方。同时,在碰到旗子后要马上修正自己的策略。

通过这个视频,我们能看到,机器狗的行动,也因为预训练AI模型和强化学习的加入,具有了更好的灵活性和自主决策能力。

大语言模型不仅能与人沟通,更重要的是通过模型的精调,可以按需求产生一系列的执行步骤,比如联网调用不同插件的能力,加上多模态让AI同时能看懂图,听懂话,会规划,能行动,这样就可以做出更强大的应用,让AI更像真正意义上的智能助手,完成更高级的任务。

比如,线上广告投放员,每天需要刷新大量广告素材,确保广告投放的ROI,如果结合广告效果数据与文生图能力,可以不断地根据数据分析,生成投放策略,调整投放渠道,并且针对性的生成投放素材,自动化程度与效率都会更高。

三、企业拥抱大模型的方式和路径

这么多变革汇聚在一起,也意味着海量的创新即将爆发。大模型只是起点,未来,应用落地的产业变革是更大的图景。

事实上,不管哪个行业,都应该积极拥抱AI,过去的研发、生产、销售、服务等环节中,都有很多依赖人来判断、协调与沟通的地方,今天都值得我们去看看哪些环节,可以叠加AI的生产力,来提质、降本与增效。

目前,海外一些大型企业,已经开始投资及采用大模型技术。比如,摩根士丹利直接接入 GPT-4,用它整合、解析,海量的投资策略和市场研究报告,给投资顾问提供直接的参考。

根据自媒体《量子位》的分析,我们可以看到,生成式AIAIGC)对不同行业的影响程度与接受程度。图中能看到,内容与电商产业受到影响最明显,像文生图的技术,将会大大改变内容制作的流程与成本。

既然大模型这么重要,在座的企业家与管理者,可能也会问,我们如何把它用在企业上,抓住技术变革的红利?

我可以给企业管理者一些建议:

第一,聚焦企业自身业务,挑选具体场景,让AI成为服务的增量。

第二,确保训练数据质量,梳理出测试用例,建立上线评估流程。

第三,确保服务合规,同时关注数据的产权与隐私。

第四,使用云厂商工具,搭建一体化的模型服务,这样效率比较高,节约训练、运维的成本和时间。

在具体实施中,模型、数据和算力是大家需要格外关注的三个点。

首先是模型。虽然大家对通用大语言模型的聊天机器人期待很高,但它不是唯一的大模型服务方式,也不一定是满足行业场景需求的最优解。

目前,通用大模型一般都是基于广泛的公开文献与网络信息来训练的,上面的信息可能有错误、有谣言、有偏见,许多专业知识与行业数据积累不足,导致模型的行业针对性与精准度不够,数据“噪音”过大。

但是,在很多产业场景中,用户对企业提供的专业服务要求高、容错性低,企业一旦提供了错误信息,可能引起巨大的法律责任或公关危机。因此,企业使用的大模型必须可控、可追溯、可修正,而且必须反复与充分测试才能上线。

我们认为,客户更需要有行业针对性的行业大模型,再加上企业自己的数据做训练或精调,才能打造出实用性高的智能服务。企业所需要的是,在实际场景中真正解决了某个问题,而不是在100个场景中解决了70%-80%的问题。

另外,训练数据越多,模型越大,训练与推理的成本也越高。实际上,大部分的企业场景,可能也不需要通用AI来满足需要。因此,如何在合理成本下,选择合适的模型,是企业客户所需要思考与决策的。

其次,数据是大模型的原材料,针对具体场景,相关数据的覆盖与质量都是至关重要,标注数据的管理也是模型迭代中的重要工作。

模型最终要在真实场景落地,要达到理想的服务效果,往往需要把企业自身的数据也用起来。在模型研发过程中,既要关注敏感数据的保护与安全合规,也需要管理好大量的数据与标签,不断测试与迭代模型。

再次,算力是模型持续运转的基础,高性能、高弹性和高稳定的算力,需要借助专业的云服务。

在大模型的训练和使用过程中,需要大量异构算力的支持,对网络速度与稳定性要求也很高,加上GPU服务器比一般服务器稳定性更低一些,服务器的运维、问题的排查更频繁,整体运维的难度与工作量会高很多。

在训练集群中,一旦网络有波动,训练的速度就会受到很大的影响;只要一台服务器过热宕机,整个集群都可能要停下来,然后训练任务要重启,这些问题会使得训练时间大大增加,投入在大模型的成本也会飙升。

基于这些企业现实问题和需求的思考,就在前两天,腾讯也正式公布了腾讯云MaaS服务全景图。

基于腾讯云TI平台打造的行业大模型精选商店,将覆盖金融、文旅、政务、医疗、传媒、教育等10大行业,提供超过50个解决方案。在这些能力模型基础上,伙伴们只需要加入自己独有的场景数据,就可以快速生成自己的“专属模型”。

我们也推出基于腾讯云TI平台的,行业大模型精调解决方案。帮助模型开发者与算法工程师,一站式解决模型调用、数据与标注管理、模型精调、评估测试与部署等任务,减轻创建大模型的压力。我们也可以通过TI平台,实现模型的私有化部署、权限管控和数据加密等方式,让企业用户在使用模型时更放心。

比如,我们和国内的头部在线旅游公司,基于“文旅大模型”,打造了机器人客服,可以自动判断用户意图,并自动调用相应的API,高质量完成用户咨询及服务。

假如一个用户问“端午节三天不出江浙沪,有什么行程推荐,应该怎么安排?”如果是基于通用大模型的客服机器人,只能给出一些简单的景点介绍和路线规划。

但当我们加入行业数据,进行模型精调之后,客服机器人的回答变得更加细致,能够规划出每天的交通、景点安排,包括不同档次的酒店推荐、介绍,甚至可以直接提供预订链接,平台优惠券信息。智能客服系统,不仅可以实现人性化的服务体验,也具备了更强的销售转化能力。

在算力服务上。腾讯云所提供的稳定计算、高速网络与专业运维,可以为算法工程师大大减轻设备运维的压力,让他们把精力放在模型的构建与算法的优化上。

腾讯云也打造了面向模型训练的新一代HCC(High-Performance Computing Cluster)高性能计算集群,搭载最新次代GPU,结合多层加速的高性能存储系统,加上高带宽、低延迟的网络传输,整体性能比过去提升了3倍,获得了很多客户的高度认可,几家大模型独角兽,都与我们展开了算力的合作。

在计算集群的“硬实力”之外,我们最近也推出了更适合AI运算的“软能力”——向量数据库,它能更高效地处理图像、音频和文本等非结构化数据,支持单索引10亿级规模,比单机插件式检索规模提升10倍,数据接入AI的效率,也比传统方案提升10倍。

四、AI发展的挑战和应对之策

AI价值巨大,发展速度惊人,但从社会的层面,我们也要注意,带来的风险与挑战。

最近,杰弗里·辛顿(Geoffrey Hinton)因为担心AI无法控制,离开了谷歌,他在接受采访时提到:人工智能的信息架构可能比人脑的信息架构更强大。

人类大脑中大概有860亿个神经元,这些神经元之间形成了大概100万亿个连接。虽然GPT4的参数没有披露,但普遍估算参数量只有人脑神经元连接的百分之一,大概是5000亿到1万亿。

但GPT4装载的知识却是普通人的千倍万倍,学习效率也更高。这说明,在某程度上,当前的神经网络可能比人脑拥有一个“更优”的处理信息的架构与学习算法,一旦得到足够算力来训练,就可以更快速地学习大量信息与知识。

还有一点值得一提,AI通过在线连接,就可以把模型下载与复制,在相对短时间内,就让一台新机器复制好海量的知识,而且各自学习不同知识后还可以相互同步。

而人类的知识和智慧传承,必须通过复杂多变又不太精确的语言,作为传递信息的媒介,每个人的培养几乎是从0开始(除了基因中hard code的记忆),都需要从小开始,花数十年时间来学习,花数十年来积累经验。

AGI强大且不断泛化的能力,让很多人都非常担心,人类会逐渐失去对AI的控制。尤其AGI能联网,能编程,能操控其他系统(因为可以调用其他系统的API),读懂人(因为模型里导入大量书籍,了解人类千年文明发展历史,了解人们的思考方式与弱点,每天还跟很多人互动,甚至交流情感),它掌握语言(因此可以影响人的思考与行为),它能产生图与视频(因此可以让人产生视觉错觉),可能还有更多能力我们还没发现。

因此Hinton也提出,AI对人类产生四重威胁。他不惜从工作了10年的谷歌离职,推动大众对人工智能潜在风险的关注,并建立安全使用AGI的规范。

面对人工智能带来的各种问题,还有很多值得思考的东西。包括人类发展、伦理、教育等等。

这些问题,相信我们在座每一位,都有自己的思考。但是有一点我想讲的是,技术的发展、演进、变化,总是超出人的想象,而人类拥抱变化的勇气,创新的智慧,化挑战为机遇的能力,也往往超出我们自己的想象。

就像工业革命早期,也有过对于农村经济瓦解、工人生存状况堪忧等等情况的担心,但是,最终我们以人类特有的方式,走了过来,并且让全人类的生产效率、生活质量以几何指数飙升。

毫无疑问,AI对世界的改变,一定也是通过与产业的融合实现的。机器决策、自主生成、自然交互等一系列变革,推动产业实现更高效率、更低成本、更好体验和更大创新。未来的企业,也将向智能原生进化。

面向未来,腾讯也愿意持续贡献自己的能力,以开放的心态和无穷的好奇心,和各位专家学者、企业管理者一起,共同探索、创新,拥抱智能时代的新机遇。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2023-06-21
腾讯汤道生:大模型只是起点,产业落地是AI更大的应用场景
大模型只是起点。

长按扫码 阅读全文