“高估了短期价值,低估了长期影响。”伴随一个新技术热点的出现,我们总会听到提醒的声音。
在新技术实际产生难以置信的变革效果之前,往往存在一个不长不短的“炒作”鸿沟:有的入局者激流勇进,乐在其中;而有的玩家则放慢脚步,重新思考如何凸显创新的价值。
那么,大模型如何发挥出大众和产业所期待的价值?如何打造行业大模型?又该如何评价大模型产品的好坏?
明略科技集团的CTO郝杰接受51CTO专访,讲述作为一名深耕AI技术多年的开拓者,在大模型技术浪潮中的产品创新之道。
寻找成本更低的路径
ChatGPT掀起热潮的同时,其高昂的训练成本也惊动了整个AI界,不管是参数量、数据量,还是数据的处理过程成本、算力、存储、推理部署等等,都需要非常高的投入。但凡企业要入局大模型,高额成本都是一个不可逾越的难题。
然而,明略科技的情况则更为不同。明略的客户包括很多行业,比如:美妆、化妆品、汽车、3C、大健康等等。具体来讲,就是要在大模型时代把效果好的技术和服务带到他们的产品中去,带到他们的营销、销售、服务等各种流程中去。
所以,这个难题更为苛刻,如郝杰所说:“我们需要在降低成本的条件下,做出各行各业的大模型来。”比如说,美妆行业大模型、汽车行业大模型、3C行业大模型等等。“因此,从技术上来讲,我们面临的是一个大模型自适应的问题。”
比行业自适应颗粒度更小的,则是场景自适应、流程自适应,横向展开还有多语言、多语种自适应等等,都是需要解决的问题。
举个例子,明略有一些海外的业务,或者是客户在海外开展的业务,比如说在东南亚市场上的社交舆情分析洞察,就有多语种适应等技术的介入。
自适应其实就是用尽量小的代价去实现一个非常好的效果。好的大模型需要具备通用大模型的好的逻辑性、语言的顺畅度,同时还需要要实现一个通用大模型所不具备的,某个行业或具体的领域中的事实真实性、专业性。
而后者,恰恰是明略很有可能做得更好的。这正是行业大模型实现的路径。行业大模型、场景大模型,与通用型的大模型不同,它会注入到我们千行百业的场景中做自适应,同时也可以做到低成本化。
行业大模型的关键步骤
对明略科技而言,已经积累下来很多对各行业的理解和认知,这些认知已经通过知识库,或者是知识图谱的形式来沉淀在明略科技内部了。明略科技旗下子品牌秒针系统给各行各业的客户提供社交媒体平台上的内容分析洞察,再比如团队中经验丰富的行业分析师,以及在报告分析生成或洞察分析中,产研团队提供的各种工具和服务等等。
所以,目前明略已经拥有很多头部行业,或者说重点行业的知识库和知识图谱。知识图谱相对于知识库,它在知识表示上的级别或层次就更高一些,更完美一些。
在做行业大模型时,明略有一个非常关键的步骤叫做知识增强,利用已经积累下来的这些知识库、知识图谱,或者是说其中的实体关系、属性等等这些非常高价值的内容,参与到大模型训练中去。这样,在具体的一个行业或场景中训练出来的大模型,评测效果往往是显著的高于通用大模型的。这是明略的方法论。
产品临界点:一场理想与现实的考量
判断是否做一款产品,要看当时的技术成熟度和用户接受程度,如果只有刚性需求,技术成熟度不足的情况下,则很难以支撑它用短平快的方法做出来。一位知名投资人就曾表示,某团队投入1000人基于腾讯会议做自动会议纪要,做了一年,准确率也只有60%,而用ChatGPT能够达到90%的准确率。
那么,在决定做一款AI产品前,产研决策者会有哪些考量呢?郝杰给我们讲述了自己团队的一个案例。2021年,郝杰曾组织产研同学认真做过了几番讨论,目的就是要不要做一个腾讯会议的外挂式的会议纪要整理、梳理的工具产品。
“线上会议越来越多,大家有这样刚性的需求。而且,明略有在做一款重要创新会议工具产品,是围绕着腾讯的企业微信来开发的。它和腾讯文档、腾讯会议的关系天生就是紧密相关的。所以当时有这样的想法也是自然而然的。”郝杰回忆道。
最终讨论的结果是,前年并没有直接去做,而是在去年年底开始执行的,而且已经做到了一个里程碑。“现在我们有一个会议分析SaaS软件,因为这个工具可以自动把会议语音文件根据内容大意进行切条,我们取名为‘小条’。”
“小条”是基于明略的语音识别和自然语言处理技术,也接入了大模型的接口,具有会议转录功能,还能结合剪辑技术以把独立的一段内容进行标注,这样可以方便事后重听,或者是剪辑的时候找当时的重点,是一款非常实用且方便的会议工具。
ChatGPT出来之后,会议分析这一类的服务,恰好就变成了针对大模型的一种浅层封装,成本就会非常小。
但是这也要求决策者对于时机的把握,要抓得很准。因为这也意味着进入了新的红海,即使是在校学生,也可以在大模型的加持下,做出一个会议的分析系统,或者是校园里面网课视频的分析、分割系统来。这个时候比拼的就是产品上的功能、亮点,它在用户交付过程当中如何去思考设计的更加贴心,这样它就能够通过SaaS软件抓住更多的订阅者进行“滚雪球”。
谨慎乐观:大模型也会被颠覆
如今技术发展空前爆炸,简直可以用“以天为单位的迭代速度”来形容。那么,生成式AI的天花板会在哪里呢?
在郝杰看来,生成式AI、大模型肯定是存在天花板的。“有一种说法,可能有一些人认为没有天花板,认为规模一直做下去,这种涌现能力就能更进一步的迸发出来,认为这就是通往AGI的必经之路了,这是非常乐观派的一种看法。”
郝杰对此却保持谨慎。技术的发展总是逐步向前的,一定会有其他的技术颠覆掉大模型技术,至少是局部的颠覆。
诚然,大模型能够颠覆之前“不太大的预训练模型+tuning”的时代,也会有一个新技术的出现和大模型技术产生了一些融合,产生一些化学反应,来颠覆掉大模型。
“模型在规模上是一个渐变,然后效果上产生了一定的质变,也就是涌现能力的出现。”大模型也是站在 Transformer 这样基础模型的肩膀上,渐进式地,然后有了BERT、GPT。或者说,它也是深度学习,而且是向更加深、更加宽、更加大的几个维度上,走向极致之后的产物,它本身是一个渐变。
如果说跟天花板对应的变量在哪里?郝杰做了一个大胆的预测,“也许颠覆大模型的技术,或更伟大的技术,今年就已经在地球的某一个角落里已经萌芽了。”
这一预测是有迹可循的。时间回到郝杰初上大学的1991年。那一年,日本的文部省刚刚宣布第五代计算机的研发失败了。当时第五代计算机的目标,就是要做到“能听会说,能歌善舞”,“既要识别理解,还能生成创作”。
“其实你把第五代计算机的目标展开一看,与OpenAI正在和即将实现的伟大目标不谋而合。但当时为什么失败了?因为神经网络做不到太深,会发生梯度消失或者梯度爆炸的难题,当时是解决不了的,算力也跟不上。恰好就是在同样的时间,1992年,Schmidhuber,这位伟大的LSTM之父,和他学生提出了多层级神经网络,在30多年前就解决了梯队消失和梯队爆炸的问题。而正是他当年的贡献,使得2012年之后的深度学习大放异彩。”
那么,大模型的天花板如何捅破它?这个答案也许此时就在某个角落里,也许在一个不知名的实验室里,也许在某几个不知名的老师和学生那里。“也期待我们的大脑里会闪过某个火花,在某个时刻点上受到了类似的启发。”
没必要一切都由大模型再造
大模型虽好,但盲目的狂潮往往会陷入泥潭,很多人在狂热的时候没有考虑到成本。在郝杰看来,不惜一切代价,用大模型把一切产品和服务再造一遍是极不现实的。“我遇到了这样的同行或者是朋友,就会反问一下:你有几块卡?”据说全国也就只有20万块A100的卡,比较大的公司会有上万块的卡。因此,能分到团队甚至个人名下的算力,实在杯水车薪。
在企业中做这些产品、服务的时候,需要一个非常全面、平衡的考虑,我们要考虑性价比,要考虑投入产出。“根据客户的场景来考量我们一款产品或服务的效果、效率和成本,而寻求达到一个最佳的平衡。”郝杰说道。
那如何善用而不滥用大模型呢?郝杰继续讲道,“如果我们的客户非常需要做一些生成类的任务,比如说营销软文的生成,我们确实是离不开大模型,我们要善用大模型的威力。”
但如果企业已有的产品,或者是服务中原有的一些成熟的功能,它建立在小模型的基础上,效果已经很不错了。那这时就没有必要推倒重来。因为推倒重来不仅意味着重复的开发,甚至会导致部署成本、推理成本的上升。而且,盲目上一个大模型,用GPU推理,也会给我们的客户也带来了一些不必要的负担。
“只有当客户对服务的效果不满意,或者希望增新功能时,才有必要重新设计,二次开发这个模块,这是我对善用和不滥用大模型的一点理解。”
新名词出现后,怎么追赶呢?是要利用好自身以往的技术资产,把上一个技术范式中积累下来的工程技巧、算法上的创新,剖析出来,判断这些宝贵经验能不能嫁接在新的技术范式上去。举个例子,如果我们在 Transformer 这个技术模型上做过一些小改进,微创新的话,现在就很容易思考能不能把它搬到类似GPT这样大的模型中来获取一些效果和效率方面的提升。
大模型性能好坏,如何评判
往往一个新技术出现了之后,行业中,包括政府组织,都会陆续诞生一些评测类的标准化组织,而标准化组织则会制订行业标准,而政府层面的标准前期往往是从这些技术的评测手段、评测标准,指标定义去入手的。
具体而言,明略科技对于相关的大模型技术、产品也有自己适用的一套评测指标。比如说生成图片的质量,不仅包括CV领域中一些客观评价的指标,峰值信噪比,均方差、误差等等。还要包括一些主观评价的指标,主观评价通常是邀请十几个、几十个,甚至更多的用户/新用户,大家针对生成的图片/视频进行观摩之后进行打分。维度包括很多,比如亮度、对比度、色彩把控度方面的一些主观上舒适程度的打分,以及对于图片、视频内容本身的主观感觉,带来了一个认同感或是愉悦感。
其实细分领域内,有很多大家目前已经约定俗成的指标,也有更多有待我们挖掘,和取得共识的一些新的指标。
随着这样的产品,这样的服务进入到具体的行业或者是场景中,明略还要进一步评测,依赖于这些场景具体的指标。这就定义得更加精细化了,这些往往是一些行业标准中会出现的评测指标。
“2021年底的国际说话人识别大赛中,明略科技语音团队拿到了第一名,再往前我们也拿到过机器翻译和防伪人脸识别方面的世界第一,去年年底我们的Blockformer刷榜中文语音识别的第一名。我们在三大AI子领域中,在重要的国际比赛或者是刷榜中都拿到了第一名。这个标志着我们的AI技术已经进入到业内前沿,我们在我们的客户面前呈现出这样的结果来也带给他们一些信心。”
郝杰预测,未来是会出现专门服务大模型评测的、专门性的组织或者是机构。“如同手机行业的跑分网站一样,经过了充分竞争之后,某类产品以及细分的各项指标评测就会出现一个或多个专门性的评测机构,所以个人预测大模型或早或晚也会出现在世界范围内大家都共同信任的一些评测机构,它们会有高度概括细分领域的评测指标,不仅能够覆盖各行各业的生产场景,也能够覆盖全人类的很多生活场景。”
刷榜单不是目的,而是竞争力
目前,第三方评测在业界有着不小的公信力。因此,参加外部比赛/刷榜,往往成为凸显自己产品竞争力的重要选择。
“很多时候,如果只靠一些自己定义的测试集去讲,缺乏和业内横向的benchmark,这样往往缺少说服力。因为老板很想听到你和竞品之间有什么区别?客户也很想知道你和竞品之间谁高谁低,所以转向第三方的评测是必然的。”
的确,“刷榜单”在AI圈内并不少见,在这个圈子里“竞赛”的意味则更浓厚一些,而从事AI的同学往往也需要通过刷榜去证明自己的算法,比如在第三方定义的指标下取得了什么样的成绩和排名,这样来证明自己和团队。
斗力频催鼓,争都更上筹。对于AI人才团队的建设,明略科技,一贯坚持“以赛代练”的培养方式。
“AI领域每年都会有顶级、重要比赛,比如说语音合成领域的‘BlizzardChallenge’,机器翻译界的顶级大赛‘WMT国际机器翻译大赛’,再比如语音识别领域,前几年的CHiME系列等等。去年年底,我们在‘中文普通话语音识别榜’上获得了第一名,用的评测数据库是AISHELL-1。”
当然,刷榜是手段,而不是目的。“我们的首要目标,是全力以赴地把这个技术落地在公司的产品中,落地在各种场景中。同时,我们也需要大赛榜单来验证自己的技术,让其在客户面前具备更强的说服力。”
招人、用人、培养人,是建设一个优秀的团队必须要回答的问题,AI团队也不例外。经过多年的积累,郝杰总结了一套口诀:“心强、手硬、眼光高”。
心强,就是一定要找那些内心非常坚定,要做就要做到业内第一的人,哪怕他现在是三流,但是他那颗心想得很大。“心有多大,我们就给他多大的舞台,让他做到第一名。”
手硬,这里指的是“两手硬”,“我们强调的是:工程和算法都得硬,也只有这样,才会做出更好的系统,更好的模型。”
眼光高,即目标要高,“要瞄准顶级大赛的冠军,我们一路走来就是这样培养团队的。”
写在最后
春花无数,终不如秋实之果。每每新的技术潮水翻涌之时,“有理想的务实派”总是在自己的航线里发现一方新大陆。他们,一面深耕自己的赛道优势,磨砺以须,及锋而试;一面开眼看世界,敢于论剑,直挂云帆。
高目标、讲实效、不冒进、不浮夸,在“乱花渐欲迷人眼”的大模型浪潮之中,明略科技始终坚定地做一名有理想的务实派。
“把知识注入到大模型中去!找到解决问题的临界点!”
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )