2022新智者大会｜王巍：企业应在万物互联格局下思考未来战略

7月27日,由中国互联网协会指导、微博和新浪新闻主办的“融合生态价值共创”2022新智者大会召开,中国互联网协会理事长尚冰、微博CEO王高飞为大会致辞。据了解,首届新智者大会汇集了来自中国工程院、清华大学、复旦大学等学界的顶尖专家,以及阿里巴巴、百度、360公司、微博等知名企业的创始人或高管,他们围绕数字化转型、AI安全、云科技、AI伦理、元宇宙等热门技术话题向观众们分享了各自的研究与思考。

在“智驱万物:AI推动万物互联的加速到来”议题中,微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍发表了题为《云为数智技术融合应用赋能微博复杂业务场景》的主题演讲,向观众们分享了云计算、人工智能、大数据等技术在微博业务中的融合应用。

微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍做主题演讲

　　以下为王巍先生演讲实录,内容经编辑略有删减:

各位来宾、各位媒体同仁,正在观看视频的观众朋友们,大家上午好!我是王巍,今天很高兴能够代表新浪和微博跟大家分享交流。首先作为主办方,我要感谢尚冰理事长、邬贺铨院士以及各位嘉宾,对我们新智者大会的鼎力支持。另外,我还要感谢正在收看视频的媒体和观众朋友对我们的厚爱。由于疫情原因,很遗憾这次没能跟大家在线下相聚,我们只能通过视频的方式,跟大家汇报智能信息时代,AI发展的一些前沿技术和应用成果。

接下来,我会花点时间,跟大家分享,云计算、大数据、人工智能的前沿应用,并以微博的核心业务为例,向大家介绍一下,在实践中,我们是如何利用技术创新,为微博的复杂业务场景赋能的。

在分享之前,我想,先来回顾下互联网的发展历程。

如果说PC互联网是网络世界的开端,那么移动互联网的兴起则是顺势而为,让网友将这无形的信息空间装进了口袋。

移动互联让信息传输呈现出便捷即时化、垂直碎片化、云端化等特点,这使得信息的传播效率、范围和影响力等,都发生了根本变化。此后,随着大数据、云计算、人工智能等技术,与移动互联网的叠加融合,我们逐渐过渡到了智能信息时代。

我们说,智能信息时代有四个特征——场景化、智能化、万物皆媒和以人为本。

首先是场景化,体现在信息传播的精准度。比如我们微博的一个用户,正在环球影城游玩,在得到用户授权后,我们就会根据用户所处的场景,向他推送环球影城相关的新闻、资讯、游玩攻略等。

第二个智能化,智能化体现在人与技术的全方位交互,通过数据建模、算法训练、机器学习等工作,实现人机协同的良性互动。

第三个万物皆媒,万物皆媒主要体现在,信息传播终端的变化。现在我们获取信息的渠道,已经不仅仅局限在手机上。在智能家居、智能穿戴、车联网等方面,都成为了我们获取信息的通道。这些智能设备厂商、智能汽车厂商,自然就成为了媒介的组成部分。

最后,我来讲一下以人为本。其实这也是对以上三个特征的总结。无论技术发展得多么先进,它最终都要在人类社会中落地,都必须要考虑,终端用户的需求和体验。所以,以人为中心的AI发展道路,才能让技术真正成为我们的伙伴,帮助我们生活得更加美好。

大家看到,我的PPT里,还有一个元宇宙。从去年开始,元宇宙就引发了广泛的讨论,比如数字孪生、数字人、XR、区块链技术等,包括微博在内的很多公司也都在做布局。今天下午的元宇宙专题论坛,我们也会听到来自元宇宙领域创业者、投资等专业人士的分享。我认为目前基于AI、区块链、XR等前沿技术的应用场景,已经体现了一些元宇宙的雏形。诸如游戏、社交等领域,都是元宇宙非常好的应用场景,我相信这些应用场景,会引爆大家参与元宇宙的热情。

当前我们处在智能信息时代。新一代智能信息技术蓬勃发展,协同创新所驱动的智能经济,打破了原有的社会联结架构,相应的这些技术,也驱动着互联网生态格局发生着巨变。

我们微博搭建的技术架构,也是以云计算为基础、以大数据为依托、以人工智能为中枢的技术架构,用来应对微博众多且复杂的业务场景,比如微博的社交关系、用户的多元兴趣、以及全民关注的热搜产品等等。而在这些复杂业务场景背后,起到至关重要作用的则是我们的技术研发团队对于技术的创新赋能。下面我就围绕热点应对、算法推荐、内容安全这三块微博比较核心的业务,来分享一些我们的探索与创新。

第一部分,跟大家分享,我们如何利用云计算架构的优势和技术创新,在短时间内聚集大量算力,从而帮助微博,从容应对热点带来的的流量洪峰。

我先介绍一下IT建设的发展过程。IT建设所依赖的基础资源经历了从服务器到云化资源的发展历程,目前正在快速进入云原生阶段。

我们先看服务器阶段。这个阶段IT建设的特点是以硬件设备为中心,业务应用随不同厂商设备、操作系统的差异化进行定制;设备的安装和调试,应用的部署和运维,基本靠人力完成,自动化程度低,缺乏统一的设备和应用管理能力。

来到云化阶段,传统模式下分布离散的设备被统一起来,实现了各类资源如计算、存储、网络的池化。然后企业通过统一的虚拟化平台,为上层业务提供资源管理接口,实现资源管理能力的自动化,从而屏蔽一部分基础设施的差异,使得应用的通用性增强。但因为云平台软件的差异化,这个虚拟平台无法在不同云厂商间进行能力共享,所以企业的应用部署还是以资源为中心。

那么在云原生阶段,企业的关注点才开始从以资源为中心转移到以应用为中心,包括应用敏捷交付、快速弹性、平滑迁移、无损容灾等。因此,企业开始考虑如何将基础设施与业务平台融合,为业务应用提供标准的运行、监控、治理平台,并将业务的应用能力下沉到平台侧,更好的帮助企业实现应用的自动化。

微博目前就处在从云化向云原生转变的过程中,通过技术创新,在快速弹性和资源容灾等方面都取得了很好的效果。下面我们来看应用案例。

热点应对一直是微博业务中面临的最大挑战,微博作为全民关注的社交媒体平台和舆论广场,全社会的重大事件都会在这里发酵,很多事件都成为了全民关注的超级热点,这些热点事件通常是不可预知的。

以最近全民关注的“唐山事件”为例,事件当天的热点流量较日常流量峰值翻了一倍。

如果按常规方案,微博除了采购应对日常流量的服务器之外,还要额外常备大量的服务器以应对这种突发热点,这会造成日常服务器大量闲置,付出较高的成本。

如何用更小的资源成本,应对突发的热点流量。这是我们面临的第一个挑战。

那么,随着微博用户体量的不断增加,微博上面的热点也越来越多,而且用户逐渐养成了来微博消费热点、“吃瓜”的习惯。进而带来的是热点流量越来越高,热点流量洪峰到来的速度也越来越急。

如何更快的把扩容服务器部署到线上,这是我们面临的第二个挑战。同时,只要扩容速度足够快,我们日常的服务冗余就可以降到更低,能够大幅节约成本。

我们通过不断的技术创新和应用,来应对这些挑战。

微博很早就应用了微服务+Docker容器化技术,提升服务运维的效率,实现了服务动态扩缩容能力。并且搭建了以“私有云+公有云”为资源底座的混合云平台,通过这个平台抹平自有实体服务器和多个公有云资源的差异,实现了高效的弹性部署和自动扩缩容能力。

当前我们已具备10分钟调度超过一万台的扩容能力,用较低的成本,获取足够的服务器来应对热点流量,从而解决了上面说到的第一个挑战。

另外,我们建立了热点监测机制和热点联动体系,并通过微博自研的Weibo Mesh技术,实现不同服务间跨语言的高效调用,提升整体服务的性能,和联动扩容效率。

微博从公有云获取服务器、部署服务镜像、启动服务及预热、直到线上流量承接全流程,扩容时间大幅缩短,很好的解决了第二个挑战。即使面对冬奥期间,多个热点事件叠加爆发的影响,也能够从容应对,超级流量洪峰。

当然,在当前技术架构下,调用公有云还是需要时间的,所以日常常备服务池,仍需要一定资源冗余,这样做能为动态扩容争取一些时间。那么,热点来的越急,需要冗余的资源就要更多。同理,如果我们能让扩容效率更高,对应的资源冗余就能够降到较低水平。

针对这个问题我们采用了在离线实时混合部署技术。利用CPU实时抢占式调度技术与容器化技术相结合,实现微博服务在离线实时混合部署能力。混合部署池变成核心在线服务的临时动态资源池;日常流量期间正常执行离线任务和服务,热点流量到来时,可以秒级承接核心服务的热点流量。

上面讲了热点应对,接下来,我想以微博的推荐业务为例,和大家分享在智能信息时代,我们如何用AI新技术,驱动平台业务的智能化发展。

首先我们来看人工智能的技术发展趋势。如果我们回顾机器学习的发展历程,可以看出AI的总体发展趋势是:训练数据的海量化及多样化,AI模型的复杂化及通用化,算力的高效化及规模化。

我们看屏幕上展示了四个相对具体的AI发展方向。

首先,是多模态数据融合。随着5G网络等通信技术的快速发展,图片、视频类型模态内容,在网络内容中占比越来越高,所以进行模态融合非常必要,比如同时对微博的文本、图片、视频进行多模态融合,可以更好理解微博所讲的内容。

其次,是超大规模图计算。相对其他机器学习模型,超大规模图计算有个特殊的优势:通过信息在网络中的传递,促进信息的流动、汇聚与集成,比如对于行为少的冷启动用户,我们可以通过他关注列表中的人,以及这些人发布的内容,通过信息传播来推导这个用户的兴趣。

第三,我介绍下AI研发的哑铃模式。目前的AI研发重点,一个是越来越大的超级大模型,一个是模型小型化技术。我们都知道,目前随着模型参数规模越来越大,模型效果越来越好,高精度模型仍然在持续增大,比如2018年Google的Bert刚出来的时候,模型参数规模是3亿,不算太大,但是之后这个数字快速增长,Open AI研发的GPT2模型,参数规模15亿,GPT3模型,参数规模1750亿,2021年Google发布Switch Transformer,参数规模1.6万亿。另一方面,虽然说模型越大效果越好,但是因为模型过大,有时会导致无法落地实际应用。所以研发的另外一个重点,是将这些大模型小型化、轻量化,比如模型蒸馏、模型剪枝等技术,也是业界特别关心的。

另外一个趋势,是AI模型从专用模型走向通用模型。谷歌在2021年下半年公开的Pathways模型框架,首先提出这一构想,希望通过构造一个通用的大模型,达到“一个模型做千万件事”的目标。具体的思路是,不同任务数据输入后,通过路由算法,选择神经网络的部分路径,到达模型输出层。不同任务既有参数共享,也有任务独有的模型参数,通过这种方式来达成“一个模型做千万件事”的目标。

讲完行业趋势,下面,我介绍一下我们的微博推荐业务。微博环境下做推荐系统,既具有鲜明的微博特色,同时又面临着复杂的业务场景。这种特点及复杂性主要体现在三个方面:

首先是无处不在的社交关系。我们知道,微博作为国内最大的社交媒体网络,目前月活用户达到5.82亿,这样的用户规模构建起了多样的复杂网络。

其次,微博内容具有时效性强、多样性高的特色,很多网络事件都是第一时间在微博引爆的,而且作为综合媒体,微博涵盖了几十个高质量的垂直领域内容。

第三,是多元化场景的推荐需求。我们微博有很多场景,比如关系流、热点流、视频流等,都有很强的推荐需求,要给用户分发他们感兴趣的“千人千面”的内容。

那么,面对复杂的业务场景,我们是如何应用AI和大数据对推荐系统赋能的?微博推荐系统整体由三部分构成:内容理解、用户理解,以及推荐系统。下面我展开来讲。

首先,我们来看在微博内容理解方面做的一些工作:要想搞明白一个微博到底在说什么,仅仅理解文本内容是不够的,必须采用多模态理解技术,融合博文、图片、视频等多种媒体信息。我们结合微博特色,训练了自己的微博多模态预训练模型,通过“对比学习”,这种自监督学习方法,来进行多模态预训练。

以图中展示的例子来简单介绍下:大家可以看到,我们可以利用微博自带的‘话题‘,来自动构造训练数据。比如我们可以把两个都写着“训练中的拉什福德”的微博当作正例,随机选择一些不同话题的微博作为负例,这样就能自动构造训练数据。对于某条微博,其中的文本内容通过Bert编码,图像和视频内容通过ViT编码,然后通过fusion子网络进行信息融合,形成微博的embedding编码。这是一种预训练过程,经过预训练,学好的微博编码器可以拿来对新的微博内容进行多模态编码,形成embedding,应用在推荐等下游任务中。

在微博用户理解方面,我们采取了超大规模图计算,来更好地理解用户的阅读兴趣是什么。微博的社交媒体属性天然匹配大规模图计算,可以表达用户之间的关注关系、用户和博文的转评赞等互动行为。我们以用户和博文作为图中的节点,以用户间的关注关系、用户和博文的阅读及转评赞等互动行为构造图中的边,建立起包含10亿规模节点、100亿规模边的超大规模图。通过大规模图计算中的信息传播、汇聚和集成,形成表征用户兴趣的embedding向量,可以更好地理解用户兴趣。

当我们理解了微博在讲什么,理解了微博用户的兴趣,那么就会通过微博推荐系统,将高质量的微博,个性化地分发给对此感兴趣的用户。我在前面提到过,微博在多元场景都有推荐需求,比如推荐流、关系流、视频流等,每个场景都需要个性化的用户体验。

那么,如何在这种复杂场景下构造高效率的推荐系统呢?我们在这里采取了多场景建模的方式。我们希望只构建一个推荐模型,用它来服务多个场景。那么如何表示场景间的共性和个性呢?我们通过网络参数在场景间共享,或者场景自己独享私有网络参数,来体现场景的共性与个性。比如看这张模型图,在模型的底层特征输入层,以及网络中间的一部分“专家子网络”,这些网络参数是各个场景共享的;而其他子网络参数则是某个场景所独有的。通过这种方式,就可以兼顾场景的共性与个性,能够通过一个模型服务多个场景,节省模型资源。

上面我分享了我们技术创新对热点应对和算法推荐的赋能,接下来我要跟大家介绍下,微博在内容安全层面所做的一些技术创新和应用。

微博结合自身复杂的业务场景,自研图神经网络的分布式训练框架,结合对比学习,对用户特征和社交图网络编码,学习用户高阶特征。由于海量标注数据的成本非常高,我们基于无监督的方法,学习用户的embedding,构建用户图网络模型。然后基于小规模的标注数据进行监督微调训练,支持离线挖掘、实时预测,实现了对潜在风险信息的主动预警。

另外,在日常的运营中,微博严格贯彻执行《网络安全法》、《数据安全法》、《个人信息保护法》等法律法规和相关管理规定,投入大量资源,对有害不良信息进行清理整治,以净化网络环境。随着治理不断深入,黑灰产也呈现出激烈对抗的态势,违规图文信息更加多样、手段更加隐蔽,难以通过单模态判断有害信息,所以我们必须通过图文多模态算法,利用NLP模型(如Bert)和CV模型(如:VIT),深层次融合图片+文本特征,然后通过特征融合网络进行编码,对内容合规性作出及时有效地评估,从而有效控制灰黑产的违规行为。

此外,为了进一步贯彻落实2022年“清朗”系列专项行动的相关要求,全面整治饭圈拉踩引战、网络暴力等问题。我们依托海量的微博文本语料,自研预训练模型,对站内数据进行深度语义理解、情感分析,建立了性别对立、粗俗冒犯、网暴预测等方面识别能力,对可能遭受言论攻击的用户进行保护,帮助国家和社会来营造安全、文明、和谐的网络生态环境。在这里,我还想再补充说下微博对于技术的态度。曾有人说,算法没有价值观,但我们认为,算法的价值观体现的是背后掌握算法的人的价值观。所以多年来,我们也一直践行着这样的价值理念,用资深的运营团队和审核团队,努力去训练AI,努力使我们的算法具有正确的价值观。

以上,我们谈了微博在利用云计算应对突发热点、运用AI和大数据为算法推荐、内容安全赋能的一些探索和成果。最后回到大会的主题“融合生态价值共创”,我想说,技术的发展速度有时超乎我们的想象。曾经我们畅想的未来已经站在眼前。无论是互联网企业还是传统企业,都应该在万物互联的格局下,重新思考未来的发展战略,用AI思维去思考,用更加开放的心态与新技术去融合,让云计算、AI、大数据等技术,成为我们发展的基础底色,为社会创造更大价值。

以上就是我分享的全部内容,感谢大家的收看,最后预祝大会圆满成功。谢谢大家!

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）