GAITC2022智媒专题论坛|沈浩:计算重塑媒介的延伸

11月27日,在2022全球人工智能技术大会上,由CAAI智能传媒专委会、中国传媒大学媒体融合与传播国家重点实验室、新浪AI媒体研究院联合支持的“融合与发展”新智者·智能媒体专题论坛在线上举行。中国传媒大学媒体融合与传播国家重点实验室大数据中心首席科学家沈浩教授分享了《计算重塑媒介的延伸》,在他看来,当人们探索媒介,智能与物质世界的融合延伸时,人类对局限性的理解将打破,将开启新的视野。

图注:沈浩教授-“融合与发展”新智者·智能媒体专题论坛

以下是沈浩分享实录,内容经编辑略有删减:

沈浩:在线的朋友们大家好,非常高兴参加这样的智能媒体专题论坛。

我今天演讲主题是《计算重塑媒介的延伸》,这个话题实际上就是说媒介最早是人的延伸,但是今天的计算让人进一步延伸。这个延伸可以有充分的想象,是我们智能媒体驱动下的媒介延伸,也许是虚拟数字人,也许是元宇宙。但是作为媒体融合与国家重点实验室,我们主要承担着关于思考媒介的未来媒体形态,媒介的服务模式,媒体的智能信息处理与国际传播问题。

前段时间参加了非常小规模的人工智能与国际传播论坛,当时参加这个论坛大家会思考说人工智能和国际传播有什么样的关系。

为了应景当时找了三个叫做“化身”或者“数字人”,他可以用多种语言,从口唇、姿势、形态,最重要的是自然语言生成,即直接用文本生成一段视频,这段视频帮助我们解读了想表达的内容。所以在科学和艺术融合时代,媒介是一种可穿戴设备,未来可穿戴设备可能是一种媒介。

1964年麦克·卢汉在《理解媒介》时特别关注到了媒介是人身体的延伸,这句话对于麦克·卢汉来讲,大家说他疯言疯语。但是他提出的媒介即信息,那什么是信息?实际上这里还有一个趣事:他当时提到,媒介即按摩。

所以,今天信息减少和排除事物不确定性度量,如果你进到屋里但是是黑灯状态,那打开灯后你才能找到你的东西,这时候电灯给了你决策,因此电灯是不是媒介?今天当你受伤或者失恋了,听首歌也许就抚慰了你受伤的心灵,这个时候媒介是不是就是按摩?所以麦克·卢汉的媒介信息论和媒介技术论,技术在驱动媒介方面发挥重要作用。

当然,今天最重要的是计算。计算的核心要素是数据算法和算力,数据已经成为重要的生产要素。前段时间中央电视台的央视新闻做了关于“数字人”的采访,当时我在今日头条包括学习强国进行解读之后,几个小时大概有四十几万的点击量,说明大家非常关注媒介延伸以及数字人。

很多场景下都会做一个数字人和媒介重塑融合延伸的方式。基于这个方式你会发现,在制作这样方式中大家可能更想的是:最好是你沈老师出现,包括形象、语音等。相信大家知道只要我们给出草本或者脚本,选择你的化身也就是演员,然后不同的背景无论是图片或者是视频就自动合成从文本到视频的生成。

而且这样的“化身人”可以读200多种语言或语种,还可以选择不同身份的人,这其实是我们人工智能在自然语言处理、自然语言生成和自然语言理解上有了极大的进步。

这也是一个令人兴奋的时代,是大数据时代,人工智能和数据科学让我们越来越多地观察到人类社会的复杂行为模式。当下是科技聚合时代,不仅是人工智能还包括区块链、北斗、NFT、5G、元宇宙。今天,主要关注在媒体,所以课题主要关注虚拟数字人和媒体融合视角。

比如,今天开一个腾讯会议,大家都希望能开一个具有沉浸感的会议调剂一下,这件事其实已经出现了。当我走入这样的环境中可以看到我身旁可能是卖的NFT,也可能将来是媒体融合数字博物馆,也许是其他可能的影视等分享。

举个例子可以在这看出来,比如我搭建这样一个环境,只要在这这上传视频、音频或者可能实现交互方式,有人来这一起欣赏、购买等等模式。从这个角度来讲,不光可以坐这开会,也可以体验新的交互模式。

最近有一些从文本到视频,甚至文本到图片的顶级算法叫稳定创新。这六张图真的是沈老师画的,但不是我画的,我只要给出关键词就可以生成这样的图片。特别像这张大图,当时我输入的是三个宗教,基督教、伊斯兰教和佛教,结果生成中间张图,可以看到既有基督教的特色也有伊斯兰教的服饰,甚至也有佛教的表情,当然不同的人有不同的解读。

从这个角度,我们的艺术家很难创作出这样一种寓意,但是当一个老人在车上玩手机时会生成这样的图片。人工智能直接从文本到图像、视频,已经进入我们的艺术领域。

今天已经可以把各种图像、视频抓帧包括语言图像等等都可以变成相量化,当把我们的手写或者服装变成嵌入相量,包括把表情变成相量时,通过科技聚合在一起一定会产生化学反应。这种反应可能是媒体融合的特征也是媒体融合需要最关注的特点。当然这个特点对于我们学校,对于国家媒体融合与传播来源讲实际上是建立在新文科、新工科,特别具有交叉学科特点。

就是对于传统的硬科学,大数据和人工智能与今天的人文社会科学融合,这个时候就可以产生有组织的科研创新。所以计算和传播可能在重塑我们的媒介观。

这里用了虚幻引擎(metahuman),可以在象素级上进行数字人的描绘或者生成。现在最难的是虚幻引擎还不能脱离优异的引擎。同样我们看到在强大的智能和算力上,英伟达的黄教主实现了和人形象的代言和形象的交流,这一点我们看到数字人已经聚合了智能技术,同时也在聚合媒体融合的形态。

所以,我们学校也在一些特定场景、活动中用数字人方式,去表达一些形态,就像学生不能莅临现场一样,比如在疫情期间,我们学校动漫学院利用一个虚拟的元宇宙毕业典礼或者开学典礼。

今天,元宇宙是一个热门话题,但是它是一种数据形态。

未来我们每个人可能都希望有个“网络化身”,这个“化身”在不同的现实物理世界,因世界的价值观不同可以享受不同生活方式。

所以,站在交叉学科和社会科学视角,技术往往遮蔽在文化中,只有当技术产生革命性变革时人们才会意识到技术的重要性。

前面两位专家提到了未来的可能性,不光在现实中,可能未来在无人机,特别是主机和僚机作用中互相的感知连接。未来很多领域这种认知性东西实际上是技术在驱动媒介产业和社会变革。这种社会变革,除了区块链、纳米技术、人工智能技术、机器人、人工存储等等,其实我们看到现在很多时髦概念扑面而来。

2002年时,美国提出了科技聚合,当时它提到了纳米、信息技术等等。但是今天我特别想说认知科学,如果人工智能能够涉足认知科学,这种认知问题如何解决,博弈也是种认知,媒体技术具有惊人的潜力来提升我们与世界的互动方式。

最早人类因为有一个洞穴的隐喻,不知道外面世界是什么,只能通过投影感知世界。但是今天,我们也许可以创造出一个世界,也许是元宇宙,也许是媒体融合的延伸,也就是计算让我们媒体的进一步延伸。延伸到了今天我们愿意用元宇宙方式去探讨,当我们探索媒介和智能与物质世界的融合创新、融合延伸时,我们的认知局限性理解将会打破。

特别是智能技术,所以,希望开拓新的视野。从最小的叫做智能地去除背景技术到智能地擦除和合成技术,这些对于媒体来讲都是小儿科。甚至对于视频的融合采集和智能编辑技术也已经非常地方便。只要在算力达到的情况下,我们就可以给受众,甚至抖音里面的剪影,包括微博视频等都有这类技术出现。

视觉是人工智能创新最典型的要点和突出点,除了我们拿到图像去构建图像的相量化、预项量模型以外,现在我们对于图像的反向搜索,对于图像的事实审核问题就非常重要了。

随着我们对于舆论战、认知战的认知,需要更多地对网上包括社交媒体上出现的大量的图像和视频进行事实的审核和追踪。同样道理,通过一个带有计算机视觉的摄像头就可以很容易的快速地捕捉停车场的占位和空位。过去我们需要大量的设备传感器电子和人力,今天一个摄像头就可以感知并做到这一点。

从这一点来讲,随着摄像头技术、视觉技术以及追踪能力的进步,我们可以以一张照片大概算出具体的人群是什么,很多场景都会用这样的算法来捕捉可能人数的感知。

对于图像修复技术,无论是从旧相片、破损相片还是黑白照片的着色都有了很好的能力,甚至现在很多媒体都将过去的视频或者图像进行了相应的着色和升频能力,甚至达到8倍的升频技术。从静态到2D、3D,让清明上河图活跃起来,让特殊场景下的一些图片变得动态这也是可能的应用场景。

这样的技术出来以后,也带来了很多深度造假,当然深度造假随着现在的稳定扩散模型出现,深度造假又上了台阶,它既有负向也有正向应用,这块算法和能力主要关注于如何应用起来更好地服务人们的需要。最典型的是从智能主播的方式,通过虚拟数字人方式呈现。

对于媒介来讲,借助于智能媒体实际上已经成为了重要的社会使能器,是社会互动的使能器。人们通过智能媒体获取信息知识,应对未知和恐惧。

所以,现在在媒体领域普遍流行的就是创建各种各样的数字人,也形成了相应的产业链。这些产业链很重要的关键技术就是我们的智能技术,就是我们的智能媒体技术,这里面既包括图像、视频、语言、声音、文字甚至细节上包括自然语言理解和生成,甚至是主体对象的实时追踪都是很重要的方向。这些领域会渗透到不同的舆论产业,甚至包括新闻传播。

前段时间做了虚拟数字人影响力报告,也得到很重要的大家反馈。通过反馈中知道媒介的延伸使我们更好地了解自己、感知世界,媒介的智能在塑造我们现实世界中起着非常重要的作用。

这时候,人类的认知正在迅速地接近使用计算和数据、算法、算力去融合、交互。这个过程中计算和传播成为未来媒体的核心技术。

我特别提到,关于媒体融合与国家重点实验室,为了建立对国家战略服务需求,实际上现在我们不仅在信息战还有舆论战,最近主要是在认知战上,认知战对我们的智能技术使用就更重要了。比如俄乌冲突中人脸识别,把相应阵亡士兵能够寄回到他的家里,引起认知上的改变。以及各种造假形成对相应的战争影响以及在社交媒体上和其他媒体上传播的问题,都需要我们用更加有效的智能技术来解决。

这种智能技术不仅包括我们对物体感知,对社会认知,特别是他们的关系的理解。这种关系需要通过不同的智能技术来解读,通过智能技术来分析,这种智能技术其实来自于我们的开源情报等网络搜索,包括人脸。

举个例子,比如特朗普,就需要通过一个帐号获取他的信息,并且把这个信息提取出来建立我们自己的认知模型。例如通过“大五马”模型捕捉价值需求等,这是一个多标签或者分类模型,它包括对语义、文化方面的认知,也包括视觉效果,这个模型能够快速地对一个人进行分析。

既然能分析一个人,就可以分析所有人。我们可以通过GPU加速,可以对更大的社会群体认知产生群体分析。这样的分析也可以推进我们人工智能创新,推进技术聚合,找到新的思考方式。

所有事物都这样被连接,可计算。如果用一些数学形式的语言来表达,数据、算法和算力构成了我们计算的要素。一个计算可编程是智能,因为人工智能狭义的定义就是一段可编程的智能化程序,这个智能未来和区块链融合,将会产生未来社会的一种模式。

也就是把今天的信息互联网和价值互联网融合,产生新的数字经济形态。

这个过程中,一个很重要的社会治理就是需要人工智能和数据智能的能力。因此,云计算、大数据、人工智能等自变量里构建未来的区块链,把现在很多新的技术如何融合构建我们可想象的,比如元宇宙这样的未来形态。

技术融合,计算赋能认知不仅仅视为一种技术,更认为人类意识或者认知的延伸。这种延伸中媒体融合不断创新,进一步推进了技术的融合,扩大视野寻找新的思考方式。

最后总结,我们一直在探讨,尽管我们有很多的信息,但是如果加上时间,当我们的信息被时间和位置捆绑时,加上Hash捆绑就可以实现自辨真家,无假自证.也就是我们的位置,尽管在国界内有三大运营商,但是如果逃离了国界,那么你在全球地理位置还有北斗卫星。如果北斗可以实现双向短报文,并且实现全球授时和全球授位时,那么,你发个信息都被我的时间和位置捆绑,那你就是中国的。

当然,如果你逃离到未来的元宇宙中,你能够被我的时间和位置捆绑,如果能够被我们的关系捆绑,真的无假自证。对于元宇宙的未来和社会治理,我们可能可以看到一种希望的主张,对于全球的空间、时空和我们的人类行为,包括我们的媒体、语言、文字、声音进行Hash捆绑,都可能产生新的一种价值,这是今天我想表达的。

今天我的主题叫做计算重塑媒介的延伸,我们努力将未来变成现实,谢谢大家!

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )