GAITC智能传媒专题｜翟广涛：视觉质量的脑机制探索

6月23日,由中国人工智能学会主办,CAAI 智能传媒专业委员会、中国传媒大学数据科学与智能媒体学院、媒体融合与传播国家重点实验室、新浪新闻承办的主题为“变量激荡增量涌现”2024全球人工智能技术大会智能传媒专题活动在杭州拉开帷幕。上海交通大学电子信息与电气工程学院教授、国家杰青获得者翟广涛分享了题为《视觉质量的脑机制探索》的演讲。

翟广涛主题演讲中。

以下是翟广涛演讲实录,内容经编辑略有删减:

感谢大家来聆听这个报告。

智能传媒论坛,我们还是从传媒的角度切入。传媒内容的演进,从PGC、UGC、P-UGC、AIGC,再到全部的AIGC有一个过程,我们在这个演进的过程中会遇到各种各样关于质量的问题。比如在PGC时代,我们有一些压缩传输方面的事情要考虑;在UGC时代是拍摄的环境、拍摄的设备不好;在P-UGC时代,所谓大V产生的内容,是构图、美感方面的内容。在AI-UGC时代,我们产生的图像到底跟我们的预期符合不符合,还有产生的图像本身质量好不好的问题;到了全部AIGC时代,可能质量问题就被解决了。

(图示)一般说到视觉质量这件事,老是拿这个图作为切入,刚才在隔壁我已经用过一次了,有些人听过一遍了。网上的内容80%都是视频,但是80%的视频其中1%的视频看了99%的时间,剩下80%的时间基本上没有人看,主要是因为质量太差。我们去评测质量好不好,可以从主观角度我们自己来看,也可以用计算机来实现,必须用计算机才能满足我们目前的需求。从视觉质量来看,无论是在采集、处理、传输、显示还是在改制的过程中,都有一些让人对它的质量产生不满意的地方。从质量评价研究角度来看,一般我们追溯它到Hubel&T.Wiesel的诺贝尔奖,到D.Marr的计算视觉/计算神经学方面的研究。到了近代,D.Mumford做了一些关于自然图像统计方面的研究,A.Bovik在2000年左右开启了SCM近代我们用的质量评价方面的研究。

再往后看就有点意思了,在2010年左右,K.Friston提出来感知自由能原理,再往下是深度学习的方法、CNN的方法、大模型的方法逐渐得到了应用。但是反过来看,从2010年之后,视觉感知质量的脑机制的研究基本上没有人做了。我们现在有一些工作评测大模型的视觉能力,尤其是Low-level Vision的能力,在这个评测过程中,假设Low-level Vision包括了视觉质量感知的能力,视觉质量感知这个具体的过程由于时间所限不展开介绍了。进一步我们还可以提升多模态大模型的Low-level Vision的能力,比如去判断这个图片是不是模糊,去描述这个图像关于质量方面的内容。这个工作目前比较重要,大家比较关心的一个领域。但是我们一直把跟质量感知相关的内容称之为是Low-level Vision,这个事对不对,至少从我这个角度,我做这个研究已经20年了,很困扰我,就是到底是不是一个Low-level Vision的命令?所以我们近期在这个领域做了一些探索,也跟大家分享一下。

这个探索怎么做?就是我们把人放在磁共振里面去,给人看图片,把响应记录下来,做了一些分析。要解决的问题有三个:第一是我们看一下大脑在观看不同内容、不同质量水平图像的时候到底是什么状态,有没有一个脑区对这个质量比较敏感;第二是探索视觉质量跟脑区连接功能之间的关系;第三是能不能做解码,就是我们能不能从磁共振响应里面去解码我们看过的图像质量。

这个过程有一些基础的知识,不细说了。我们采用了一种混合的模型设计,找了18个被试,基本上都是我们的学生,10男8女。我们的图像是从目前的质量评价数据集里面选的,选图像的时候我们注意的内容分为三类:人脸、物体和场景。质量有高中低三级,一次扫描是4block,一共做8次,总共是32个block,有一些随机发明的设计。人塞到这个磁共振里面,上面有一个镜子,镜子背后有一个显示器,这个显示器和磁共振是兼容的,所以躺在这里能看到图像。打分怎么打呢?人的左手和右手分别有两个手柄,左手有两个按钮,右手有两个按钮,我们可以通过这样的方式收集他对质量的反馈。

有一些有意思的结论,第一个结论是高质量图像的质量评价速度显著快于中低质量,这个好理解,我们看到高质量的时候,我们要做质量评价这件事就做得非常快。低质量图像语义判别速度显著慢于中高质量,这个也非常好理解,给你一个低质量图像,我问你看上去是人脸还是物体,受到质量的影响所以这个比较慢,因为低质量图像中的失真使得语义识别更加困难。第三个是语义对质量判别的速度没有显著影响,就是看不同的图像问你质量好坏,不同图像的内容对这个事没有什么影响。第四个也比较显然,在于分类任务里头,对人脸的响应显然是最快的,因为我们有一个区域是专门进化用来处理人脸的,所以这个评价比较快,这是一个行为学方面的分析。

如果我们做两个任务,内容分类是QAvsCC Task,这两个任务进行比较,也有几个比较有意思的结论。

第一个是在质量评价过程之中,更多的视觉辅助通路被激活了,包括额上回、右脑岛、额下回等等,也就是一些比较高级的视觉区域,在做质量评价任务的时候被激活。

(图示)这是一个功能连接的示意图,左边是做质量评价的时候功能连接,右边是做场景分类的时候功能连接。简单说一下,蓝色是负项连接,红色是正项连接,两种任务都出现了跟体感、运动、调节相关的区域负相关,意思是说我们做这个任务的时候人不动,要控制自己的注意力,这些都是正常的现象。更重要的是下面的这几个结论,质量评价任务涉及了更加复杂的功能连接,这边的功能连接是质量评价的,比场景分类的要更分析一些,因为质量评价任务强调了同时是高级和详细的视觉感知,而内容分类任务倾向于是一种初级和快速的视觉反应。

质量评价涉及了比较高级的皮层,枕下外侧皮层、颞枕叶梭状皮层,抑制了很多非直接相关的体感、运动或注意力资源的分配,确保我们在质量评价过程中对图像的细节比较关注。质量评价的任务之中,两个半球之间的连接功能也更加丰富。

所以通过以上的分析,我们可以得出一个结论,质量评价是一个比较高级的视觉功能,比内容分类至少高级。我们一般认为内容识别算是高级了,因为它牵扯到语义,但质量评价绝对不是一个低级的视觉功能,因为它比语义更高级。

再接下来,不同的质量对于在观看过程中的连接有什么影响呢?在看高质量图像的时候,我们的折回、枕下回、枕中回,这个可能不太熟,但是说V1、V2大家就比较熟了,初级视觉皮层里面V1、V2或者BA17、BA18这样的区域有响应。在看低质量图像的时候,相对较高的视觉皮层,比如梭状回、枕中回、枕上回,这块是视觉相关的区域,V1、V2、V3是从枕叶后端往前排的,这些区域是有激活的。什么意思?看低质量图像的时候,我们更高级的脑区在被激活,看高质量图像的时候,反而是低级脑区在被激活。这可能跟我们一般的印象相反,一般我们认为看低质量图像的时候,你都看不清内容,你的高层脑区不会工作。但实际上恰恰相反,看低质量图像的时候,高层脑区被激活的反而更多。

这是为什么?因为看低质量图像的时候,颞中回、颞下回这种高级的脑区要跟低级的脑区协同工作,去调动我们的记忆,去做所谓的脑补。所以处理次优视觉输入的时候,我们需要动用更多的脑资源,消耗更多的算力,也就是葡萄糖,来保证我们能够理解这个视觉内容。

所以我们可以得到一个结论:低质量图像的主观厌恶是有明确生理解释的。也就是说,我们的画质,我们在做传媒过程之中看到低质量的图像不舒服,不舒服是有原因的,是因为你看到不舒服的图片的时候,你会控制不住地需要做补偿,需要调动你的知识去理解图像的内容,这个过程消耗了更多的葡萄糖,会使得你更累,所以会不喜欢低质量的图像。

(图示)我们在不同脑区的活动跟质量之间的变化有一个结论,从低级脑区到高级脑区,比如这是舌回、枕中回、枕上回、额中回,脑区的激活,在低级的脑区,随着质量的上升,脑区活动的活性是上升的。但是在高级的脑区,随着质量的上升活动是下降的,这是什么意思?如果你看低级脑区,质量越高我的反应越高,在高级脑区,质量越高我的反应越低。也就是说,对于低质量图像的脑补,发生在了低级脑区和高级脑区之间的位置。大概是这个意思,结论是这样的。

再仔细说一下,如果你为了研究到底低质量到高质量的过渡发生在什么地方,就要用一个表征相似性学习的工具,大概是把语义标签或者质量标签跟人脑的响应做一个相关性分析,看这个相关性,如果高的话就比较一致。

(图示)这是对于不同脑区的表征相似性分析的矩阵,可能不太好理解,我们其中把枕下回区域单独拿出来看一下,对于低质量图像分了三块,分别是对人脸、物体和场景,红蓝放到一起了,看不清。对于低质量的图像,我们对于不同的内容其实是混叠了,不太好区分。但是对于比较高质量的图像,这块区域相应来说能看出来区别,比如仔细拿出来看,这个区域相对放得比较开,至少人脸和其他区域分开了。对于高质量的图像,我们能够更好地区分它的语义,这是一个定量的证明。低质量的图像受失真的影响,它在我们脑中的语义编码相对比较混乱,这是一个定量的结果。更进一步,我们可以通过把这个矩阵跟语义标签直接做相关性,这样就可以算不同脑区所蕴含的语义信息的含量。

(图示)这也是一个结果,从左到右是脑区从低到高,左边是距状沟、楔叶、舌回、枕上回、枕中回、枕下回、梭状回,是这么一个传递的过程。看这张图会更明显一些,我们看不同质量图像的时候有几个结论:从低级脑区到高级脑区所蕴含的语义信息逐渐升高,这个非常合理,高脑区是负责处理语义的,在枕上回到枕中回存在一个明显的跳升。所有的图像质量,好的质量语义含量高,中低质量的语义含量比较低。但是这中间的gap,随着脑区的提升而逐渐降低,也就是说,高低质量在高脑区的影响会降低,所以对于低质量的图像补偿是发生在中层脑区,低层到高层之间影响会比较大,到了高层影响比较小了。

所以我们可以得到一个重要的结论,就是枕中回这个区域是质量感知的关键区域,你对于质量的判断好不好,其实是发生在枕中回的位置。可以说X和Y有两个点,它们之间有一个信息传递的过程,如果我们把它想象成H方程的话,X到Y信息传递的过程,它所传递的机制的模式不同,导致了我们对质量感知的最后结果的不同。

(图示)再仔细分析一下,为前面这个结论提供一点证据。我们可以用高层脑区的响应,来预测低层脑区的响应。对于高质量图像,如果我们用高层脑区来预测低层脑区的响应,对于高低质量图像的响应差别,就是一个指征。如果我们在高质量图像情况下,用高层脑区预测低层脑区,对于高低质量图像预测的差是显著的,那就证明我们提取到了信息。反之,如果我们在低质量图像的情况下,用高层脑区去预测低层脑区,你找不到这么显著的区域,这个图中画圈红色的是显著的,P小于0.01。如果用高层脑区预测低层脑区,但是在低质量的情况下,就找不到这么多的显著性,唯一一个显著的是发生在枕中回预测舌回的时候。

所以这就进一步说明了在枕中回位置上,是跟质量相关的关键区域。所以更进一步我们又有一个想法,如果你解码这个视觉图像的时候,你用全部脑区去解码当然可以,但能不能只用枕中回附近的两个脑区?比如枕中回和枕上回这两个脑区,来解码视觉质量。事实上证明,这是单个人的结果,这是把所有人放在一块的结果,这块区域去做解码,只用枕中回和枕上回的解码结果实际上跟用全图是差不多的。也就是说,这块区域确实对应了我们对质量感知的关键区域。

更进一步,枕中回这个区域对于质量感知很关键,但是它单独起作用吗?也不是,你可以用Seed-based Functional Connectivity去发现它跟前面的眶额区域,这显然跟情绪、记忆相关的高层脑区,它们之间的相关性是比较强的。所以我们的质量评价过程,除了枕中回这块比较重要,眶额皮层也比较重要,它同时要联动很多高级的脑区。

做一个总结,说得很简单,但是也是做了不少分析。通过数据各种各样预处理的分析,我们得到了相应的五个结论,这五个结论分别是:

1、质量评价不是简单的视觉任务,激活区域和功能连接至少相比于场景分类是更加复杂的。

2、低质量图像对应着高级脑区的活动增加,大脑功耗相应地增加,这是为什么我们会厌恶低质量图像的原因。

3、失真对低级到高级脑区域编码的负面影响逐渐降低,也就是失真不影响你看清楚这个东西是什么,最终是不影响的,只是在过程之中增加了你的功耗。

4、视觉质量的感知可能是源于高级和初级视觉区间的信息差获取。

5、低质量图像认知过程存在与高级脑区之间的联动,只用我们的枕中回也做不了质量评价,所以需要更高级的脑区联动。

以上是我们的一些发现,跟各位进行了分享。谢谢各位。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）