持续七日的2017全球创业周中国站(Global Entrepreneurship Week China,简称GEW),11月19日在上海长阳创谷1会场迎来压轴之作——人工智能产业投资论坛的开幕。
论坛由初创投资主办。于2012年成立的初创投资,是中国第一家人工智能产业投资机构,是国内数十家人工智能企业最早的投资机构。
此次论坛成功汇聚全球范围内超过60家明星企业、近二百位产业界投资界学术界的专业人士,并吸引数千人次的专业观众到场参会。其中,八位身处人工智能“产学研创投”前线、脑洞惊人的实力派嘉宾,先后发表主题演讲。
中央音乐学院副院长、教授、博士生导师周海宏率先登台演讲。他以“如何让机器听懂音乐——音乐理解的人工智能路线图”为题,向现场观众展示了人工智能与音乐深度关联的可能性。
周教授首先对“听懂”进行了限定,采用日常人们所说的听“懂”即是指从音乐中感受到视觉性的形象、情态性的情感,甚至思想性的哲理。要实现机器“听懂”——理解音乐的目的,就必须从联觉理论出发,找出人类由音乐的听觉体验引发其它感觉之间的联觉对应关系。
核心观点:“联觉是人的本能,是音乐引发其它感觉体验的中间环节。未来,我们做音乐理解人工智能,采用阿尔法狗的路线,通过分析个人音乐审美经验去获得规则,是行不通的;而应该象阿尔法元那样,把人类理解音乐的规则直接告诉机器。即,不是通过经验学习获得规则,而是通过规则获得策略,这样,才有望在音乐理解与感受的领域上出现人工智能应用场景。”
————————————————————————
以下内容来自周海宏的演讲全文,文字由AI森林整理:
真没想到会站在今天这个讲台上。我既不懂人工智能,也不懂各种复杂计算,更不懂市场。我的专业是音乐心理学,是研究审美规律的。
我先给大家唱一个旋律,你们来告诉我,哪个是表现高山,哪个表示流水的。
大家肯定会一致觉得第一个是流水,第二个是高山。为什么所有人的立刻一致地产生了这样的“听懂”音乐的判断?这其中一定是有规则的。我之所以能够举出让大家产生一致反应的音乐例子,一定是通过研究掌握了这个规则。
让机器拥有理解音乐的人工智能,也需要由人来告诉机器一些规则,在这个规则的基础上,机器才能进行后续的复杂计算。
如何让机器“听懂”音乐?大家可能在想,连人都不一定能“听懂”音乐,机器怎么能够“听懂”音乐呢?
音乐有两个最重要的属性,一是没有视觉造型性,二是没有语意符号,因此音乐不能传达视觉形象,也不能直接传达思想概念,这是造成大家听不懂音乐的核心原因。
我们先来分析一下,人是如何“听懂”音乐的。
下面我放一个例子。这一段音乐,大家觉得它表现的是什么?
我做过调查,很多人会选择“险峻的高山”和“汹涌的大海”。
再放一段曲子,所有人会选择“清澈的小溪”和“秀丽的田园”。
人的主观感受为什么会有如此高的一致性?一定是这段音乐和那个场景形成了对应的关系——联觉对应关系。
所谓联觉就是一个感觉器官受到刺激,其它的感觉器官发生了反应的心理现象。
巧克力与薄荷糖,高音与低音,大家一定认为低音像巧克力,高音像薄荷糖;红烧肉和酸泡菜,大家会觉得泡菜像高音;闷热和凉爽,大家会觉得凉爽像高音;亮色和暗色,大家会觉得高音亮, 低音暗;羊绒和真丝,真丝像高音……味觉、温度、视觉、触觉,都和听觉声音的高低发生了对应关系。这些现象就是联觉的表现。
由此大家可以想到,如果把人对声音的感觉与其它感觉的联觉对应关系找到了,就迈向了机器理解音乐最重要的一步。
我放两段音乐,大家觉得哪段适合给空调机广告配乐。,对,是第二段音乐,因为高音会让人感觉凉快;如果是给《法治进行时》来选片头,就会选择第一段音乐,因为低音给人感觉“深沉”。“深”是空间高度,“沉”是物体重量,我们拿这两个字形容听觉的声音,这个词本身就是联觉现象。
我的论文《音乐与其表现的世界》,获得过2001年教育部全国优秀博士学位论文奖。这是音乐理论界第一个获得百篇优博奖的,因为这篇论文发现了音乐和表现东西之间的中间环节,揭开了音乐艺术表现之谜。
声音的高低是频率决定的,它与颜色有联觉关系。三百前就有人研究色-听的联觉关系了,但一直没有找到稳定的、普遍的规律,色-听联觉一直不能排除主观臆想。
大家知道,我们感受到的颜色不是单纯的元素,是由色调、明度、饱和度构成的。当我把颜色和声音都做了具体的元素的细分后,使得联觉的问题迎刃而解。研究发现,声音和颜色的色调无关,而只是和明度有关——声音的高低,和颜色的明暗形成了联觉对应关系。
声音的强弱是一个能量的现象:强音使人感觉大,弱音使人感觉小。强音使人感觉动,弱音使人感觉静。
声音的长短和空间的延展形成对应关系。因此,对物体大小、人的个性特征也有表现力。比如,伟人,就要用慢速的声音来表现。对应地,小人出场,那就用快速。
声音的包络特征与硬、软,柔和、威胁有对应关系。
紧张度由声音的音色和声音的组合特征产生。声音的紧张对应了情绪的紧张,声音与颜色的混杂、利益的竞争、主体的需要和期待等等,都有对应关系。
根据上面的原理,我来举些例子,比如中国民歌《小白菜》,[唱《小白菜》]“小白菜呀地里黄呀,两三岁上,没了娘呀……”一个七个月的小孩,听着听着就哭了。
复杂一些的例子,《国际歌》,为什么给人感觉是悲壮的?要拆解为“壮”和“悲”,“壮”是向上的,和谐的,音乐的旋律用了向上的四度音程;紧接着后面的下行产生“悲”感,再壮、再悲,这就是为什么《国际歌》经常在革命失败的时候才唱。实际上,它之所以给人悲壮的感觉,就是因为音乐形态有这样的特征。
音乐理解的人工智能,要求必须把一个声音带来的感受细分到具体的元素中,才能被机器理解。音乐理解的人工智能有一个非常重要的预处理工作:对音乐描述词所指的感觉现象的进行精细切分。
总结一下:作曲家就是靠联觉来选择和组织声音进行表现,听众也是依据联觉反应规律感受音乐的“弦外”之“意”。
在此,特别想和从事人工智能的朋友们讲一下:我们现在的人工智能思路,基本上是给它一大堆的音乐案例,让听者为音乐打上标签,然后让计算机进行深度学习,从中分析出来带这个标签的音乐所具有的特征。这其实就是AlphaGo的思路。
但如果我们做音乐的人工智能研究,也这样搞,就会出现问题。因为一个人可能在音乐感受的过程中有太多个人主观性因素。
同样是柴可夫斯基的作品,如果这个人的注意力放在低音部,就会感觉这个曲子悲哀,如果注意力放在高音部,就会觉得是明快的。最不明智的是根据歌词给音乐的情感打标签,这时候遇到一个问题,词所暗示的情感和音乐形态特征不能对应,比如“伤心总是难免的”这个旋律[唱],你一点不觉得伤心。
另外,从音乐创作的人工智能角度看,绝大多数音乐作品不是好作品。即便是一个好作品,还有很多部分不是好的,只有其中一部分非常闪光的东西,才让它成为一个伟大的作品。如果把完整的作品交给计算机,它一定把臭棋和好棋都学下来。关键是,下围棋是有对错的,计算机可以判断这步走的是对、是错,但是,音乐的欣赏没有好坏对错的绝对标准,这对计算机而言,就更麻烦,它不知道哪个结果是对的。我们要认识到:莫扎特和肖邦,绝不是象机器那样学了所有前人的作品才成为伟大作曲家的,他们一定是根据自己头脑中的规则进行创作。
我们需要换一种思路,整个艺术的人工智能要换一个思路,不再是分析以往的作品,而是把这个直接决定音乐艺术最本质的价值判断规则告诉机器,这就是AlphaZero的思路。
当然,具体的工作非常非常复杂。我们首先要对音乐的音频进行一系列分析,分析出来人的听觉判断对象,还要把人的听觉注意分配规则告诉计算机。计算机才能象人一样听音乐,然后才能根据前面分析的联觉对应关系规则进行机器的理解工作。
我最近看了一个人工智能的研究,为了标识音乐作品每段的情绪特征,它们的方案是按每5秒钟切分一段进行分析。大家知道,音乐不是按照每5秒一换情绪的,其实应该按照音乐句法切分。但是,这项研究没有按音乐句法划分规则切分,采取了每5秒钟截一个段。以这样分段去分析,计算机算出的结果一定是乱的。
下一步是要做一个大的音乐描述词的词库,标出音乐描述词的感性特征,然后让计算机去学习。需要排除没有感性特征、音乐表现不了的词,留下音乐能表现的,然后我们再把这些描述词的应用情景进行分类。
接下来就需要依据联觉对应关系,对这些描述词的感性特征进行前面说的声音五大表现元素赋值;之后,还要标定这个描述词的备选情景。比如“郁闷”这个词,我们需要列出这个词的使用情境。这是因为虽然联觉有共同性,但每个人的联想不相同,需要依照个人的经验来由听者自己选择适宜的情境。
最后实现这样的应用场景:
把一段音乐输入计算机,计算机就会自然反馈出来一些描述这段音乐带给人感受的词——这就是机器听懂了音乐的表现!
进一步的应用可以让听众选择自己偏好的联觉激发情景。
或者如果给计算机一个没有声音的场景片或广告,它能根据这个场景或广告的感性特征(当然这需要那个领域人工智能的配合)选出适合的配乐。
当我们也可以把自己的心情以各种各样的途径告诉计算机,然后计算机自动推给我们所需要的音乐。
音乐的机器理解的具体应用场景会非常多,到那时就是一个需要对应用场景的想象力了。
谢谢大家!
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )