祝大家端午节快乐,我们今天要聊的…..什么?不能说快乐了?显得没文化?
哦,那祝大家端午节安康,咱们今天……什么?端午节安康都是一群营销号瞎忽悠的,相信他们还是没文化?
到底还能不能好好说话了?要不我干脆祝大家端午节多吃月饼得了?
放眼望去,这个折腾了几年,某种程度上近乎于闹剧的“端午节安康”问题,在今年非但没有停下来的意思,反而矛盾愈演愈烈,一时间好不热闹。也不知道是不是已经有了“安康快乐对骂群”,反正整体上是感觉这事挺耽误大家吃粽子的时间的。
在我们这行业看来,当然是一切能动科技的都别瞎吵吵。既然到了相持不下的境地,是不是可以考虑用相对公允的方式来解决无止境的争论呢?毕竟安康派和保快乐党都说自己是传统文化,既然是传统总归是有据可循的。
今天是个思古的日子,不妨让我们从安康和快乐的问题开始,来聊聊AI+考据的“怀古之思”。
到底争的是什么?
安康派之所以诞生,是因为前两年突然朋友圈里有这么个说法火了:端午节是纪念屈原,或者纪念伍子胥、纪念曹娥的。总之这是个祭祀和哀伤的日子,不能说快乐。这个说法很快流行起来,比如今天大部分明星发的端午节微博,似乎“安康”已经成了标准说法。
根据凡事必有反转的互联网定律,随后也有人认为这种说法纯属无稽之谈。端午节快乐说了那么多年,我想快乐就快乐还用你批准?于是,争论最终很自然地变成了争吵,两边都觉得自己是更符合传统文化的一方。
首先笔者非常想要感慨的是,整个话题中最大成分只是营销号恶意蹭流量,以及广大网友们进行喜闻乐见的“抬杠运动”,真没什么意思。
而实事求是地说,现在能找到最早过端午节传统的记载,是唐代《艺文类聚》保留《续齐谐志》中南朝时期的民间节日风俗,在端午这天为纪念屈原而系五彩绳、包粽子。换言之端午节最早出现在可追溯的历史文本中,它就是以一个有吃有玩的节日出现的。而早期文本,比如出现屈原其人其事的《史记》,据说为屈原创作的《楚辞》,都没有过任何五月初五相关的记载。
作为一个节日的端午,自然也承担着一个节日的气氛和话语定位。唐宋时对端午节、端阳节的记载,也基本是把酒言欢为主。当然这是个追怀的日子,但也没见过一定要在这个日子肃穆庄严的记载。很多历史学教授专家,也对安康说不屑一顾。
话说回来,重阳是避灾躲难的,那也有“佳节又重阳”。而今天肯定没有人祝邻居“清明节快乐”,但在古人来看清明本就是郊游玩赏值得开心的日子。程颢《郊行即事》是这么说的,“莫辞盏酒十分劝,只恐风花一片飞。况是清明好天气,不妨游衍莫忘归”。
或许可以这么说,所谓的中华传统,远比我们今天的互联网氛围宽怀大度的多。
好吧,一不小心暴露了立场。但是我们还是要强行回归中立客观:既然你有你的道理,我有我的道理,那到底怎么能彼此不抬杠呢?
或许AI可以在这里刷一个助攻。既然整个安康和快乐之争,争论的核心是:固定文本环境中(代表中国历史传统的文本数据,包括但不限于经史古籍),某种涵指解读(端午节到底是不是值得庆祝的)的正确性。
那么用把所有相关数据都找出来,判断一下古人到底能不能在这天快乐,似乎就是解决方案了。
AI搞清“端午到底快不快乐”实现方法
或许有人会说,这事好像用不着AI,把古籍数据里的端午节记载都搜出来。一看不就知道了吗?
想法固然是好的,但现实从来都很骨感。首先中国古籍系统当中,《四库全书》所代表的经史系统其实只是很小一部分。各种文书、档案、民间文本、吉金、出土资料,加在一起汗牛充栋都不止。假如只是用关键词搜索,或者只是用部分古籍库来完成文本方式,那么肯定无法完成完全的数据统计,从而得到的结果当然也就片面。
假如我们搜找了100个“端午快乐”的数据源,但是安康派认为还有200个反例没找到,那岂不是白忙?
而假如面对全部古籍数据(包括未电子化数据),来进行一个问题的全面求证。那么人力是完全无法负担的,而且也一定会有大量纰漏。比如说有些小众的端午节说法、隐晦的端午节记载描述难以被人发现。而且群体工作也很难形成对端午节到底是不是端康的准确标准。
假如让AI进场,至少可以解决这样几个问题:
1、确定我们要分辨的问题“端午节到底是值得庆祝的,还是反之”以后,我们可以用机器学习的方式输入大量双方观点,来形成对端午节到底应该怎么过的标准化描述。基于文本来抽取关键节点,从而准确判断一条古人过端午的记载到底是快乐的还是不能快乐。
2、非标准文本的识别。如今OCR等识别技术,已经广泛被应用到金石资料、敦煌文献、手写文档的识别中。如果我们想最大程度搞定到底端午是否快乐,就无法离开对非标准文本的识别工作,传统的文本录入方式完全是基于手工大字。早期很多中文古籍库还是以众包的方式交给本科生来录入,造成讹误百出。AI来做这些,显然在效率和准确度上都已经有了技术保障。
3、弹性判断相关数据。人工判断端文本特征的时候,很可能会漏掉一些不常见描述,很多时候这不是因为研究人员不知道这件事,而是由于大脑的选择性记忆误差,天然会漏掉不那么敏感的说法。而AI的优点是可以弹性判断相关数据,比如不说端午节,而是端阳,午日,重五,女儿节,浴兰,地腊等字眼,或者非关键词的描述形式,都可以有效处理。
4、综合感知,判断“良品率”。工业互联网技术中,一个很常见的方式是机器视觉加传感器,来综合判断出产品的质量。通过复杂的算法模型,最终得出是否良品的确定性标准。在文本温习中,类似使用GAN等算法来进行语义分析,判断一个语句含义归属的方式,显然也是可行的。比如上文中“喜逢佳节,端午良辰”,这个说法显然就是“端午快乐”。
其实吧,以上只是个例子,也没有谁会较真到去大张旗鼓统计端午到底快不快乐。这些技术的真正内涵,是一个人文学术与AI的交叉点:AI考据。
比抬杠重要:AI带给文本考据的机会与挑战
AI与考据的结合,显然比端午节问候的抬杠重要很多。这项技术在今天世界范围内还属于刚刚起步的阶段,但绝对不是无中生有。
在AI考据之前,是很多人熟悉的“E考据”概念。这个解决方案是以互联网和大数据为基础,从古籍电子化开始,用相对人力更有效率的方式来透视人文文本,甚至得出不一样的结论与分析逻辑。这个领域的代表人物,可以说是台湾的黄一农院士,其用《红楼梦》相关文献与清史文本结合,得到的成果令人耳目一新。
但E考据的局限性,在于它仅仅解决了考据第一步的问题:数据庞大。而面对庞大的数据和不同层次的文本,能否用技术取代进一步的人工,则成了考据学发展中的下一个话题。
考据的本质是什么?乾嘉学派代表人物王引之,在评价其父王念孙的治经之道时,总结为“诸说并列,则求其是,字有假借,则改其读”,充分体现了考居家的工作依据:音、形、义之间的转换与互通。
让智能体实现对语境的理解和跳出跳入,显然是仅仅依靠数据技术所无法达到的。那么AI技术也就成为了接下来文献学与历史学发展中,可以相互融合的技术手段。
马创新等所著的《中文古籍数字化的开发层次和发展趋势》中,谈到下一步电子考据与古籍开发的任务,是解决古籍内容的深层语义标注和知识检索方法。那么其能凭借的核心,似乎也仅仅是AI而已。
在电子文本分析中,AI可以让尝试,至少是帮助研究者摆脱对关键词考据的依赖,实现主动对文本含义的辨别、搜求,与多重内涵确认。这是其他技术所无法复制的。
当然即使这项技术很有用。摆在今天人文科学,尤其是文献学研究面前的挑战也非常艰巨:想要让AI技术、硬件环境与人文素养与研究能力结合,今天似乎很难有这样的跨学科人才与研究环境。而且即使是技术相对简单,效果很清晰的E考据,在传统人文研究领域面前,走的也是举步维艰。
更多现实应用场景
上面这些考据学的相关内容,可能相对有点生涩。那么最后我们不妨看看几个AI+文本考据可能带给大众的能力释放:
1、文本溯源。其实相比于端午安康的合理性,我更好奇的是这个说法是谁编出来的。而今天显然经常有这样的问题,谣言、不实信息这类的有害信息。或者一个精彩段子,一个奇思妙想的真正作者;一个文本如何被改的面目全非;一篇报道有没有断章取义,这些场景都会让我们想要溯源文本,看看最初的文本模样。这就需要成熟的AI文本考据来实现,至少是作为辅助文本溯源的方案之一。
2、问答式搜索。今天搜索引擎已经有了问答式搜索的功能,但很显然,这还仅仅是个雏形。因为大量垂直问题和具体问题,是搜索引擎的知识图谱技术无法侦测到的。而发展AI文本考据技术,可以让算法主动连接海量文本,去识别深处归纳出答案,这对于知识的传播价值巨大。
3、过往文本加链。区块链很火爆的时候,一个被提及的重要场景是电子合约与文本著作权保护。但加链技术仅仅能保存新文本。如果我们想对过往文本,比如说以某人的聊天信息、某个网站发布的谣言等等进行加链,保留不可更改的证据逻辑时,就需要涉及到对过往文本的识别与分析处理。这也是AI与区块链相结合的一个可能性。
说了不少,其实我们是想借端午安康这个梗,来谈一个平时谈比较晦涩,但其实十分重要的AI技术类别。说到底,安康还是快乐,又有什么关系呢?最好的端午节解释,当然是闻一多先生说的那样:只要屈原的精神在就行了。
而在笔者这样的吃货看来,只要粽子是甜的就行了……
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与极客网无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。