法语是一种罗曼语,源自拉丁语,是古罗马帝国的官方语言。但是,法语并不是一成不变的,而是随着时间和地理而发生了变化。为了更好地了解法语的演变,一些研究人员利用了计算机科学和数学的方法,对法国历史上的书写方式进行了分析。
这项研究由法国国家科学研究中心(CNRS)和巴黎第六大学(Sorbonne Université)的数学家、计算机科学家和语言学家组成的跨学科团队进行。他们收集了从9世纪到20世纪的法语文本,包括诗歌、小说、报纸、政治演讲等,共计约1.2亿个单词。然后,他们使用了一种称为主题建模(topic modeling)的机器学习技术,来自动识别文本中的主题,并分析它们在不同时期和地区的分布。
主题建模是一种无监督的学习方法,它可以从大量文档中提取出隐藏的主题,并给出每个文档和每个单词对每个主题的相关性。例如,一个关于政治的主题可能包含“国家”、“民主”、“选举”等单词,而一个关于文学的主题可能包含“小说”、“诗歌”、“风格”等单词。通过这种方法,研究人员可以发现法语文本中存在的约150个主题,并观察它们如何随着时间和地理而变化。
研究人员发现,一些主题在特定的时期或地区比较突出,反映了历史和社会的变迁。例如,在18世纪末和19世纪初,与革命和民族主义相关的主题在法国大陆比较流行,而在加拿大则没有。另一个例子是,在19世纪末和20世纪初,与现代主义和象征主义相关的主题在法国首都巴黎比较流行,而在其他地区则没有。
这项研究不仅揭示了法语文本中的主题演变,还展示了计算机科学和数学在语言学研究中的潜力。通过使用机器学习技术,研究人员可以处理大量数据,并从中发现新的知识和模式。这种方法也可以应用于其他语言和领域,为人文社会科学提供新的工具和视角。
这项研究发表在2023年6月15日出版的《自然·人类行为》上。
https://phys.org/news/2023-06-written-france-analysing.html
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )