人工智能和机器学习中数据集的3大问题

原标题：人工智能和机器学习中数据集的3大问题

数据集为人工智能模型提供燃料，就像汽油（或电力，视情况而定）为汽车提供燃料。无论它们的任务是生成文本、识别物体，还是预测公司的股票价格，人工智能系统都是通过筛选无数的例子来 "学习"，以辨别数据中的模式。例如，计算机视觉系统可以被训练成通过观察某些类型的服装（如大衣和围巾）的不同图像来识别该服装。

除了开发模型，数据集还被用来测试训练有素的人工智能系统，以确保它们保持稳定--并衡量该领域的整体进展。在某些开源基准上名列前茅的模型被认为是该特定任务的技术水平（SOTA）。事实上，这是研究人员确定一个模型的预测强度的主要方式之一。

但这些人工智能和机器学习数据集--就像设计它们的人类一样--并不是没有缺陷的。研究表明，偏见和错误给许多用于训练、基准和测试模型的图书馆蒙上了阴影，突出了对未经彻底审查的数据给予过多信任的危险性--即使这些数据来自于知名机构。

1. 训练的困境

在人工智能领域，基准测试需要比较为同一任务设计的多个模型的性能，比如在语言之间翻译单词。在理论上，这种做法--起源于探索人工智能早期应用的学者--具有将科学家围绕共同问题组织起来的优势，同时有助于揭示已经取得了多少进展。

但是，在数据集选择方面变得也有风险。例如，如果相同的训练数据集被用于多种任务，那么数据集就不可能准确反映模型在现实世界中看到的数据。错误的数据集会扭曲对科学进步的衡量，导致研究人员认为他们做得比实际要好--并对现实世界中的人们造成伤害。

加州大学洛杉矶分校的研究人员和谷歌在最近发表的一项题为 "减少、重复使用和回收 "的研究中调查了这个问题。机器学习研究中数据集的寿命"。他们发现，在机器学习中存在 "大量借用 "数据集的情况--例如，从事一项任务的社区可能会借用为另一项任务创建的数据集--这引起了对错位的担忧。他们还表明，只有十几所大学和公司负责创建机器学习中50%以上时间使用的数据集，表明这些机构正在有效地塑造该领域的研究议程。

"追逐SOTA是不好的做法，因为有太多的混杂变量，SOTA通常并不意味着什么，而科学的目标应该是积累知识，而不是特定玩具基准的结果，"谷歌大脑团队的前驻场人员丹尼-布里茨在之前的采访中告诉媒体。"已经有了一些改进的举措，但是寻找SOTA是审查和评估论文的一种快速而简单的方法。像这样的事情已经嵌入到文化中，需要时间来改变"。

对于他们的观点，ImageNet和Open Images--来自斯坦福和谷歌的两个公开可用的图像数据集--在很大程度上是以美国和欧洲为中心的。在这些数据集上训练的计算机视觉模型在来自第三世界国家的图像上表现更差。例如，与来自美国的新郎相比，这些模型对来自埃塞俄比亚和巴基斯坦的新郎的分类准确率较低，而且当这些图像来自第三世界方时，它们不能正确识别诸如 "婚礼 "或 "调味品 "这样的物体。

甚至南北半球太阳路径的差异和背景景物的变化也会影响模型的准确性，相机型号的不同规格如分辨率和长宽比也会影响模型的准确性。天气条件是另一个因素--如果一个无人驾驶汽车系统只在阳光明媚的热带环境的数据集上进行训练，那么它在遇到雨雪天气时的表现就会很差。

麻省理工学院的一项最新研究显示，包括ImageNet在内的计算机视觉数据集包含有问题的 "无意义 "信号。在这些数据集上训练的模型受到 "过度解释 "的影响，这种现象是它们以高置信度对缺乏细节的图像进行分类，以至于它们对人类来说毫无意义。这些信号在现实世界中会导致模型的脆弱性，但它们在数据集中是有效的--这意味着过度解释无法用典型的方法来识别。

"麻省理工学院博士生、该研究的主要作者布兰登-卡特（Brandon Carter）在一份声明中说："有一个问题是，我们如何能够以一种方式修改数据集，使模型能够被训练成更接近于模仿人类对图像分类的思考方式，因此，希望在这些现实世界的场景中，如自动驾驶和医疗诊断，能够更好地进行概括，以便模型不会有这种无意义的行为。

历史上充满了部署使用有缺陷的数据集训练的模型的后果的例子，比如虚拟背景和照片剪裁工具，这些工具不喜欢皮肤较黑的人。2015年，一名软件工程师指出，谷歌照片中的图像识别算法将他的黑人朋友标记为 "大猩猩"。非营利组织AlgorithmWatch显示，谷歌的云端视觉API曾一度将黑人持有的温度计标记为 "枪"，而将浅肤色人持有的温度计标记为 "电子设备"。

模糊的数据集还导致了使性别歧视的招聘和雇用、年龄歧视的广告定位、错误的评分以及种族主义的累犯和贷款审批长期存在的模式。这个问题延伸到医疗保健领域，其中包含医疗记录和图像的训练数据集大多来自北美、欧洲和中国的患者--这意味着模型不太可能对代表性不足的群体产生良好的效果。这种不平衡在入店行窃者和武器识别的计算机视觉模型、工作场所安全监控软件、枪声检测系统和 "美化 "过滤器中很明显，它们放大了训练数据中存在的偏见。

专家们将面部识别、语言和语音识别系统中的许多错误也归因于用于训练模型的数据集的缺陷。例如，马里兰大学的研究人员发现，亚马逊、微软和谷歌的面部识别服务更有可能在年龄较大、皮肤较黑的人和那些不太 "女性化 "的人身上失败。根据算法正义联盟的声音消除项目，苹果、亚马逊、谷歌、IBM和微软的语音识别系统对黑人声音的单词错误率合计达到35%，而对白人声音的错误率为19%。而且，语言模型已被证明表现出对种族、民族、宗教和性别的偏见，将黑人与更多的负面情绪联系在一起，并与 "与黑人结盟的英语 "作斗争。

"加州大学洛杉矶分校的Bernard Koch和Jacob G. Foster以及谷歌的Emily Denton和Alex Hanna是 "减少、再利用和回收 "一书的共同作者，他们通过电子邮件告诉媒体，"数据[在某些情况下]是从网络上的许多不同地方刮来的，而这些网络数据反映了与霸权主义意识形态（例如白人和男性主导地位）相同的社会层面的偏见和偏差。"更大的......模型需要更多的训练数据，而且一直在努力清理这些数据，防止模型放大这些有问题的想法。"

2. 标签的问题

标签是许多模型学习数据关系的注释，它也带有数据不平衡的特征。人类对训练和基准数据集中的例子进行注释，在狗的图片上添加 "狗 "这样的标签，或者描述风景图片中的特征。但是注释者会带来他们自己的偏见和缺点，这可能会转化为不完美的注释。

例如，研究表明，一般的注释者更有可能将非裔美国人方言英语（AAVE），即一些美国黑人使用的非正式语法、词汇和口音的短语标记为有毒。在另一个例子中，麻省理工学院和纽约大学的8000万张微小图片数据集--该数据集于2020年下线--的一些标注者贡献了种族主义、性别歧视和其他攻击性的注释，包括近2000张标注有N字的图片以及 "强奸嫌疑人 "和 "儿童骚扰者 "等标签。

2019年，《连线》报道了亚马逊Mechanical Turk等平台--许多研究人员在这里招募注释者--对自动机器人的易感性。即使工人是可核实的人类，他们的动机是报酬而不是兴趣，这可能会导致低质量的数据--特别是当他们受到恶劣的待遇和低于市场价格的报酬。包括Niloufar Salehi在内的研究人员已经尝试通过Dynamo这样的开放性工人集体来解决亚马逊Mechanical Turk的缺陷，但他们能做的只有这么多。

作为人类，注释者也会犯错误--有时是重大错误。在麻省理工学院对包括ImageNet在内的流行基准的分析中，研究人员发现了错误的图像标签（如一个品种的狗被混淆为另一个品种），文本情感（如亚马逊产品评论被描述为负面，而实际上是正面），以及YouTube视频的音频（如Ariana Grande的高音被归为口哨）。

一个解决方案是推动建立更具包容性的数据集，如MLCommons的人民语音数据集和多语种口语语料库。但是策划这些数据集既费时又费钱，其价格往往高达数百万美元。Mozilla努力建立一个开源的转录语音数据集，自2017年推出以来，只审核了几十种语言--说明了这一挑战。

创建一个数据集如此昂贵的原因之一是高质量注释所需的领域专业知识。正如Synced在最近的一篇文章中指出的那样，大多数低成本的标签器只能注释相对 "低语境 "的数据，不能处理 "高语境 "的数据，如法律合同分类、医学图像或科学文献。事实表明，司机往往比没有驾照的人更有效地标注自驾游数据集，医生、病理学家和放射科医生在准确标注医疗图像方面表现更好。

机器辅助工具可以在一定程度上帮助消除标签过程中的一些重复性工作。其他方法，如半监督学习，有望减少训练模型所需的数据量，使研究人员能够在为特定任务设计的小型定制数据集上 "微调 "模型。例如，在本周发表的一篇博文中，OpenAI说，它设法对GPT-3进行了微调，通过复制人类在网上研究问题的答案（例如，提交搜索查询、跟踪链接和上下滚动页面）来更准确地回答开放式问题，并引用其来源，允许用户提供反馈以进一步提高准确性。

还有一些方法旨在用部分或完全的合成数据取代真实世界的数据--尽管在合成数据上训练的模型是否能与真实世界的数据对应的准确性相媲美，目前还没有定论。麻省理工学院和其他地方的研究人员已经试验过在视觉数据集中单独使用随机噪声来训练物体识别模型。

从理论上讲，无监督学习可以一劳永逸地解决训练数据的难题。在无监督学习中，一个算法被置于 "未知 "数据中，这些数据不存在先前定义的类别或标签。但是，虽然无监督学习在缺乏标签数据的领域表现出色，但这并不是一个弱点。例如，无监督的计算机视觉系统可以在未标记的训练数据中发现种族和性别的定型观念。

3. 一个基准问题

人工智能数据集的问题并不停留在训练上。在维也纳人工智能和决策支持研究所的一项研究中，研究人员发现3800多篇人工智能研究论文的基准不一致--在许多情况下，可归因于没有强调信息指标的基准。Facebook和伦敦大学学院的另一篇论文显示，在 "开放领域 "基准上测试的自然语言模型给出的60%到70%的答案隐藏在训练集的某个地方，这意味着模型只是记住了这些答案。

在纽约大学AI Now研究所的技术研究员Deborah Raji共同撰写的两项研究中，研究人员发现像ImageNet这样的基准经常被 "错误地抬高"，以证明超出其最初设计的任务的说法。据Raji和其他合著者称，这还不包括 "数据集文化 "会扭曲机器学习研究的科学性--缺乏对数据主体的关怀文化，造成恶劣的劳动条件（比如注释者的低工资），同时对那些数据被有意或无意地卷进数据集的人没有充分保护。

一些针对特定领域的基准问题的解决方案已经被提出，包括艾伦研究所的GENIE。与众不同的是，GENIE同时包含了自动和手动测试，让人类评估人员根据预定义的、针对数据集的流畅性、正确性和简洁性的准则来探测语言模型。虽然GENIE价格昂贵--提交一个模型进行基准测试的费用约为100美元--但艾伦研究所计划探索其他支付模式，例如要求科技公司支付费用，同时为小型组织提供费用补贴。

在人工智能研究界也有越来越多的共识，即如果基准要发挥作用，特别是在语言领域，必须考虑到更广泛的道德、技术和社会挑战。一些语言模型有很大的碳足迹，但尽管对这个问题有广泛的认识，相对来说，很少有研究人员试图估计或报告他们系统的环境成本。

"Koch、Foster、Denton和Hanna说："只关注最先进的性能，并不强调其他重要的标准，这些标准能体现出重大的贡献。"[例如，]SOTA基准测试鼓励创建对环境不友好的算法。建立更大的模型是提高机器学习性能的关键，但从长远来看，它在环境上也是不可持续的......SOTA基准测试[也]不鼓励科学家对他们的任务在现实世界中提出的具体挑战有细微的理解，反而会鼓励对提高分数的隧道视野。实现SOTA的要求限制了新的算法或能够解决现实世界问题的算法的创造。"

可能的AI数据集解决方案

鉴于人工智能数据集的广泛挑战，从不平衡的训练数据到不充分的基准，实现有意义的改变并不容易。但专家们认为，情况并非毫无希望。

普林斯顿大学计算机科学家Arvind Narayanan写了几篇调查人工智能数据集出处的文章，他说，研究人员必须采取负责任的方法，不仅要收集和注释数据，还要记录他们的数据集，维护它们，并制定数据集设计的问题。在他最近与人合著的一项研究中，Narayanan发现许多数据集容易出现管理不善的情况，创建者未能在许可证语言中准确说明如何使用他们的数据集或禁止潜在的可疑用途。

"他通过电子邮件告诉媒体："研究人员应该考虑他们的数据集的不同使用方式......负责任的数据集'管理'，正如我们所说，需要解决更广泛的风险。他通过电子邮件告诉媒体："一个风险是，即使一个数据集是为了一个看似良性的目的而创建的，它也可能在无意中被用于可能造成伤害的方式。数据集可能被重新利用，用于道德上可疑的研究应用。或者，数据集可能被用来训练或衡量一个商业模型，而它并不是为这些高风险环境设计的。数据集的创建通常需要大量的工作，因此研究人员和从业人员通常希望利用已有的数据。负责任的数据集管理的目标是确保这样做是符合道德的"。

科赫和共同作者认为，人们--和组织--需要得到奖励和支持，以便为手头的任务创造新的、多样化的数据集。他们说，需要激励研究人员在像NeurIPS这样的学术会议上使用 "更合适的 "数据集，并鼓励他们进行更多的定性分析--比如他们模型的可解释性--以及报告公平性（尽可能）和功率效率等指标。

NeurIPS--世界上最大的机器学习会议之一--规定提交论文的合作者必须说明他们的工作对社会的 "潜在广泛影响"，从去年的NeurIPS 2020开始。回升的情况有好有坏，但科赫和合作者认为，这是向正确方向迈出的一小步。

"机器学习研究人员正在创造大量的数据集，但它们并没有得到使用。他们说："这里的一个问题是，许多研究人员可能觉得他们需要包括广泛使用的基准，以使他们的论文具有可信度，而不是一个更小众但技术上合适的基准。"此外，专业的激励措施需要向创建这些数据集的方向看齐......我们认为研究界仍有一部分人对道德改革持怀疑态度，解决科学问题可能是让这些人支持机器学习评估改革的不同方式。"

数据集注释问题没有简单的解决方案--假设标签最终不会被替代物所取代。但谷歌最近的一篇论文表明，研究人员最好与注释者建立 "扩展的沟通框架"，如聊天应用程序，以提供更有意义的反馈和更清晰的指示。同时，他们必须努力承认（并实际考虑）工人的社会文化背景，共同作者写道--无论是从数据质量还是社会影响的角度。

该论文更进一步，为数据集任务的制定和选择注释者、平台和标签基础设施提供建议。共同作者说，除了审查数据集的预期使用情况外，研究人员应该考虑可以通过注释纳入的专业知识形式。他们还说，他们应该比较和对比不同平台的最低工资要求，并分析不同群体的注释者之间的分歧，让他们--希望--更好地了解不同的观点是如何被代表或不被代表的。

"如果我们真的想使使用中的基准多样化，政府和企业的参与者需要为数据集的创建创建拨款，并将这些拨款分配给资源不足的机构和来自代表不足的背景的研究人员，"科赫和共同作者说。"我们想说的是，现在有大量的研究表明，机器学习中的数据滥用会产生伦理问题和社会危害......科学家们喜欢数据，所以我们认为，如果我们能向他们展示过度使用对科学来说并不是好事，这可能会刺激进一步的改革，也能减轻社会危害。"

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

人工智能和机器学习中数据集的3大问题

下一篇