新研究揭示：AI自生成内容的循环使用可能导致“模型崩溃”

人阅读

2024-09-05 10:08:58

来源：极客网
作者：小菲
相关关键词

极客网·人工智能 据《福布斯》9月4日报道，牛津大学的伊利亚·舒梅洛夫博士及其团队在《自然》杂志上发表的一项研究中指出，当AI系统仅依赖于由自身生成的内容进行训练时，其输出质量会迅速下降。

这种现象被称为“模型崩溃”，即AI在不断使用自身生成的数据进行训练后，其输出内容逐渐失去准确性和实用性。

研究显示，在经过五次连续的自我生成内容训练后，AI的输出质量显著下降；到了第九次，输出内容已经退化为毫无意义的文本。

舒梅洛夫博士指出，模型崩溃的发生速度之快和难以察觉的程度令人惊讶。最初，它可能只影响少数数据，但随后会逐渐侵蚀输出的多样性，最终导致整体质量的严重下降。

为了验证这一现象，研究人员采用了一种方法：他们使用了一个预训练的AI系统，该系统能够驱动一个维基百科的版本，并让AI基于自己生成的内容进行更新。结果发现，随着受污染数据的累积，原本的训练集逐渐被侵蚀，输出的信息质量也随之恶化。例如，在经过多次循环后，原本关于14世纪英国教堂尖顶的条目被错误地更新为关于短尾兔子的论文。

此外，AWS团队在6月的另一项研究中发现，大约57%的网络文本都经过了AI算法的处理。如果互联网上的人类生成内容被AI生成内容迅速取代，那么AI可能正面临“自我毁灭”的风险，同时也可能对互联网的内容质量造成严重影响。

研究最后建议，为了确保AI的长期可持续发展，必须确保其能够访问到非AI生成的内容，并持续引入新的人工生成内容，以避免模型崩溃的发生。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）