近期,由谷歌、卡内基梅隆大学和MultiOn组成的联合研究团队,发布了一项关于合成数据在大型模型训练中应用的重要研究成果。
专注于人工智能发展的研究机构Epoch AI报告指出,当前全球约有300万亿个公开可用的高质量文本训练标记。但随着像ChatGPT这类大模型的快速发展,对训练数据的需求呈指数级增长,预计在2026年之前,这些现有数据将被耗尽。在此背景下,合成数据成为了关键的替代方案。
研究人员着重探索了两种合成数据类型,即正向数据和负向数据。正向数据是由高性能大模型,如GPT - 4和Gemini 1.5 Pro生成的正确问题解决方案,为模型提供解决数学问题的范例。然而,单纯依靠正向数据进行训练存在明显局限。其一,这种方式可能无法让模型真正理解问题解决背后的逻辑,只是通过模式匹配来学习;其二,随着训练数据量的增加,模型可能会学到虚假的相关性,导致在处理新问题时泛化能力降低。
有鉴于此,研究人员引入了负向数据,也就是经过验证为错误的问题解决步骤。这能帮助模型识别并避免错误,从而增强其逻辑推理能力。尽管使用负向数据存在挑战,因为错误步骤可能包含误导性信息,但研究人员借助直接偏好优化(DPO)方法,成功让模型从错误中学习,并强调每个问题解决步骤的重要性。
DPO方法会为每个问题解决步骤分配一个优势值,以反映其相对于理想解决方案的价值。研究发现,高优势步骤是正确解决问题的关键,而低优势步骤可能意味着模型推理存在问题。基于这些优势值,模型能够在强化学习框架内动态调整策略,更高效地从合成数据中学习和改进。
为验证合成数据的有效性,研究团队选用DeepSeek - Math - 7B和LLaMa2 - 7B等模型,在GSM8K和MATH数据集上开展了全面测试。结果令人惊喜,经过正向和负向合成数据预训练的大模型,在数学推理任务上的性能提升了八倍。这一研究充分彰显了合成数据在增强大模型逻辑推理能力方面的巨大潜力,为大模型的发展开辟了新的方向。(Suky)
- 消息称英伟达计划在华独立运营 官方回应
- 华为擎云自主创新PC高效办公实测,快不止一点重塑政务办公生产力新格局
- 巨人网络一季度营收7.24亿元,同比增长3.94%
- 网络文学行业发布《反洗稿自律公约》:遏制AI滥用导致的抄袭
- 百望股份CEO付英波:以“数据智能”战略领跑“AI战国时代”
- 蚂蚁数科发布可信数据空间软硬一体解决方案 联合清华大学落地双碳场景
- “数据+场景”双引擎驱动,马蜂窝“AI游贵州”系列打造垂直场景实践新样本
- 马蜂窝孙云蕾:“数据+场景+智能体”推动目的地旅游产业化升级
- IDC:2024年下半年中国MaaS及AI大模型解决方案市场百度第一
- 华为笔记本Linux版换装Windows系统攻略:轻松开启高效办公
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。