蚂蚁集团CTO：大模型乱象源于数据贫瘠，亟需打破幻觉

人阅读

2025-05-17 16:45:24

作者：极客AI
相关关键词
- 蚂蚁集团
- 何征宇

随着人工智能（AI）的快速发展，大模型已成为当前的研究热点。然而，近期出现的大模型乱象，引发了业界对AI发展的担忧。对此，蚂蚁集团首席技术官何征宇在OceanBase开发者大会上指出，大模型乱象的源头是数据贫瘠，亟需打破幻觉。

首先，何征宇指出，没有数据就没有AI的发展，数据的边界决定了大模型的能力上限。随着AI的发展，数据的地位日益凸显。然而，目前廉价的互联网数据即将用尽，导致数据的获取成本增加，这使得数据的获取、处理和评估成为了一项挑战。

其次，何征宇强调了严谨的行业数据稀缺且流动困难。行业数据是理解特定领域的重要信息来源，然而，由于数据隐私和安全问题，许多行业数据无法公开流通。这使得企业在应用大模型时，难以获取到足够、准确、全面的行业数据，进而影响了大模型的性能和效果。

再者，多模态数据处理难也是一大挑战。多模态数据是指包含多种信息形式的数据，如文本、图像、音频等。如何有效地处理多模态数据，将各种信息形式转化为大模型可以理解和利用的形式，是一项极具挑战性的任务。

最后，数据的质量评估难也是一大问题。高质量的数据是训练出优秀大模型的基础。然而，如何准确、客观地评估数据的质量，是一项极具挑战性的任务。目前，大多数方法都是基于人工评估或基于统计方法的简单评估，这无法保证评估的准确性和可靠性。

面对这些挑战，何征宇认为，未来企业成功与否，将主要取决于如何产生数据、应用数据。企业需要积极探索新的数据源，提高数据的收集、处理和评估能力，以更好地支持大模型的训练和优化。同时，企业也需要关注数据的隐私和安全问题，确保在获取和使用数据的过程中，遵守相关的法律法规和伦理标准。

在技术方面，蚂蚁集团将支持OceanBase在金融、医疗、生活等蚂蚁AI的核心场景的突破。金融、医疗和生活是三个重要的领域，拥有大量的数据资源和独特的应用场景。OceanBase作为一家具有全球影响力的数据库厂商，已经在这些领域积累了丰富的数据和业务经验。通过将这些经验应用于蚂蚁AI的核心场景，OceanBase有望进一步推动大模型的研发和应用。

同时，蚂蚁集团将继续支持OceanBase开源开放，推进AGI梦想的实现。AGI是人工智能的终极目标，即实现具有人类智慧水平的人工智能。通过开放和共享技术成果，OceanBase将吸引更多的开发者和技术社区参与进来，共同推动人工智能技术的发展。

总的来说，大模型的研发和应用是一项极具挑战性的任务。面对数据贫瘠、行业数据稀缺、多模态数据处理难和数据质量评估难等挑战，我们需要积极探索新的解决方案和技术手段。蚂蚁集团作为一家具有全球影响力的科技企业，将不断投入研发资源，积极探索新的技术手段和应用场景，以更好地支持大模型的研发和应用。

在未来的发展中，我们期待看到更多的技术创新和突破，为大模型的研发和应用带来更多的可能性。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）