近日,由追一科技主办的首届中文NL2SQL挑战赛初赛结束。来自海内外的1457支队伍,经过1个多月的初赛角逐,决出30强队伍。来自国防科技大学、北京交通大学、国双科技、清华大学、哈尔滨工业大学等高校、企业的30支优胜团队,晋级下一阶段复赛挑战。
此次比赛,也是中文NLP领域首次举办NL2SQL主题比赛,并发布相关数据集,引起了业内和海内外广泛关注。自6月24日比赛启动以来,共有1457支队伍、1630名选手报名参赛,参与院校数达170所,其中227支队伍、318名选手提交成绩。广泛的参与,使得NL2SQL成为国内NLP技术比赛领域参赛规模最大的赛道之一。
挑战中文数据集
值得注意的是,本次比赛提出的NL2SQL中文数据集比英文数据集WikiSQL引入了口语化表达、结合表格内容、命名实体链接、更复杂的SQL语法等挑战,难度更高的同时也更贴近于真实应用场景,但在选手们的积极、多方探索下,短期内就已经可以达到与英文数据集上相当水平的分数。
近两个月的初赛过程中,选手们的方案一直持续刷新着本次比赛的新记录。
比赛初期,排行榜头部选手们的分数聚集在0.58左右,已经超过了比赛方所提供的baseline。随后,选手通过各种讨论、交流,加深对数据集理解,不断探索更优的方案,从而提高成绩,头部选手的分数很快突破了0.80大关。在8月12日初赛结束时,比赛榜上的头部分数已经达到0.89,已经接近WikiSQL的成绩。
比赛成绩的快速提升,充分体现出选手们的投入与方案的优秀,同时也侧面反映出,目前积累的许多技术方案都可以在NL2SQL这一个新任务上发挥作用,大家也意识到,只要有充分的数据来支撑,目前人工智能领域的方法论可以有效地为数据库乃至结构化数据提供自然语言的交互方式。
千支队伍挑战NL2SQL
任务上的创新、应用上的潜力,NL2SQL比赛一经推出,就受到了学界和工业界的广泛关注。
据了解,本次1457支参赛队伍中,院校和企业参与者各占“半壁江山”。其中,学生及科研人员占比48%,企业技术员工占比52%。学生参赛队伍来自众多知名院校,如北京大学、清华大学、复旦大学、上海交通大学、南京大学、浙江大学、中国科学技术大学、哈尔滨工业大学、西安交通大学等。
虽然本次比赛的数据内容是中文形式,但仍然吸引了美国、英国、新加坡、日本、澳大利亚、加拿大等海外顶级院校参与,包括卡内基梅隆、墨尔本大学、新加坡国立大学、南安普顿大学、新南威尔士大学、布里斯托大学、昆士兰大学等。
作为新兴NLP研究任务,NL2SQL在专业难度上,也对选手提出较高要求。据了解,本次参赛选手中,硕士及以上学历占比57%,其中,博士学历占比6%;而专业分布上,计算机科学专业背景的选手则属于参赛主力。
应用潜力吸引名企参赛
值得注意的是,NL2SQL挑战赛,还吸引了众多的企业技术人员参与。
来自中国移动、平安集团、搜狗、达闼科技、中兴通讯、网宿科技、国双科技、捷通华声等众多企业的技术人员,也成为参赛队伍的重要力量。
“此次挑战赛参与规模远超预期,显示出NL2SQL在学术和工业应用上的潜力,数据库的交互创新,正在受到越来越多关注。”追一科技联合创始人兼CTO刘云峰博士表示,追一科技将与更多院校、企业界同仁携手,共同推动中文NLP研究与应用突破。
据了解,中文NL2SQL挑战赛复赛将于8月19至9月9日进行。复赛阶段采用线上运行的方式来进行评测,测试集不可下载,并且内容对选手不可见。同时,测试集在保证数据分布与初赛测试集一致同时,加入更多在初赛中没有出现过的表格数据,届时,将对选手方案提出更高挑战。而复赛胜出者,将会参加10月份的最终决赛。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。