首届中文NL2SQL挑战赛收官产学研携手推动智能交互快速发展
2019-12-10
文/本刊记者 陈 杰
筹备8个月,初、复赛鏖战3个月,千支队伍角逐,首届中文NL2SQL挑战赛结果揭晓。
10月12日下午,由追一科技主办、南京大学计算机软件新技术国家重点实验室协办的“首届中文NL2SQL挑战赛”总决赛答辩暨颁奖典礼在南京大学举行。经过最终决赛的5强选手队伍精彩分享、答辩和现场评委考评,决出最终名次。来自国防科技大学的选手团队“不上90不改名字”夺得冠军,国双科技选手团队“BugCreater”获得亚军,观安信息与妙盈科技选手联合团队“Model S”获得季军,来自华南理工大学与佛罗里达大学的选手队伍“大佬带我飞”,以及浙江大学的团队“老哥们不放假吗”则获得优胜奖。
首次举办、首次发布中文数据集,短短几个月,选手们的成绩,已经超过了国外WikiSQL,直奔“九十分”,让众多评委感觉“惊喜”。最终的现场答辩对决,让之前的短暂排名,再生悬念。
由众多人工智能大咖组成的专家评委团,包括中国移动研究院首席科学家冯俊兰、复旦大学教授肖仰华、新加坡南洋理工大学副教授毛可智、南京大学教授俞扬、追一科技CTO刘云峰等产学研多方代表,在决赛现场对选手们的技术方案,进行了专业精彩的分析点评,从而产生最终结果。从AI与数据库交互,到更广阔的创新空间,自然语言处理的“技术大年”味道越来越浓。
“此次挑战赛参与规模、选手表现远超预期,显示出NL2SQL在学术和产业应用上的潜力,数据库的交互创新,正在受到越来越多关注。”追一科技联合创始人兼CTO刘云峰博士表示,追一科技将与更多院校、企业界同仁携手,共同推动中文NLP研究与应用突破。
NL2SQL(自然语言转结构化查询语句)作为新兴的研究领域,在国外由SalesForce耶鲁大学等发布了WikiSQL和Spider数据集,但在国内市场,目前还处于起步阶段。
此次NL2SQL挑战赛是国内首次举办,期间,追一科技发布了业内首个大规模的中文数据集,包括4870张表格数据、近50000条标注数据以及相应的SQL语句,并获得很多学界专家、产业界伙伴的支持,通过“产学研”等多方联动,希望提供一个平台,来推动NL2SQL的研究和应用。
“直接用自然语言访问关系型数据库一直是业界梦想”,嘉宾评委代表肖仰华表示,随着对大数据价值的重视,这一愿望更变得日益迫切。此次比赛的发起和中文数据集的公布,在短短的时间里,加速了NL2SQL研究设想的实现,“最终选手的成绩,完全超出了我们对于比赛的预期。”
经过选手的不断努力与探索,比赛任务短期内就达到与英文数据集上相当水平的分数,并持续刷新记录。比赛初期,准确率尚为60%多,至8月份初赛结束时,榜上头部分数已经达到89%,接近WikiSQL成绩。复赛结束时,选手最高成绩达到92%,并且,最终晋级决赛的5支队伍,个个都在“90分”以上。
据了解,本次1457支参赛队伍中,院校和企业参与者各占“半壁江山”。其中,学生及科研人员占比48%,企业技术员工占比52%。学生参赛队伍来自众多知名院校,如北京大学、清华大学、复旦大学、上海交通大学、南京大学、浙江大学、中国科学技术大学、哈尔滨工业大学、西安交通大学等。
虽然本次比赛的数据内容是中文形式,但仍然吸引了美国、英国、新加坡、日本、澳大利亚、加拿大等海外顶级院校参与,包括卡内基梅隆、墨尔本大学、新加坡国立大学、南安普顿大学、新南威尔士大学、布里斯托大学、昆士兰大学等。
作为新兴NLP研究任务,NL2SQL在专业难度上,也对选手提出较高要求。据了解,本次参赛选手中,硕士及以上学历占比57%,其中,博士学历占比6%;而专业分布上,计算机科学专业背景的选手则属于参赛主力。
在如火如荼的比赛背后,NL2SQL应用潜力,也受到了越来越多的瞩目。来自中国移动、平安集团、搜狗、达闼科技、中兴通讯、网宿科技、国双科技、捷通华声等众多企业的技术人员,也成为参赛队伍的重要力量。
“此次挑战赛参与规模远超预期,显示出NL2SQL在学术和产业应用上的潜力,数据库的交互创新,正在受到越来越多关注。”刘云峰博士表示,中文NLP研究与应用突破需要产学研界的同共努力。