泰岳语义工厂让NLP技术赋能应用开发
2019-01-26刘大双
自然语言处理是刚需,只要我们的企业、我们的客户希望用人工智能技术来赋能行业应用,就离不开对自然语言的处理。
—北京神州泰岳软件股份有限公司AI研究院首席架构师刘大双
很高兴有机会和大家分享神州泰岳在自然语言处理方面的工作。越来越多企业已经意识到,可以用人工智能技术手段为行业应用赋能。
而今,自然语言处理是刚需,只要我们的企业、我们的客户希望用人工智能技术手段为行业应用赋能,就离不开对自然语言或者对文本的处理。同时,自然语言处理也是一个高频需求。但是,自然语言处理的痛点到底在哪里呢?
第一,自然语言处理的技术门槛高。
第二,自然语言处理的人才成本相对比较高,维护一定规模的团队代价非常高。
第三,自然语言处理的效果很难保证。
那么,神州泰岳是如何为市场提供一个自然语言处理分析平台的呢?
首先,我们来看一下,业界的重量级友商BAT在自然语言处理方面做了哪些努力?
BAT首先做的一件事是开放平台,以输出技术框架和基础技术为主,授人以渔。
百度云提供Paddl e Paddl e深度学习框架,提供词法分析、依存句法分析等13项基础服务,提供文本审核、机器翻译、服务机器人场景服务。
阿里云提供机器学习PAI,提供分词、词性标注等8项基础服务,支持机器翻译场景。
腾讯云提供云智AI平台及应用服务,提供词法、句法分析等4项基础服务,支持机器翻译、内容理解场景。
用户可以利用这些技术接口开发满足业务需要的NLP应用,NLP应用开发依然需要用户具有一定的专业知识,而且效果无法保证。
基于以上考虑,我们泰岳语义工厂让NLP技术赋能行业应用开发,授人以鱼。泰岳语义工厂为什么要这样做?
第一,全面性。泰岳语义工厂可以提供一个比较全面的基础技术和应用场景服务,涵盖NLP基础技术、领域场景、数据服务共200多项。
第二,专业性。泰岳语义工厂聚焦于中文语义分析技术积累20多年,具有中国特色自然语言处理的能力。
第三,场景化。泰岳语义工厂提供16个行业领域、140多个场景化服务,我们在140多个场景之外也提供了相关数据服务,可以提供数据代加工,如果客户希望我们帮他进行加工的话,我们也可以提供相关的服务。
第四,应用开发。泰岳语义只需一次调用,开放文本变结构化数据。比如,对裁判文书的解析,只需输入裁判文书,便可得到40多项数据解析,可以把裁判文书的要素准确解析出来。
泰岳语义工厂可以提供最专业、最全面、最便捷、性价比最高的语义分析服务,泰岳语义工厂的自然语言处理技术,以国家中文信息处理业务将近20年的一个研究成果为基础。所以,我们可以把泰岳语义工厂叫做自成一派中文信息处理技术。
泰岳语义工厂可以提供场景应用服务、数据服务、NLP基础服务。
场景应用服务包括银行、政府、互联网、电商、证券、保险、企业应用、运营商、定制化等场景应用服务。
数据服务包括语义资源服务、深度学习模型、数据资源服务、数据加工服务等。
NLP基础服务包括深度学习、信息抽取、情感计算、自动写作等。
整个泰岳语义工厂底层平台采用的是专利的开发工具,我们把它叫做OEC开发工具,这是专利技术平台,以这个平台来开发泰岳语义工厂,可以保证泰岳语义工厂的技术先进性。
泰岳语义工厂在研发和交付方面不敢自称是国内投入最大的,但是,泰岳语义工厂在NLP领域在国内较为领先。
泰岳自然语义处理技术自成一派:
第一,基于概念计算的智慧语义认知技术,拥有20年的技术积累,200多项发明专利。
第二,强大的研发、交付团队,ACL终身成就奖获得者李生教授指导100人研发、500人交付。
第三,自然语言处理技术得到业界认可,客户涵盖金融、公安、电信、能源、交通等领域。
第四,丰富的语料资源,Chi nese Wor d Vec t or s目前是最全的中文预训练词向量集合。
第五,Di nf o-OEC非结构化文本分析挖掘平台,专利产品保证语义工厂的技术优势。
接下来,和大家分享一下泰岳语义工厂的商业模式。泰岳语义工厂希望成为企业用户、行业用户的NLP引擎,希望作为内核为企业用户、行业用户提供NLP服务,希望为企业客户的行业应用赋能。泰岳语义工厂让线上和线下相结合,线上为客户提供Saa S服务平台,线下通过与行业合作伙伴合作的方式为客户提供OEM授权,并为行业应用开发赋能;泰岳语义工厂让能力和数据相结合,我们以输出能力为主,同时我们也展开数据合作,包括自身数据积累,以及为客户使用数据加工服务。总之,泰岳语义工厂希望成为行业应用客户的NLP引擎。