基于XBRL的自然语言语句的形式化标注研究
2017-12-19孙凡苏垚开
孙凡+苏垚开
【摘 要】 为了提高机器对自然语言的理解能力,以语义形式化为切入点,研究了基于可扩展商业报告语言(XBRL)的自然语言语句的形式化标注问题。研究表明,自然语言句子的语义表达模式灵活多样,其语义需要分别从词汇意义、语法意义、其他意义等方面加以理解; XBRL的技术体系结构具有可扩展性,通过扩充基础规范,重构分类标准,增加新元素,基于XBRL技术可对自然语言的语句进行形式化标记,进而提高机器对自然语言的理解能力。
【关键词】 自然语言语句; 形式化标注; XBRL
【中图分类号】 H102 【文献标识码】 A 【文章编号】 1004-5937(2017)24-0070-04
当今社会已进入大数据时代,大数据及其应用将会引起人类社会的又一次革命[1]。大数据具有容量大(Volume)、种类多(Variety)、流动速度高(Velocity)、真伪混杂性(Veracity)等特征,是使用常规的工具难以处理的数据集合[2]。之所以难以用常规的工具处理大数据,主要是因为大数据中含有大量的非结构化数据,而非结构化数据中相当大的一部分是来自于社交媒体的自然语言[3]。长期以来,人们试图让计算机等智能设备代替人类理解并处理自然语言,但实践证明,由于存在语言现象无限而可利用的計算资源有限的矛盾,自然语言是一种难以用机器理解的语言[4-5]。而语言标注是一种对语言数据进行识别、选择和归类的工作,既能将语言数据中隐藏的意义显式地表现出来,也能按照不同的使用需求对语言数据进行标准化处理,有助于将自然语言转换为易于机器理解的数据[6]。被誉为互联网女皇的玛丽·艾克在《2014年互联网趋势报告》中提出,从2014年开始,应用大数据解决各类问题的趋势将显现,但现有的通用数据中有34%的信息具备研究价值,其中只有7%的数据被做了标注,被分析过的只有1%[7]。由此可见,为了便于对大数据进行分析使用,数据标注具有重要的作用。XBRL是适用于商业报告领域的一种国际化的标注语言,目前已在多个国家的金融监管、财政监管和税务监管领域得到应用[8]。如果能用XBRL标注自然语言,这将为提高其在机器智能领域中的可用性创造非常有利的条件。本文的贡献在于以语义形式化为突破点,提出了改进自然语言语句可用性的方法,并用扩展的XBRL作为标记语言,将有助于推动自然语言在计算机智能领域中的应用。
一、自然语言语句的语义组成
自然语言主要由句子构成。语言学研究认为,语义是语言的意义内容,它是客观现实地在人的意识中的反映。鉴于自然语言语句的语序灵活,依据传统的依存树投射现象原理不能解决某些句式的语义理解问题[9-10],本文拟从语义分解与组合的视角出发研究自然语言语句的形式化标注问题。
本文的研究前提是句子的基本语义可分为词汇意义、语法意义和其他意义三大类,这三大类语义组合起来可以完整地反映句子的含义;同时总可以找到不同的标注元素组合来表示各种自然语言语句的语义,标注方式(标注元素及其组合)与语句语义可以实现一一对应的关系。
(一)词汇意义
词汇是自然语言的建筑材料,由词和熟语组成[11]。词是音义结合的、语法上定型的、能独立运用的最小语言单位。熟语作为常用固定组合,语音和谐,语义结合紧密,是语言中独立运用的词汇单位。无论是词还是熟语,都有一定的意义,统称为词汇意义。词汇意义是对客观现实抽象、概括的反映,一个词汇意义概括一类现象。
(二)语法意义
语法是语言的组织规律,是人类思维长期思考的结果。语法用来组织语言中的词汇单位,是语言的“建筑法”。语法意义是指用词造句时产生的词与词之间的关系[12],包括三种基本类型:(1)语法范畴意义,如性、数、格、时、人称、体、态等用一定的语法形式①表达的各种语言中共有的意义;(2)语法功能意义,如主语、谓语、定语等句子成分意义;(3)句法结构意义,如陈述句、疑问句、祈使句等句型意义以及变式句、省略句等句型转换意义。
(三)其他意义
其他意义是指除了词语意义和语法意义以外,一个语句可能具有的其他语义,包括修辞意义、语境意义等。修辞意义是指通过采用特别的语言手段而使句子所体现出的感情色彩、语体色彩、联想色彩等[13];其中感情色彩反映人们对客观现实的主观评价和态度,语体色彩是指语言使用随环境而异产生出的书卷语体、谈话语体、艺术语体和科学语体等一系列使用语言材料的特点,联想色彩是从词汇意义的联想而产生的预示或者氛围的语言使用技巧。语境意义包括上下文意义和社会文化意义两种;上下文意义是指一些语言单位在具体的言语环境下所具有的特别意义,社会文化意义则指一些语言单位的含义与社会文化背景有关。语境意义在使用语言时产生,附着在语言材料之上,受言语环境制约。
二、自然语言语句的语义形式化方法
由于自然语言语句在使用中容易产生歧义现象[14],所以要进行快速准确处理,必须首先把自然语言语句所蕴涵的语义采用形式化的方法加以描述,其次用适当的标记语言把这种描述标记成为计算机可以识别的数据,然后通过特定的程序让计算机处理这些标记数据,最终实现提高自然语言可用性的目标[15]。自然语言语句语义表达形式化的目标是对不同的句子语义用不同的标注元素组合描述,使标注方式(包括标注元素及其组合)与句子的具体语义一一对应起来。
(一)词汇意义的形式化
所谓词汇意义的形式化是指用不同的标注元素组合表示不同的词汇意义,使两者之间具有一一对应的关系。句子所使用的词汇包括实词和虚词两大类,实词的意义能够独立表达,虚词的意义不能独立表达,需和实词结合起来表达[16]。无论是由实词还是由实词与虚词组合而成的词汇,从其所代表的意义来看,可分为单义词和多义词两种类型。单义词容易满足语义与描述方式一一对应的原则,多义词不符合这种原则,需要借助于多义词在句子中所具有语法意义和修辞意义来联合描述其语义,实现一一对应的形式化要求。endprint
(二)语法意义的形式化
所谓语法意义的形式化是指用不同的标注元素组合表示不同的语法意义,实现标注方式与语法意义之间的一一对应关系。由词汇组成句子要遵循一定的搭配规则,这些规则体现为句子的语法意义。句子语法意义的表达需通过语法分析的途径来实现,主要的语法分析途径包括语法范畴分析、语法功能分析以及句法结构分析。每种途径下有若干分析对象。如语法范畴途径下包括性、数、格、时、人称、体、态等多种对象;语法功能途径下包括各种句子成分分析对象,如主语、谓语、定语等具体对象;句法结构途径下包括各种句型分析对象,如陈述句、疑问句、祈使句、变式句、省略句等对象。利用这些对象来描述句法意义能够满足形式化的要求。
(三)其他意义的形式化
其他意义的形式化包括句子修辞意义的形式化和语境意义的形式化等。
修辞意义的形式化是指用不同的标注元素组合表示不同修辞意义,实现标注方式与修辞意义之间的一一对应关系。修辞意义的形式化可通过对修辞手法的描述来实现,修辞手法可分为感情色彩手法、语体色彩手法、联想色彩手法等。
语境意义的形式化是指用不同的标注元素组合表示不同的语境意义,使两者之间具有一一对应关系。语境意义的形式化可通过对语境意义的构成要素的描述来实现。语境意义由社会文化意义和上下文意义构成。社會文化意义可由时代、国别、政治、经济、法律、文化等子元素来表示,不同的社会文化意义通过不同的子元素组合实现。上下文意义可由时间、地点、相关者、动机、方式等子元素来体现,同样,不同的上下文意义由不同的子元素组合来实现。
三、自然语言语句语义形式化的标记
在实现了句子意义的形式化标注目标后,还需要用适当的标记语言对这些描述方式进行一对一标注,便于计算机处理。XBRL是来源于XML的一种用于商业报告领域的标记语言,由XBRL国际组织②于2000年推出,我国标准化管理委员会于2010年将其吸纳为国家标准③。相对于XML,XBRL标准增加了面向元素语义解读的扩展链接库,这为实例文档的语义形式化提供了可能性,目前已在多个国家的金融监管、财政监管和税务监管领域得到应用[17-18]。XBRL的性能是由其技术体系结构决定的,现行的XBRL技术采用了“积木式”和“可插拔式”的体系结构,为未来的扩展预留了空间[19]。所谓“积木式”是指XBRL技术体系采用层叠型的结构,按照XBRL国际组织所颁发的XBRL技术规范,XBRL技术体系结构分为三层:语法规范层、分类标准层和实例文档层,其中每一层根据需要还可以分为若干子层,比如目前我国把分类标准层划分为企业通用分类标准和扩展分类标准两个层次,扩展分类标准又可分为行业扩展分类标准、监管扩展分类标准和企业自行扩展分类标准。所谓“可插拔式”是指XBRL的语法规范和分类标准层可分别由多个相互独立的模块组成。这些模块可根据需要随时添加以适应新的使用要求。
(一)词汇意义形式化的XBRL标记模式
现行的XBRL技术标准是面向财务报告等结构化数据的,为了形式化地标记自然语言,需要在现有的XBRL分类标准的基础上,继续增加XBRL所能标注的词汇范围。从财政部颁布的基于XBRL的中国企业会计准则通用分类标准以及各种扩展分类标准来看,目前XBRL所使用的词汇基本都是行业术语,这适合于内容相对固定的各行业的财务报告,但自然语言的范畴远远超过财务报告,要涉及到对其他行业以及各类社会现象的描述,所需要的词汇种类和数量将会极大地增加,凭借XBRL现有的分类标准架构难以组织和管理巨大的词汇量,需要改造其结构。从大数据管理的视角,XBRL分类标准的架构应该由原子单词集合和词组结构两部分构成,原子单词是可以使用的音义结合的最小词汇单位,从词汇的概括意义和结合能力来看,包括实词和虚词两种类型,其中实词可以进一步地划分为名词、动词、形容词、数词、量词、副词等,虚词可以划分为介词、连词、助词、语气词等。之所以设立原子单词集合,是因为语言使用实践证明,语言单位越小,其稳定性越强[20]。词组结构是指词组内部的词与词之间形成一定的语法联系,概括了一整类词与词之间的关系,通过词组体现出来,包括联合词组、主谓词组、动宾词组、偏正词组、正补词组、同位词组等多种形式。为了标注原子单词及词组结构,需在现有XBRL技术规范的基础上增设“原子单词”和“词组结构”等元素,“原子单词”元素的数目为所需单词的数目,通过为“原子单词”元素指定属性和各种类型的链接库的方式界定原子单词的含义。单词属性主要指单词所属的词类,链接库主要有定义链接库、引用链接库等,其中定义链接库负责解释单词的词义,引用链接库负责解释单词的来源及出处。“词组结构”元素可下设“联合词组”“主谓词组”“动宾词组”“偏正词组”“正补词组”“同位词组”等子元素来表明词组的结构。
(二)语法意义形式化的XBRL标记模式
语法意义传递了由词组成句子时,词与词之间的分工协作关系,以及言语内容对现实、对时间的关系等,是理解句子语义的一个重要方面。我国现行的XBRL技术标准用“基础规范”“维度”“公式”“版本”四个组件规定了XBRL分类标准和实例文档中可用的语法规则,但这些语法规则是面向结构化的财务数据,对于包含以句子为基本言语单位的自然语言,这些规则不够用,应该在现有四组件的基础上,再增加表达句子语法意义的“句子与转换生成规则”组件,该组件再下设“语法范畴”“语法功能”“句法结构”等元素。其中“语法范畴”元素表示各种语言中共有的意义,通过性、数、格、时、人称、体、态等语法形式来表达,为此“语法范畴”元素还应下设“性”“数”“格”“时”“人称”“体”“态”等子元素,用它们来表示句子所反映的客观世界的相关现象和相应规律。“语法功能”元素表示词汇在句子中所承担的角色,包括“主语”“谓语”“宾语”“定语”“状语”“补语”等代表各种句子成份意义的子元素。“句法结构”元素表示言语内容与客观现实之间的关系,下设“句类”“句型”子元素,“句类”子元素表示从语气角度对句子的分类,进一步包括“陈述句”“疑问句”“祈使句”“感叹句”等子元素,“句型”子元素表示从句子结构角度对句子的分类,进一步包括“主谓句”“非主谓句”两种表示句子结构的子元素。endprint
(三)其他意义形式化的XBRL标记模式
现有的XBRL技术规范体系中定义了上下文元素(Context),将之作为由抽象的分类标准到具体的实例文档的接口,并提供了期间(Period)、实体(Entity)和场景(Scenario)三个子元素,表达了编制和理解财务报告所需的三種基本语境:报告时间、报告对象、报告目的与编制方法。对于自然语言的语义解读而言,这些上下文内容是不够的,需要扩充。如前所述,其他意义包括修辞意义和语境意义等,因此在现有的上下文元素(Context)的基础上,需要增加“修辞意义”和“语境意义”等新元素。其中“修辞意义”元素下设“感情色彩”“语体色彩”“联想色彩”等子元素,“语境意义”元素下设“社会文化意义”“上下文意义”等子元素。同时为“社会文化意义”子元素增设“时代”“国别”“政治”“经济”“法律”“文化”等子元素,为“上下文意义”子元素增设“时间”“地点”“相关者”“动机”“方式”等子元素。
四、结语
随着互联网、物联网、无线传感器、云计算的快速发展,全球数据量出现爆炸式增长,人类社会进入大数据时代。学术界和工业界都在关注着大数据的发展,探索新的大数据技术、开发新的工具和服务,努力将“信息过载”转换为“信息优势”,将爆炸式的数据增长转化为爆炸式的知识增长,进而造福整个世界。
本文的贡献在于从语义形式化的视角出发,分析了自然语言语句的语义表达机制,并从XBRL的可扩展特征出发,提出了能够形式化地标注自然语言语句语义的XBRL扩展模型,研究成果有利于中文大数据在机器智能领域的应用,但研究中存在以下不足:(1)本文只对自然语言语句的语义形式化问题进行了研究,虽然句子是语义表达的基本单位,但在句子基础上的段落、篇章都有特定的语义表达作用,未来须对段落、篇章的语义形式化及标记问题进行研究;(2)语言学研究表明,句子语音对语义具有解释作用,那么句子的语音有哪些类型,对语义有怎样的解释作用,如何用标记等问题也值得进一步研究。
【参考文献】
[1] NATURE.Big Data:Science in the petabyte era[EB/OL].http://www.nature.com/news/specials/bigdata/index.html[2008-09-03/2015-02-21].
[2] BRYANT R E,KATZ R H,LAZOWSKA E D. Big Data computing: Creating revolutionary breakthroughs in commerce,science,and society[M/OL].http//www.cra.org,2008.
[3] GOES P B. Big Data and is research[J].MIS Quarterly,2014,38 (3):3-8.
[4] 俞士汶,朱学锋,耿立波.自然语言处理技术与语言深度计算[J].中国社会科学,2015(3):127-135.
[5] 宗成庆,曹右琦,俞士汶.中文信息处理60年[J].语言文字应用,2009,11(4):53-61.
[6] 孙茂松.基于互联网自然标注资源的自然语言处理[J].中文信息学报,2011,25(6):26-32.
[7] KPCB. 2014年互联网趋势报告[EB/OL]. http://www.iyunying.org/ziliao/903.html [2016-03-13].
[8] 应唯,王丁,黄敏. XBRL财务报告分类标准的架构模型研究[J].会计研究,2013(8):3-9.
[9] 郑丽娟,邵艳秋,杨尔弘.中文非投射语义依存现象分析研究[J].中文信息学报,2014,28(6):41-47.
[10] 李艳娇,杨尔弘.树库中的歧义组合考察[J].中文信息学报,2012,26(2):23-27.
[11] 司联合.论句子意义中结构意义和词汇意义的互动关系[J].外语与外语教学,2007(12):12-14.
[12] 贾玉祥,王浩石,昝红英,等.汉语语义选择限制知识的自动获取研究[J].中文信息学报,2014,28(5):66-73.
[13] 王德春.语言学通论(修订本)[M].北京:北京大学出版社,2006.
[14] 张禄彭,易绵竹,周云. 中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84.
[15] 李颖,冯志伟.计算语言学的超学科研究[J].现代外语,2015,38(3):407-415.
[16] 俞士汶,朱学锋,刘云.面向自然语言理解的汉语虚词研究[C].民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集,2007:270-279.
[17] PERDANA A,ROBB A,ROHDE F. An integrative review and synthesis of XBRL research in academic journals[J]. Journal of Information Systems,2015,29(1):115-153.
[18] 张野.可扩展商业报告语言(XBRL)在资本市场的创新应用[M].北京:国家行政学院出版社,2013.
[19] 孙凡,杨周南. XBRL 技术体系结构的语言学分析与改进研究[J].会计研究,2013(7):13-19.
[20] 侯敏,杨尔弘.中国语言监测研究十年[J].语言文字应用,2015(3):12-21.endprint