自闭症问答知识库构建与应用
2015-03-13于霜许鑫
于 霜 许 鑫
(华东师范大学信息学系 上海 200241)
自闭症问答知识库构建与应用
于 霜 许 鑫
(华东师范大学信息学系 上海 200241)
阐述自闭症研究现状,对比分析中美自闭症网络服务的差距,提出利用国外主流的社会化问答社区数据,构建自闭症问答知识库,介绍知识库的数据采集、管理、服务流程及关键问题,给出知识服务应用实例。该知识库构建为用户提供有针对性、高价值的知识服务,提高检索效率。
自闭症;知识服务;医护支持;知识库;问答系统
1 引言
2014年美国疾病控制与预防中心(Centers for Disease Control and Prevention,CDC)发布的最新自闭症发病率统计报告“自闭症障碍监察网络”(Autism and Developmental Disabilities Monitoring Network,ADDM)显示:2002年出生的孩子自闭症发病率为68∶1,与1972年的2 500∶1相比,发病率翻了37倍[1]。这一报告在网络上引起一片热议,各大媒体争相报道。同年10月17日中国教育学会家庭教育专业委员会自闭症研究指导中心联合五彩鹿儿童行为矫正中心和新华公益共同发布的“中国自闭症儿童发展状况报告”也显示,近年来自闭症发病率呈不断上升的趋势,据推算中国自闭症患者可能超过1 000万[2]。
由于国内自闭症治疗机构稀少且治疗费用高昂,因此网络搜索成为相关人群寻求帮助的主流方式。然而我国健康信息质量不高,可信程度较差[3],人们的健康信息素养有待提高[4];而且我国对自闭症的认识比发达国家晚,对自闭症的干预也缺乏深度的理论理解与循证层面上的操作经验。对于自闭症的治疗,个人的力量是微薄的,需要政府、社会甚至是网络社区承担起相应的责任。对于政府,给予自闭症患者合理的法律保护和补助措施是必要的;对于社会,公平对待自闭症患者,创造一个交流平台是重要的;对于网络社区,承担交流平台的角色,为自闭症患者提供其所需要的信息,为自闭症的治疗研究提供充分的素材也是同样重要的。
我国与发达国家在自闭症的研究方面还相距甚远,并且网络社区交流平台还未充分发挥功效,国内的自闭症信息和医疗资源远远满足不了庞大的自闭症人群的需求。鉴于这样的情况,如何为国内自闭症患者提供一些正确的指导?如何给予国内自闭症医护人员更多的信息支持?本文为此进行探索,利用国外发展成熟的自闭症问答社区数据构建了一个自闭症问答知识库,通过其提供的知识服务来满足自闭症患者的多重信息需求,提高其知识素养,减轻医护人员的咨询负担。
2 自闭症研究现状
自闭症又称孤独症或者自闭症谱系障碍(Autism Spectrum Disorders, ASD), 是一种小儿广泛性的发展障碍[5]。1943年约翰霍布金斯大学的教授Leo Kanner在“情感交流的自闭症障碍”(Autistic Disturbances of Affective contact) 一文中首次经临床研究使用“自闭症”一词并描述了其相关症状[6]。目前普遍认为自闭症是脑功能障碍所致的发育障碍,以社会交往障碍、言语发育障碍、兴趣范围狭窄和刻板重复的行为方式为基本临床特征的一组行为症候群[7]。自Kanner发现并命名自闭症以来,自闭症的相关探索就从未止步。1978年Rutter等观察归纳了儿童自闭症的3个主要特征:人际关系障碍、语言交流障碍和自觉僵化[8],对自闭症的诊断提出了依据;1991年Jorde等研究指出自闭症的产生不是由某个单一基因直接导致的[9];2000年Davidovitch等提出环境因素会影响自闭症的产生[10]等。此外,诸多学者在自闭症的原因、诊断或治疗方面也进行了探索,推动了自闭症研究的进展,但是对自闭症网络服务的研究未见报道。
3 中美自闭症网络服务对比
目前,我国在健康信息服务方面的发展还落后于发达国家[11],自闭症服务网站和问答平台发展状况也与美国有较为显著的差距,见表1,自闭症服务网站稀少而又缺少权威性,问答平台信息内容杂乱而又缺乏生活指导。近几年我国自闭症发病人数逐步增多,人们对自闭症网络查询服务的需求不断增大,然而自闭症的研究还未充分利用大数据时代用户健康信息的价值[12],这显然已成为自闭症服务最为薄弱的环节。本文利用国外发展较为成熟的自闭症社区问答数据构建知识库,进而为社会公众提供专业自闭症知识,一方面满足自闭症人群的咨询需求,减轻机构咨询的负担,另一方面更好地利用网络资源实现了网络健康信息服务的智能化。
表1 中美自闭症网络服务对比
4 基于社会化问答(Q&A)社区的问答知识库设计
4.1 总体框架
本文将一般的知识库构建与自动问答的需求和实现流程相结合,提出问答知识库构建框架,见图1。
图1 问答知识库构建框架
4.2 明确知识库需求
知识库的职能是根据用户提问,利用已有的相关回答给予用户回馈,达到向公众提供信息服务、普及知识的目的。而本文的研究分析客观上需要围绕知识库平台的信息资源展开,因此知识库构建的合理性和有效性直接影响是否符合研究需求,即知识库的构建应为任务导向型,使得用户可以有效、便捷地利用该知识库。
4.3 知识库的数据采集与管理
结合知识库的构建目标,数据来源应具备针对性、准确性和应用普遍性的特点,因此知识库的问答数据来源值得认真寻找。此外,利用已有的问答记录构建知识库来提供自动问答的信息服务,关键在于对用户输入的问句信息的合理组织和整理,准确、快速地为用户做出回答。为达到这一目的本文首先依据问答知识的使用频次构建了一个高频访问知识库(extended Frequently Asked Questions,eFAQ),然后把其他问答信息即非高频访问知识库作为基础知识库,旨在通过eFAQ和基础知识库的构建为用户提供更加完善的知识服务。
4.4 知识库的知识服务流程
基于问答知识库的知识服务实现主要经历以下5个步骤:步骤1,问句匹配:当用户输入一条问句A,系统首先将问句A与eFAQ知识库进行快速匹配。如果直接匹配则返回其对应的数据,进入步骤5;如果没有匹配则进入步骤2。步骤2,问句预处理:当问句A到来之后,系统先对问句A进行处理,包括剔除停用词和同义词转换等,以方便步骤3的进行。步骤3,问句相似度计算:用处理好的问句A依次和基础知识库内处理好的问句计算相似度,寻找与问句A最相近的问句。若问句之间表现为相似,即大于已设定的阀值,则返回其系统内相应的数据,否则进入步骤4。步骤4,相关推荐:利用处理好的问句A的信息到网络寻求相关信息,用网络爬虫对其网面内容进行抽取,返回其内容和链接,为用户提供服务,再进入步骤5。步骤5,答案返回:将已解决的问句A的答案进行可视化处理,在系统中返回,呈现给用户可用的信息。
5 实现问答知识库的关键问题
5.1 基础知识库与eFAQ知识库构建
为满足广大用户的多方面需求,基础知识库的建立最重要的就是覆盖面广、信息全面和准确。因此本文根据PubMeb Health[14]和美国自闭症&埃斯博格综合症协会[15]对自闭症的描述与分类,进一步完善出一个更加具体的分类体系,见表2。根据这个分类体系,选取合适的问答数据构建基础知识库,然后在此基础上利用自闭症领域专家对这些问题进行判断,分别从表2所述10类中选取常见问题,收录进高频访问知识库eFAQ。
表2 自闭症类目体系及分类策略
5.2 问句处理及相似度计算
首先对问句进行预处理,即根据编制的停用词表剔除停用词和对受人称、时态等影响的单词进行同义词替换,然后计算两个问句之间的相似度,这时需提取每个问句的关键词并赋予相应的权重。本文选择经典的词频(Term Frequency, TF)算法,计算公式如下:
(1)
式中:TFij表示词条i在问句qj中出现的频率。ni,j表示该词在问句qj中的出现次数;Σknkj表示在问句qj中所有字词的出现次数之和。在此基础上,可以构建问句i和问句j的关键词集合,即Ki和Kj。
问句相似度,顾名思义就是问句之间的相似程度。本文基于问句的关键词并采用夹角余弦(Cosine)算法来计算,公式如下:
(2)
式中i和j分别代表问句i和j;k代表关键词,且k∈ki,k∈kj。于是可以计算得到问句之间的相似度。
6 问答知识服务应用实例
6.1 自闭症问答数据准备
近年来,Yahoo!Answers作为全美最受欢迎的问答社区[16],因其庞大的规模和丰富的高质量信息成为众多研究者搜集数据的来源[17]。本文按Autism/Autistic的检索式,收集了2013-01-01到2013-10-01的数据,筛选其中1 000条相关数据,具体分布,见表3。这1 000条数据构成了基础信息知识库,在此基础上本文邀请自闭症专家在这些数据中按类别共筛选出了50条常见的自闭症提问数据构成eFAQ知识库。
表3 Yahoo!Answers中自闭症采集数据分布
6.2 实例演示及分析
在构建好知识库的基础上就可以为用户提供知识服务。假设一个用户在系统中输入一个问题“what is autism?”,系统将首先到eFAQ知识库中匹配,若刚好用户的问题在eFAQ知识库中完全匹配,则将库中的答案返回给用户,若该问题不在eFAQ知识库中,则会自动到基础知识库中查找并返回其最相关的答案。如用户在系统中输入“What do you think the worst mental illness to have ?”,则系统将会找出其最相关问题的答案反馈给用户“I would say, schizophrenia,annorexia/bulimia,multiple personality(sometimes),autism(all types) and depression/bordeline/bipolar, I really can′t choose one but deffinelty annorexia and autism and schitzo in my top 3”。由于目前知识库构建的知识存储量有限,不是所有的问题都能在知识库内找到答案,所以本文提出利用庞大的网络资源来为用户解决难题,利用网络爬虫抽取网络中的相关信息反馈给用户,提供相关链接以便用户进一步查询信息。如用户在系统中输入“有没有关于自闭症治疗的书籍?”,在知识库中没有相关问题,系统则会自动在网络中搜索该问题并反馈其相关网页的文字和相关链接“《不寻常的治疗》是由(美)简·海利编著,苏小波,焦玉梅译,用平实易懂的语言来描述艾瑞克森的疗法,帮助心里出现困难的患者治疗心理问题,快速有效。——数据来源互动百科,相关链接为http://www.baike.com/wiki/%E3%80%8A%E4%B8%8D%E5%AF%BB%E5%B8%B8%E7%9A%84%E6%B2%BB%E7%96%97%E3%80%8B”。该知识库不仅充分利用了eFAQ和基础知识库的信息为用户服务,而且还利用了网络爬虫对网络中的相关信息进行抓取,最大限度地满足了用户的需求,实现用户信息查找的一站式服务。
7 结语
从自闭症研究发展来看,问答知识库结合已有的问答数据和广泛的网络资源的构思将会成为一种趋势。本文基于我国目前自闭症落后的研究现状和已有的研究成果,通过对自闭症问答知识库的简单实现和对其信息服务的分析,提出了问答知识库的构建流程,为自闭症的网络服务提供了一个新的研究方向。虽然本文构建的知识库还存在着诸多不足,但是这种洋为中用,取长补短,充分利用网络资源实现知识服务的思想值得借鉴。在自闭症知识服务上虽然任重而道远,但是通过不懈努力终会实现对自闭症患者的在线支持和为医护人员服务提供支持的目标。
1 CDC′s Autism and Developmental Disabilities Monitoring Network[EB/OL].[2014-10-20].http://www.cdc.gov/ncbddd/autism/states/addm-fact-sheet_508.pdf.
2 中国自闭症儿童发展状况报告[EB/OL].[2014-12-27].http://www.guduzheng.net/2014/10/38086448.html.
3 宋立荣,齐娜,张群.网络健康信息传播的信息质量问题思考[J].医学信息学杂志,2014,35(10):8-12.
4 张士靖,杜建.健康信息素养应成为中国公众健康素养促进的关键点[J]. 医学信息学杂志, 2010,31(2):45-48.
5 American Psychiatric Association. Diagnostic and statistical manual of mental disorder[M].Washington DC: American Psychiatric Publishing,2013.
6 Kanner L. Autistic Disturbances of Affective Contact[J]. Nervous Child, 1943,38( 2): 217-250.
7 王安莲,刘志荣. 自闭症研究现状[J]. 安徽预防医学杂志, 2013,19(5):367-382.
8 杨蒉芬.自闭症学生之教育[M].台北:心理出版社, 2005.
9 Jorde L B, Hasstedt S J, Ritvo E R, et al .Complex Segregation Analysis of Autism[J]. Am J Hum Genet, 1991, (49):932-938.
10 Davidovitch M, Glick L, Holtzman G, et al.Developmental Regression in Autism: maternal perception[J]. J Autism Dev Disord, 2000, (30):113-119.
11 沈丽宁.国外健康信息服务现状扫描及启示[J]. 医学信息学杂志, 2010,31(6):38-51.
12 彭琰,严莉,朱红.大数据时代用户健康信息学的价值[J]. 医学信息学杂志, 2014,31(1):2-6.
13 张会会,马敬东,邸金平.网络健康信息质量评估研究综述[J]. 医学信息学杂志, 2014,35(4):2-5.
14 PubMeb Health[EB/OL].[2014-12-02].http://www.ncbi.nlm.nih.gov/pubmedhealth/PMH-0002494/.
15 US Autism&Asperger Association[EB/OL].[2014-12-02].http://www.usautism.org/tv/.
16 Gazan R. Social Q&A[J]. Journal of the American Society for Information Science and Technology, 2011, 62(12): 2301-2312.
17 Kim S, Oh S. Users′Relevance Criteria for Evaluating Answers in a Social Q&A Site[J]. Journal of the American Society for Information Science and Technology, 2009, 60(4): 716-727.
Construction and Application of Autism Q&A Knowledge Base
YUShuang,XUXin,
DepartmentofInformationScience,EastChinaNormalUniversity,Shanghai200241,China
The paper firstly introduces the research status of autism and analyzes the gap between China and the US in autism network service, proposes using the mainstream socialized Q&A community data in foreign countries to construct an autism Q&A knowledge base. It introduces data collection, management, service process and key issues of the knowledge base and gives application examples of the knowledge services. Construction of this knowledge base can provide targeted and valuable knowledge services to users and can help enhance the retrieval efficiency.
Autism; Knowledge service; Health care support;Knowledge base;Q&A system
2015-04-20
于霜,硕士研究生;通讯作者:许鑫,副教授,博士。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.08.013