基于文本挖掘的在线社交网络用户心理状况预测研究

2021-01-28杨致君丁诗琪刘德喜

探索科学(学术版) 2020年9期

杨致君丁诗琪游心胡秀刘德喜

江西财经大学信息管理学院江西南昌 330013

1 研究背景

根据世界健康组织在2012年的研究表明,抑郁症等心理健康疾病已成为危害人类健康的世界第四大疾病,心理健康危机的预防和检测也日益得到政府和相关团体的关注。然而,由于长期以来缺乏对心理健康危机的重视以及传统的对心理疾病患者的歧视,对精神疾病患者的保密制度不够完善,尤其是在中小城市,导致了很多患有心理疾病的群体缺乏就诊意识。

随着互联网的发展,出现了各种各样的社交网络通信工具,国外以推特为代表,国内以微博、QQ空间为代表,吸引着越来越多的人进行互动,形成了各种各样的用户群体,比如具有共同兴趣爱好的群体、具有相同性格的群体等。人们也越来越趋于在微博和空间上发表自己的观点,表达自己的情感,为通过分析微博、QQ空间等社交网络上用户的行为及发表的言论监测用户心理健康提供了可能,尤其是近年来发生的青少年微博直播自杀事件,更是为通过分析微博追踪用户心理健康状态提供了充分的事实依据。国内的网络社会中,微博是普及率和用户粘度均名列前茅的社交平台,目前越来越大的研究着眼于通过微博内容来对用户进行人物画像,对用户自杀倾向、情绪和情感及其原因进行分析。

目前有不少的团队致力于通过社交媒体的监测识别,找寻具有严重自杀倾向的人,并对他们提供帮助。2018年4月2日黄智生等学者发起了树洞行动,希望通过智能主题巡视社交媒体,发现高风险自杀倾向人群,并组织人力实施教援。但是即使是周密的医疗团队实施的救援,也会有收效甚微的情况,其中-一个原因是,目前网络监控的主要重点在高心理危机的用户,发起救援的时机是在确认心理危机之后,这种援助行为一定程度上忽视了用户自身的求助意愿。用户在高自杀风险的情况下可能会对救援活动产生抵触,而用户在具有求助意愿的情况下,交流与援助工作都可以进行的更加顺利。合适的干预时机,可以为被救助者与施救者的沟通营造出更加舒适的环境。因此干预时机的预测会对救助行动产生积极影响。

并且目前国内运用微博和空间等社交媒体对用户心理健康分析的研究比较少,主要集中于心理学、医学等领域。虽然这些领域对心理健康状况的研究比较深入,但由于编码能力较弱,无法对丰富的微博数据进行充分的利用,挖掘出有用的信息,得到准确结果,故而运用微博数据对用户心理健康的分析只停留在表面现象,无法进入更深层次的研究。

随着互联网和社交网络的普及以及自然语言处理技术日益成熟,数据挖掘和机器学习的应用为心理学领域的探究与计算机提供了更多的可能性。因此运用数据挖掘和自然语言技术分析用户在网络上的言论及用户使用网络的行为,进而预测用户心理健康危机程度具有较大的社会意义。

2 技术支撑

江西财经大学数据与知识工程重点实验室在文本挖掘、情感分析等领域有良好的研究基础,公开发表多篇高质量研究论文,部分技术已获得软件著作权已收集50余位已自杀的微博用户的微博数据、600多位江西财经大学2016级学生的抑郁自评结果及他们自评前1年发表的微信或QQ空间数据、1万余条由中科院心理研究所标注有自杀倾向的微博数据,以及3万余条来自CLPsych2017心理危机评测的数据,为模型的研究和训练提供了数据支持。

指导教师刘德喜团队参加计算语言学年会ACL专题讨论会CLPsych2017共享任务评测(心理危机预测)获得第一名(全球19个大学或研究机构,16支队伍,251个runs),参加COAE2014微博新情感词抽取任务评测获得第二名,目前在国家自然科学基金项目和江西省自然科学基金的资助下从事基于社会化短文本主题模型的社会网络用户心理健康分析研究,为本项目提供了良好的理论和技术支持。

3 研究思路

本项目利用先进的数据挖掘、机器学习和自然语言处理技术,在抓取用户网络数据(如微博、QQ空间、微信等)的基础上,设计分类和预测模型,预测网络用户的心理危机状况,并将该预测模型进行上线,为江西财经大学心理健康教育与咨询中心提供新的平台和手段,改善大学生心理健康状况。

传统心理健康危机检测方法,如自评量表问卷方法等,是侵入式的,填写自评量表选项可能不一定是被试者的真实意图;另外,非实时性也是传统心理健康危机检测的不足,通常问卷最短要一年或更久才能完成一次;加之大量患者并不愿意主动向心理健康咨询专家求助,使得传统方法比较受限。基于文本挖掘的在线社交网络用户心理危机预测系统能够克服传统方法的不足,为及时发现潜在的心理健康危机者提供了新的渠道。

4 研究过程

4.1 团队前期准备项目伊始,在导师的指导下首先阅读了心理学、数据挖掘、自然语言处理相关的书籍,掌握一定基础后,研读了和项目相关性较强的文献[1～4],从中获得了一些灵感,对项目的未来有了一个比较清晰的路线。先后解决了数据爬取过程中遇到的一系列难题,测试了SVM分类模型、CRF预测模型,以及百度NLP、哈工大LTP、斯坦福NLP一系列接口和工具。

4.2 数据爬取的问题与解决由于过量的爬虫会给企业的服务器造成严重影响,很多网站都设置了反爬虫的系列措施,比如:机器人识别,登录验证,访客界面,检测IP频率,限制端口等,给研究带来了不小的挑战。对于这些问题,我们主要采取了以下几种方法,确保了数据的文明获取、授权获取、正常获取:

4.2.1 设置爬取速度由于爬虫发送请求的速度比较快,会对服务器造成一定的影响,尽可能控制爬取速度,做到文明爬取。

4.2.2 多主机策略这种策略比较可靠,一般一些网站会部署许多服务器,而我们在本机上ping网站,由于宽带运营商的原因,往往只能访问到固定的一个服务器,通过IP访问服务器一定要在http头部指明host,python3.6可使用urllib访问特定IP地址的方式。这种策略的并行性也比较高,在单IP的情况下,通过多线程爬取不同服务器上的网站被禁的可能性会大大降低。

4.2.3 伪装浏览器伪装浏览器,也就是修改User-Agent。User-Agent是指包含浏览器信息、操作系统信息等的一个字符串,也称之为一种特殊的网络协议。服务器通过它判断当前访问对象是浏览器、邮件客户端还是网络爬虫。

因此,可以把User-Agent的值改为浏览器的方式,甚至可以设置一个User-Agent池,存放多个“浏览器”,每次爬取的时候随机取一个来设置request的User-Agent,这样User-Agent会一直在变化,防止被墙。

4.2.4 修改IP 其实微博识别的是IP,不是账号,当需要连续抓取很多数据的时候,模拟登录没有意义。只要是同一个IP,不管怎么换账号也没有用,主要的是换IP。Web Server应对爬虫的策略之一就是直接将IP或者整个IP段都封掉禁止访问,当IP被禁封后,转换到其他IP继续访问即可。方法:代理IP、本地IP数据库(使用IP池)。

4.3 模型与工具的使用

4.3.1 SVM分类模型支持向量机(Support Vector Machine,SVM)是一个经典二分类算法,其找到的分割超平面具有更好的鲁棒性,因此广泛使用在很多任务上,并表现出了很强优势。

研究中主要采用SVM模型解决一些简单基本的二分类问题,比如:情感是否为消极,某条消极数据中是否存在原因等。

4.3.2 CRF预测模型随机场是由若干个位置组成的整体,当给每一个位置中按照某种分布随机赋一个值后,其全体就叫做随机场。马尔可夫随机场是随机场的特例,它假设随机场中某一个位置的赋值仅仅与和它相邻位置的赋值有关,和与其不相邻位置的赋值无关。

CRF是马尔可夫随机场的特例,它假设马尔可夫随机场中只有X和Y两种变量,X一般是给定的,而Y一般是在给定X的条件下我们的输出。X和Y有相同的结构的CRF就构成了线性链条件随机场。

研究中主要采用CRF模型结合大量的数据,选取一定的特征,做词法、句法、情感倾向的判断,最后根据训练好的模型对未知的新数据进行预测。

4.3.3 百度NLP、哈工大LTP、斯坦福NLP 百度NLP隶属于百度AI开放平台,其中涵盖了语音识别、自然语言处理、图像识别、智能对话等诸多领域,企业本身具有庞大的数据量,加上非常专业的工程师团队和开放的众开发模式,使得各功能的效果都达到了一个较高标准。

哈工大LTP语言云以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)”为基础,为用户提供高效精准的中文自然语言处理云服务。使用“语言云”非常简单,只需要根据API参数构造HTTP请求即可在线获得分析结果,而无需下载SDK、无需购买高性能的机器,同时支持跨平台、跨语言编程等。

斯坦福NLP是以工具包的形式进行使用,在调节参数等方面非常方便,所有的模型都是离线可用,且代码基于Java,适合部署在本地服务器上进行测试使用。

本研究主要运用以上平台或者工具包进行分词、词性标注、句法分析、情感倾向分析等基本自然语言处理操作,其优秀的表现和简单的调用方式给研究过程带来了极大的便利性。

4.4 研究成效自然语言处理主要有分词、词性标注、句法分析、情感倾向分析这几类,经过一系列的学习和测试,最终找到三条较为有价值的路线,分别为:

(1)以jieba分词和词性标注为主的工具类路线;

(2)以现有数据为主的数据训练路线(现有数据主要包括:1.3万消极数据,10万百度分词标注数据,人民日报1998.01词性标注数据,jieba等65万带频数的词性标注数据);

(3)以学习版为主、企业版为辅的百度NLP接口类路线;

上述路线各有优劣,路线1主要以现成的工具为主,由于其普适性,在面对不同类型的数据集时,其表现往往会很不稳定,在本研究的数据集上效果一般;路线2采取的方法是选择一定的模型和特征进行训练,而后应用于对未知文本的分析和预测,经验证,其效果尚可;路线3则选取达到一定业界标准的接口,其使用完全是黑盒模式,无法进行参数的修改和结果的调优,但其总体表现要优于前两种。

经讨论,最终确定以路线3为主,路线1和路线2为辅的方式进行系统的设计,并先行开发出一款C/S结构的系统,系统初级版本仅融合百度NLP接口模式,功能包括:微博自动爬取、分词、词性标注、句法分析、情感倾向分析、情感波动可视化、心理危机预警。系统于2018年11月完成V1.4版本的Demo,已取得软件著作权,并在2018年江西省创新创业服务外包大赛中获二等奖。