基于爬虫和信息抽取技术的大学生心理健康干预方案评估框架*
2021-12-06吴志渊黄戌霞陈新元杨漫鑫
吴志渊,黄戌霞,陈新元,杨漫鑫
(1.福州墨尔本理工职业学院 学生工作部,福建 福州 350108;2.宁德职业技术学院 信息技术与工程系,福建 宁德 355000;3.福州墨尔本理工职业学院 信息工程系,福建 福州 350108)
近年来,经历抑郁或焦虑等心理健康问题的大学生比例不断上升[1]。世界范围内,大约有31%的大学生在过去的一年中筛查出某种精神紊乱或疾病[2]。人们也逐渐认识到为存在这些常见精神健康问题的大学生提供治疗具有一定的难度。
首先,许多学生的心理健康素养较低,没有认识到治疗的必要性,而且认为这些抑郁和焦虑症状是大学时期的典型压力,没有寻求专业医疗帮助的必要;虽然有些学生认识到自己需要心理健康服务,但是在寻求帮助时却常常遇到障碍,或对干预方案的疗效存在疑虑[3]。其次,大多数高校都有心理咨询室,但可能存在专业人员/相关资源不足的问题,难以满足学生的需求;而且部分学生对现实生活中的心理健康干预存在排斥心理,担心隐私泄露[4]。可喜的是,目前已有较多的在线心理健康干预方案(通过Web页面和APP等方式)提供心理咨询和治疗服务,不受时间/空间的限制,同时能跨越上述传统心理健康服务的障碍[5]。
许多研究关注成年人的在线心理健康干预[6];关于高校学生心理干预方案的研究也在快速增加。2014年Davies等[7]对在线方式提供的大学生心理健康干预措施进行了系统性回顾,发现在线治疗可以有效缓解学生的抑郁、焦虑和压力。2018年Harrer等[8]经评估认为,互联网心理健康干预对一系列精神紊乱状况可能具有轻到中度影响。
尽管上述研究一定程度上可以评估在线心理健康干预措施的治疗成效,但存在局限性:只专注随机对照试验(RCT)的研究。将其他类型的相关研究(如非随机试验、单臂试验和全局试验等),即现实场景中的不同实施方案及成效分析纳入评估范畴,有助于充分评估相关方案并改善未来的干预实施,充分发掘其临床公共卫生潜力。
进一步来说,在线医疗工具的实施和将其集成到常规护理环境中是近年的研究热点。有研究呼吁从实用主义的角度出发,在现实场景中测试在线医疗方案,可尽快和最大程度地提高知识从科研实验到现实应用的迁移[9],而在线心理干预无疑是在线医疗的重要组成部分。
此外,有研究发现在线心理健康工具普遍存在参与度和完成率较低的问题[10]。有研究将重心放在评估在线工具的用户体验方面(包括易用性和可接受性),希望能发现用户对相关治疗方案的不满意/不理解之处,分析并进行改进,使用户更愿意,也更能顺利接受在线心理健康服务[11]。
本研究的目的是设计综合性的评估框架,以包括但不限于RCT类型的大学生在线心理健康干预方案研究为评估对象,设计收录标准和检索策略,确定主流数据库和数据源,设计数据抓取、处理和存储方案,并对评估体系进行初步设计,包括治疗效果、易用性、可接受性和推广程度等内容,以发现相关研究的强项和不足,用于其未来的改进参照,最终加强抑郁症、焦虑症等心理问题的治疗效果,进一步提高大学生的心理健康水平。
1 评估框架
1.1 团队成员
团队成员包括多位心理学领域的具有3年以上提供心理咨询服务经验的专家,信息技术领域的从业人员,以及心理学专业的本科生等。
1.2 方案收录标准
本文将框架分析对象的收录标准定为:
⑴ 该研究的核心是旨在改善心理健康,解决心理问题的干预/治疗措施。
⑵ 以在线方式提供干预(包括手机,PC、平板等多种终端媒介,通过APP、小程序、在线网站等方式提供服务均可);可以是面对面治疗方案的补充/辅助手段。
⑶ 治疗和研究的对象为高等教育学生群体,包括全日制本科及以上学历的学生,全日制高等职业教育的学生,成人非全日制学历教育的学生,等等。
⑷ 研究的心理问题包括压力、抑郁和焦虑等症状,应有干预治疗实施和成效分析的内容。
1.3 检索策略
本框架使用了基于关键字匹配的搜索策略,根据PMI共现频率整理并手动校对关键字字典,收录“大学生”“抑郁”“焦虑”“心理健康”和“心理治疗”等词语,以及其同、近义词和所有相应的英文术语。
1.4 数据源
将关键字检索应用于以下数据库:知网、万方、维普、MEDLINE(Ovid)、EMBASE(Elsevier)、PsycINFO(EbscoHost)、Cochrane(Wiley)和Web of Science(Thomson Reuters)。由于部分期刊(如JMIR Mental Health和Digital Health未在上述数据库中收录),因此另行访问该类出版物的官方网站获取文献;框架还扩展到从检索结果的参考文献中发现新的未被上述数据库收录的期刊/文献并进行手动核查。不对日期、语种、文献类型(除简讯/快讯外)和研究方案类型进行限制。
1.5 数据抓取、处理和存储方案
使用分布式爬虫结合Redis进行数据处理,持久化使用MongoDB(实验中发现该方案效率高于通过StrictRedis读写Redis数据库实现持久化存储)。
本研究使用多认证账号(>100)、多授权APP_KEY组合(>20)、多代理(可用IP库>400)的组合进行轮询;同时设定单线程的请求频率,350 ms/400 ms,具体过程如下:
⑴ 首先构建指向prelogin页面的URL,从事先构造且验证可行的Header库中随机选择,通过urllib.request.Request进行配置,使用urllib.request.ProxyHandler设置代理;
⑵ 根据页面加密方式,对账号进行base64转换,使用utf-8编码,密码构造过程中,联合从prelogin页面取到的servertime时间戳、nonce和pubkey字段值后,进行RSA加密和16进制转换;
⑶ 在使用servertime、rsakv等参数进行登录的同时,根据is_openlock参数判断验证码是否存在,若发现则下载,使用weibo_verify_code等三方库进行识别(主流Python引擎如Tesseract的OCR识别率不高,故验证码量较小时直接调用三方平台是主流选择,准确率高且成本较低),登陆后根据响应的location字段定位,使用ticket等字段构造请求,获取会话session信息,之后可从uniqueid中提取分配的用户登录编号,其他信息类似,有效期内使用MozillaCookieJar()进行Cookies的切换;
⑷ 服务器响应的URL中有部分进行了字符编码,使用urllib库的unquote_plus函数进行还原;具体信息根据<div class = “content clearfix” node-type =“like”>标签定位,先使用Selenium+PhantomJS框架的get_attribute等方法进行重定向定位,再实现直接请求以提升抓取效率,过程中涉及到mini_original.js等请求参数的识别和使用;
⑸ 使用RedisSpider分布式框架将url爬取和数据提取分离,使用redisMixin为爬虫分配key,同时引入concurrent包构建进程池和线程池,根据keyword选择内容,按时间升序生成队列,并行提取、过滤和输出各个字段的信息。在数据抓取过程中,时有发现因为内容过长,没有完整抓取的情况,故针对“展开全文”的Ajax请求使用Beautiful Soup模块进行爬取;
⑹ 尽管数据收集机制较为完善,也提供了网站认可的Header信息,使用了切换app_key、ip等机制,但实际获取数据时还是会出现无法控制的异常,这类异常大约占总请求的2%~6%,使用re库编写的精确正则表达式往往无法识别,对数据过滤造成影响,因而大量使用了BeautifulSoup模块提供的预处理方法,效率低些,但识别率高;这类异常往往隔一段时间后重发请求即可解决,但为了保证效率,使用了上述方案。此外考虑到网络延时等因素导致数据抓取失败的可能,设置了异常处理,对抓取到的数据进行验证,若抓取失败,如提取到500失败码,则执行except语句循环抓取,同时使用Time库的计时器判断超时;
⑺ 最终提取的数据结构包括项目名,时间及跨度,地域,主要干预/治疗目标,学生人数,治疗方案设计,比较类型,预防/治疗类型,技术类型,支持资源,参数设置,样本组规模,易用性和可接受性,治疗的完成度,干预治疗结果,结果分析,等等。
⑻ 检索得到的文献经框架自动初筛(使用机器学习技术进行迭代,直到验证集上的准确率在最后10个epoch内提升小于1%为止)和本科生根据标题和摘要进行初步校对外,每篇通过筛选的文献都由不少于2位专家根据方案标准进行独立评估;存在分歧时则引入第3位专家作为仲裁[12]。
⑼ 数据的持久化存储通过pyMongo模块调用MongoDB数据库,通过创建Mongoclient()读写数据;本文借鉴了Scrapy框架的get_media_requests和item_completed方法,将对url的请求发送到管道,实现异步下载和字典格式的存储以提升效率。
⑽ 使用钉钉平台,以便研究成员间可进行在线协作。
本文方案用到或参考的相关模块版本如下:
Urllib_kerberos-0.2.0;Pymongo 3.7.0;BeautifulSoup 4.6.0;lxml 3.3.1;Scrapy 0.24.4;Selenium 3.11.0;PhantomJS 2.1.1;Numpy 1.14.3;Pandas 0.23.0;Chardet 3.0.4。
1.6 评估标准
本研究旨在设计综合性、自动化的数据收集和评估框架,用于对大学生线上心理健康干预/治疗相关研究进行分析,根据Preferred Reporting Items for Systematic Reviews and Meta-Analyses guidelines[13]设计系统性的评估方案,评估体系包括治疗效果、易用性、可接受性和推广程度等内容。具体如下:
⑴ 治疗结果的度量指标包括Beck Depression Inventory-II[14]和Patient Health Questionnaire[15](抑郁),Beck Anxiety Inventory[16]和Anxiety Sensitivity Inventory[17](焦虑),Perceived Stress Scale[18]和Scales of Psychological Well-being[19](心理压力和幸福感/健康指数)。
⑵ 易用性定义为与终端媒介和网站/程序交互时用户体验质量,包括刚开始治疗时适应方案的难易程度,网站/程序的操作效率和用户友好性,可记忆性以及对相关方案的印象描述。易用性结果包括标准可用性度量System Usability Scale[20]和定性描述报告。
⑶ 可接受性是用户关于治疗/干预方案各方面的满意度,主要通过用户自行编写的定性描述 报告进行评估。
⑷ 推广程度的主要指标是在线干预/治疗服务的下载和使用量、稳定用户数量和变化情况(以潜在用户总数为基数),若有条件可补充该服务的高校知名度。但是,鉴于很少有研究提供该细节,因此未来计划在爬取的数据范围和识别锚标上进行扩展设计。
⑸ 偏倚风险评估:由于本框架的研究对象包括随机试验和非随机试验,因此同时使用Cochrane Collaboration的评估随机试验偏倚风险和评估非随机研究风险的工具[21]。对于随机试验,使用“高”“低”和“不明”的等级评估选择偏倚、实验偏倚、检测偏倚、损耗偏倚和分析偏倚等。对于非随机试验,评估因混杂而造成的偏倚风险,因选择参与者而导致的偏倚,干预分类的偏倚,缺失数据而造成的偏倚,结果分析中的偏倚,等等。
2 总结
近年来出现了许多在线大学生心理健康干预/治疗方案,如何改善这些项目的用户体验和实际治疗效果,对于在高校中提供在线心理健康咨询服务并持续改善至关重要。本文设计了大学生在线心理健康干预相关研究的评估框架,包括团队成员、方案收录标准、检索策略、数据源、数据抓取、处理和存储方案,以及评估标准等,可对相关研究进行汇总和分析。未来计划开展该框架的验证实验,通过对相关方案的汇总评估,为在线心理干预方案和相关研究提供持续改进参照,同时迭代细化、优化干预措施的有效评估指标,最终实现不断提高大学生心理健康水平的目标。