社交网络中的抑郁症用户语言和行为特征分析及检测
2020-06-01门秀萍魏瑞斌吴小兰
门秀萍 魏瑞斌 吴小兰
摘 要:[目的/意义]通过在线工具来分析社交网络用户的语言和行为特征,对抑郁症患者进行预测性研究。[方法/过程]从推特上收集自我披露的抑郁症信息,提取抑郁症用户和正常用户在社交网络中的语言和行为特征信息。在对特征信息进行分析和验证的基础上,利用机器学习算法预测抑郁症用户。[结果/结论]研究发现,用户在社交网络上的语言和行为特征能够反映其心理状态,从中提取的各类特征可用于抑郁用户的检测。在抑郁症用户预测方法中,随机森林分类器的表现最好。基于Empath的词语类别特征在不同类型分类中具有最高的预测得分,而主题特征的得分排名较低。
关键词:抑郁症;社交网络;机器学习;分类;用户;语言;特征分析;检测
Abstract:[Purpose/Significance]This study aims to analyze language and behavioral characteristics of social network users by using online tools,and to implement predictive research on depression.[Method/Process]We collected self-disclosed depression information from Twitter,and extracted the characteristics of language and behavior of depression users and normal users in social networks.Based on the analysis of feature information,several machine learning algorithms were used to detect depression users.[Results/Conclusion]The study found that users language and behavior characteristics in social networks can reflect their psychological state,and the various features extracted from them can be used for the prediction of depressed users.Random forest classifiers performed best in predictors of depression users,the characteristics of empath-based linguistic psychology have the highest prediction scores in different types of classification,while the topic features have lower scores.
Key words:depression;social network;machine learning;classification
医疗信息学作为医学和信息科学交叉的一个领域,心理健康与疾病和卫生保健等主题成为该领域的研究熱点[1-2]。抑郁症是一种常见的心理疾病。根据世界卫生组织报告,在全球范围内,超过3亿人患有抑郁症[3]。另有调查显示,中国抑郁症患者已达到9 000万[4]。对抑郁症的科普、防范、治疗工作亟待重视,抑郁症防治已被列入全国精神卫生工作重点。虽然传统的线下治疗是诊断抑郁症最有效的方法,但人们对患有抑郁症感到羞愧或不知情。超过70%的抑郁症早期患者不愿咨询心理医生,导致病情恶化[5]。另一方面,人们越来越多地依赖推特、微博等社交媒体平台来表达情绪和观点,并分享自身的状态信息,全球有超过20亿的用户定期使用社交媒体[6]。
社交媒体为转变早期抑郁症干预策略提供了前所未有的机会。通过分析人们在社交网络上的日常语言可以了解一个人的心理特征,其分析结果比基于朋友和家人的判断更准确[7]。社交媒体用户的公开评论、行为和社交互动等信息可以可靠地监测和预测与健康相关的行为,例如预测流感病毒、过敏、癌症等疾病的发生率[8-10]。
本文利用机器学习技术来分析Twitter的数据,研究社交网络中的抑郁症用户语言和行为特征分析及检测。具体内容包括:探寻Twitter用户的语言和行为中与抑郁症有关的因素,如何从Twitter数据中提取这些特征因素,分析这些因素与抑郁症病症之间的关系,然后通过分类实验,分析检测抑郁症最具影响力的机器学习方法以及哪些特征对检测抑郁症贡献最大。挖掘抑郁症人群在社交网络上的行为和语言能帮助研究者了解他们的思维模式。研究成果可进一步应用到各种类型的心理问题,包括社交恐惧、自尊问题以及完美主义的自动诊断和治疗。
本文主要有以下贡献:1)对语言信息进行了细粒度的分析,从语言的结构、语言的词语类别和语言的主题3个维度进行更全面和系统的语言特征挖掘;2)将Empath语言分析包引入抑郁症的检测,提供了更多的语言特征;3)扩大基于社交网络的心理健康度量的范围,研究254个特征与抑郁症之间的关系。
1 相关研究工作概述
1.1 基于问卷调查的抑郁症用户检测
在心理学和流行病学研究中,自我报告调查仅次于临床访谈,因此基于心理测量自我报告进行抑郁症的预测具有较高的有效性和可信度[11]。因此,在早期大多数研究人员通过调查问卷获得患者的心理状态信息,并基于各种抑郁症诊断量表进行精神状态的检测,如Choi等采用抑郁症状量表、自杀亚量表(DSI-SS)、Beck抑郁量表(BDI)对抑郁症患者问卷进行评分和诊断[12]。有些学者通过参与者报告抑郁发作的症状和日期,并结合流行病学研究中心修订的抑郁量表(CES-D)[13]和贝克抑郁量表(BDI)[14]的得分进行抑郁症检测。抑郁自评量表能够直观地反映抑郁患者的精神状态,但量表的填写依赖被测者的主观意愿,当面对大规模群体时,需要花费较大的人力和时间成本。另外,问卷调查方式获得的患者信息有限,使心理医生无法了解抑郁症患者的全部信息。
1.2 基于社交网络数据抑郁症用户检测
社交网络上大量的用户生成内容(UGC)能够及时反映用户的真实状态和情绪,使得用户心理健康分析成为可能。一些学者对社交网络平台(如红迪网和照片墙)上的用户数据进行了研究,发现抑郁患者在语言属性和社交行为方面与正常用户存在较大差异[15-17]。如患有抑郁的学生更频繁地使用第一人称代词,以及带有贬义的形容词[18]。在推特社交平台上,患有抑郁症的用户使用第一人称代词和过去时态动词的也普遍较高[19]。De Choudhury M等驗证了产后抑郁症患者在推特平台的语言风格、情感表达和社交行为等方面与产前正常状态相比有明显变化[20]。LiveJournal社交平台上抑郁症用户和正常用户在情绪、写作特征、主题内容等方面存在显著差异[21]。而基于中文微博的抑郁症研究也发现,在语言使用特征方面,抑郁症患者对情感词、消极情绪词、认知机制词、连接词的使用随时间显著增加[22]。
上述研究对各种不同社交平台下抑郁症患者和正常人的语言使用和社交行为特征进行了对比分析,证实了社交网络活动记录与用户的抑郁状态之间存在较强的相关性,这些结论为基于社交网络的抑郁症的检测、诊断及治疗提供了依据。
1.3 基于社交网络抑郁特征的选择和计算
研究者对来自推特、照片墙、红迪网等不同社交网络平台的用户的情感、情绪和写作行为等心理学特征进行抽取,并使用各种机器学习模型进行抑郁症预测。Choudhury M D等提取推特用户的社交活动、情感、语言风格等信息,对用户患抑郁症的风险进行评估,准确率达到70%[23]。Zhang L等使用主题分析模型对新浪微博用户自杀的概率进行线性回归分析[24]。还有基于统计特征的方法,包括词袋模型,频率—逆文档频率(TF-IDF)、N-Gram词频,词性频率,平均发帖数量,帖子的平均字数、发表时间戳等[25-26]。
在众多方法中,LIWC统计方法具有较高的检测率。LIWC是由心理分析学家制作的一套心理语言学词汇包[27],可以从用户语言中分析出70多个心理语言学特征,被广泛应用于基于社交网络的心理健康分析[17,28]。LIWC的成功激发了研究人员提出自定义领域词典的方法,比如来自WordNet的情感词汇,来自Vader的情感词汇[29-30],以及采用词向量技术的抑郁症扩充词典[31-32]。在国内,中国科学院心理研究所计算网络心理实验室参照LIWC2007,研发了中文文本分析软件“文心”,胡泉使用该软件对新浪微博用户的文本数据提取语言成分特征和心理状态特征对抑郁症进行检测[33]。
基于LIWC的方法从心理学角度提取了抑郁症用户在社交网络上的语言特征,这些特征对于抑郁症患者具有一定的表征能力,预测效果可以达到85%以上。其关键在于LIWC字典的定义,LIWC字典主要包含情感和认知等心理学相关的词语,不能很全面的涵盖抑郁用户的语言词汇,因此,LIWC的语言分析并不全面,缺少一些隐含的有价值的语言信息,这些隐含信息对于早期和轻度抑郁症的检测更有意义。
综上所述,社交网络语言和行为中蕴含着与心理学相关的重要信息,使用这些信息来衡量和预测用户心理健康水平,是较为科学的方法之一。提取具有较强表征能力的抑郁特征是提高检测效果的关键。本文在已有研究的基础上,采用新的特征计算方法,进一步扩大了基于社交网络的抑郁测量的范围,从不同维度描述了推特用户分享内容的语言和行为特征,并分析比较了几种常用的机器学习模型预测抑郁症的有效性,最高预测准确率达到90%以上。
2 基于社交网络的抑郁症用户分析及检测模型
本文建立的基于社交网络的抑郁症特征分析及检测模型主要包括以下几个部分,如图1所示:
2.1 数据采集
参照心理疾病在线识别研究中的数据采集方法[28,34],本文使用表1中的关键短语作为正则表达式构造搜索关键词。通过推特API从公开的推特数据中检索自我诊断为抑郁症的个人用户,最后收集到2015-2017年期间,共5 899名疑似抑郁症用户组,同时爬取这些用户发表的时间轴(Timeline)信息。为了与抑郁症用户组进行对照分析,从推特流中过滤出不包含上述关键短语的5 366个正常用户作为参照组,同时爬取这些用户在同样时间间隔内的时间轴(Timeline)数据。每个被过滤用户的时间轴数据包括帖子文本、用户名、发布时间、标签、提及次数、收藏、地理位置和帖子编号等信息。在表2中列出了所获得数据的基本描述性信息。
2.2 数据预处理
上述数据作为我们实验数据的候选集,为了提高模型的效果,需要进行数据预处理。首先去除非英语用户,以及被关注数超过1 000的用户,因为该类账户有可能是一些组织、名人或社团账户。然后删除停用词、@、网址、频率较高的单词和出现次数少于3次的单词,最后采用Autocorrect进行拼写检查,进行词干提取,以进一步减少单词个数。
尽管关键短语包含自我表述的抑郁症的经历和诊断,但仍有很多被过滤出的帖子中存在虚假陈述和引用等形式的噪声数据。另外,对随机爬取的正常用户中有可能存在没有使用匹配句式的抑郁用户,为了获得真实准确的样本,本文使用人工标注方法对数据进行了评分,对候选集数据进行更精确的筛选,对每一个候选用户,将其通过正则表达式匹配的帖子作为中心,提取中心帖子发布之前和之后各连续10条帖子,形成一组上下文帖子。我们将其称为推特用户的上下文。这些来自5 899名疑似用户和5 366名正常用户的公开上下文随后被传递给3位评分员,对数据真实性进行注释,(0-抑郁,1-非抑郁,2-不确定),每个评分员分别对所有用户进行单独分类,只有被所有评分者都标记为0的用户被选入抑郁用户数据集。其中疑似用户组最终得到2 143个抑郁用户,2 933个正常用户,823个不确定用户;正常用户组得到4 037个正常用户,78个抑郁用户,1 251个不确定用户,评分者之间的3类注释任务的科恩κ测量值是0.62。分歧主要出现在“2-不确定”类上,在“0-抑郁”类和“1-非抑郁”类之间的一致性为0.86。最终,选择疑似用户组中的2 143个抑郁用户作为抑郁用户数据集,正常用户中的4 037个正常用户作为正常用户数据集。
这3类用户分别分享了120 183条、224 092条和76 667条帖子,平均每个用户分享了56条、76条和93条帖子。表3给出了每个类别的上下文帖子的示例。
2.3 特征提取与选择
2.3.1 行为特征提取
用户在社交网络的行为特征主要是指可以代表用户交互行为内容的特征。研究表明,心理健康与网络行为之间存在关联性。根据抑郁症的临床经验,患者意志活动呈显著持久的抑制。表现为行为缓慢,生活被动,回避社交,这些特征也体现在社交网络行为上。通过推特API接口获取用户的注册时间,发帖数量等社交网络行为数据,选取了发帖总数,朋友数量,日均发帖量、日均收藏数,日均被关注数量,回复率,被转发帖子数量等信息进行统计分析和比对。
研究发现,抑郁症用户在推特等社交网络上的活跃时间具有明显的规律性。因此,对抑郁用户组和正常用户组的不同时间的发帖行为进行了统计,将1天按照每2小时为间隔划分成12个时间段,分别统计用户在这些时间段内的发帖数量,并绘制用户发帖时间与发帖数量曲线图,对用户社交行为的周期性特征进行分析。
2.3.2 语言特征提取
思维与语法组织形式之间的关系被广泛地应用于心理疾病的症状分析[35]。本文提取推特用户的不同词性类别的使用频率、语法形式、可读性指标CLI[30]、单词复杂性指标等用于对比抑郁用户和正常用户在词汇选择、语法灵活性等语言运用能力上的差异。
研究人员经常使用LIWC从心理学角度来分析社交媒体上的帖子[36]。但LIWC只有40个主题和情感类别,缺少许多潜在的词语类别[37]。本文使用Empath[37]进行词语分析,Empath是一种数据驱动的语言分析工具,利用对现代小说中18亿个单词的深度学习,将用户给定的一组种子词语,扩展生成新的词汇类别。例如,使用种子词语“推特”和“脸书”,Empath可以生成“社交媒体”词语类别。Empath的部分词语类别已被证实与LIWC中的类似词语类别高度相关(r=0.906)。
为了研究抑郁用户患病的原因,对抑郁用户的帖子进行LDA主题模型[38]分析。本文使用Gensim实现的LDA模型获得推特用户的主题分布。LDA主题模型分析方法是一种非监督聚类方法,需要设定主题个数,为了获得最佳主题个数,需计算不同主题数量下的困惑度,选取具有最小困惑度的主题模型。
2.3.3 特征选择
通过对抑郁用户在社交网络上的行为、语言的分析,得到了很多属性特征,这些属性将有助于识别社交网络中抑郁用户。为了提高模型预测的准确度,需要对这些属性进行选择。
首先进行归一化处理,消除特征值衡量方式差异对识别效果的影响。如将所有频次统计特征映射到[0,1]范围内,对于具有不同量纲的特征进行Min-Max归一化处理。其次消除噪声特征,选择最显著的特征变量。筛选方法是根据特征在各种统计测试中的得分与结果变量的相关性。具体通过采用ANOVA F测试方法去除噪声和冗余特征,将特征空间从254个特征减少到132个最佳特征。
2.4 分类训练及预测
通过特征选择获得的属性将用于识别社交网络中抑郁用户,从正常用户中检测出具有抑郁症的用户。采用机器学习模型基于这些属性特征进行分类训练及预测,将数据集分成训练集和测试集,将训练集输入逻辑回归、支持向量机、高斯朴素贝叶斯、决策树和随机森林等机器学习模型进行分类训练,选择拟合效果最佳的学习模型,对测试集进行预测。
为了选择最佳学习模型,计算每种学习模型在测试集上的查准率、查全率、f1和AUC等指标对预测效果进行性能度量。为避免过拟合,采用十折交叉验证方法,将数据集分成10等份,轮流将其中9份作为训练数据,1份作为测试数据。取10次十折交叉验证结果的平均值作为对机器学习算法效率的估计。为了分析不同特征对分类效果的影响,将每类特征分别进行分类实验,以检测每类特征的表征能力,并通过随机森林算法计算每类特征对预测结果的重要性。
3 研究结果分析
3.1 抑郁用户的行为特征分析
3.1.1 交互行为分析
从抑郁用户组和正常用户组交互特征统计结果(如图2)可以发现,抑郁用户在社交網络上不如正常用户活跃,通常他们具有较少的朋友(432<608,p<0.001)。平均每天的发帖数量明显低于正常用户(25.79<27.92,p<0.001),抑郁用户平均被关注数低于正常用户(0.330<1.362,p<0.001)。平均每天的收藏数量较低(7.73<9.73,p=0.032)。另外,他们对事物缺乏兴趣,关注或收藏的内容较少。抑郁症患者在社交网络上与其他用户之间的交互活动较少,具体表现在整体的发帖量明显低于正常用户。
3.1.2 活动周期性分析
通过推特用户的发帖周期可以发现,正常用户组整体发帖数量要远高于抑郁用户组。从图3看,抑郁用户组的活跃时间峰值出现在凌晨2~3点之间,这可能与抑郁症患者普遍存在的失眠或者半夜早醒等睡眠障碍有关。
3.2 抑郁用户语言特征分析
3.2.1 语言结构分析
通过对抑郁症患者帖子的语言结构分析发现,抑郁用户使用人称代词的比例要显著高于正常用户,较常使用第一人称(0.023>0.022,p=0.01)和第二人称(0.020>0.019,p=0.002),较少使用第三人称(0.015<0.017,p<0.001)。从心理学的视角看,较多的第一人称使用率表明,抑郁症患者更加关注自身,自我意识或自我感知能力过强。容易产生极端化的思维方式,喜欢用表示极端的副词,如“完全”、“绝对”或“所有人”(0.0066>0.0059,p<0.001)。每个单词的平均字符数存在一定差异(4.749>4.732,p=0.048)。
抑郁症用户在交流中使用较为简单的语法形式,缺乏灵活性,语言可读性(CLI)较低(11.59<11.78,p=0.046),在词性类别的选择上更加单一化,运用语言的能力要低于正常用户组。在连词(0.019>0.022,p<0.001)、数词(0.016<0.018,p<0.001)、情态助动词(0.013>0.012,p=0.01)、名词(0.176<0.179,p=0.006)、副词(0.061>0.059,p=0.004)、小品词(0.0049<0.0052,p=0.001)和动词(0.098<0.104,p<0.001)等词语使用频率整体较低。抑郁症患者语言和内容相对贫乏,倾向于使用更多的简单单词(4.73<4.74,p=0.047),每个句子平均单词数较少(17<37,p=0.002)。结果见图4。
3.2.2 Empath特征分析
对抽取的198维Empath特征进行比较,通过T检验发现两类用户在其中的82个词语类别具有显著差异,如表4所示。与正常用户相比,抑郁症用户更多使用阅读、感情、听觉、声音、睡眠等感知相关的词语类别,而仇恨、羞愧、辱骂、易怒、抑郁、混乱、犯罪、恐怖、受伤等负面情绪相关词汇频率也高于正常用户。这表明抑郁症用户经常表现出情绪低落,更多关注家庭、旅游、运动、互联网、计算机、社交媒体等相关的内容。较少关注时尚、法律、战争、军队、暴力等大众普遍关注的话题。Empath还进行了情感极性分析,其中在积极情感分数上,抑郁用户和正常用户之间没有显著差别,但是抑郁用户较多使用表示消极的词语(0.0045>0.0041,p<0.001)。
3.2.3 LDA主题分析
根据LDA主题个数与困惑度的曲线图(如图5),主题个数设置为20,表5列出了抑郁用户的主题—高频关键词。从主题分析的高频词分析,抑郁用户在社交平台上会较多地谈论疾病症状、治疗经验等话题,会更多地关注自身情感状态。
为了比较抑郁用户组与正常用户组的主题差异,本文首先分别计算两个组中所有帖子的每个主题的后验概率。然后比较所有主题在每组用户所有帖子上的概率分布。对结果进行成对T检验,发现所有主题在两组用户的分布存在明显差异(p=0.006)。
3.3 抑郁用户的檢测效果分析
分类实验结果表明,在应用的几种分类算法中,随机森林的分类效果最好,如表6所示。
为了分析不同类别的特征对分类效果的影响,本文将每类特征分别用随机森林进行分类实验。从图6看,Empath分类效果最好,对整体的分类效果贡献最大。
随机森林算法的信息熵可以测量不同类别特征的重要性,熵值的平均降幅越大,则信息增益越大,即特征对分类结果的重要性越大。图7为每类特征信息熵的平均下降幅度进行归一化后的结果。
Empath特征对分类效果起着最关键作用。Empath特征共提取198维词语类别特征,因此需要足够多的语言信息。当用户在社交网络上分享的语言信息较少时,会增加被错分的可能性。通过观察随机森林分类模型中被错分的371个用户的社交数据,发现这些用户在社交网络上分享内容明显少于正确分类用户,其中正确分类用户平均发帖量为73条,每条帖子词汇数平均为86,而错分用户为38条,每条帖子词汇数为34。可以通过增大时间窗口获取更多用户信息的方法进行改进,但时间窗口的选择需要进行实验研究,如果时间窗口太大,会增加计算成本,也可能会降低特征的表征能力。另外,本文提出的方法在其他社交网络上的应用效果也需要进一步的验证。
4 结 语
本文使用推特数据研究用户语言和行为特征与抑郁症的关系,通过用户在推特上的交互行为、语言的结构、语言的Empath类别和语言的主题等特征,考察了利用社交网络数据进行抑郁症检测的可能性,通过T检验方法分析了各类特征与抑郁症的关系,对比了逻辑回归、支持向量机、朴素贝叶斯、决策树和随机森林等机器学习算法对抑郁用户的检测效果,其中,随机森林算法效果最好,准确率达到90%以上,证明了抑郁症这类心理疾病可以在一些在线环境中检测到。但本研究仍然存在一些不足。首先,对社交网络用户的分析主要集中在互动行为和文本内容上,没有考虑用户之间的连接关系,如用户之间的网络拓扑结构等。其次,本文只在一个相对较小的样本数据集上取得了较好的效果,这些结论的广泛性需要在更大的样本空间中进行验证。第三,该类研究还较少关注如何识别不知道自己心理健康状况的抑郁症患者。因此,如何将这些特征应用到临床规则中仍需要进一步的研究。
总之,自然语言处理和机器学习的发展,使基于社交媒体信息筛选高危人群成为可能。但由此引发的一系列关于数据所有权和隐私保护的伦理和法律问题亟待解决。
参考文献
[1]刘雅姝,张海涛,徐海玲,等.近三年国外图书馆学与信息科学领域研究热点与前沿分析[J].现代情报,2019,39(9):168-177.
[2]田大芳,魏瑞斌.2017年国际信息科学与图书馆学研究热点分析[J].现代情报,2018,38(8):125-129.
[3]世界卫生组织.抑郁症[EB/OL].https://www.who.int/ zh/ news-room/fact-sheets /detail/depression,2019-05-11.
[4]抑郁症:“心灵感冒”可治[EB/OL].http://health.people.com.cn/n1/ 2017/0329/ c14739-29176601.html,2019-05-11.
[5]Shen G Y,Jia J,Nie L Q,et al.Depression Detection via Harvesting Social Media:A Multimodal Dictionary Learning Solution[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence,Melbourne,Australia:IJCAI,2017:3838-3844.
[6]DIGITAL IN 2017:GLOBAL OVERVIEW[EB/OL].https://wearesocial.com/ special-reports/digital-in-2017-global-overview,2019-05-18.
[7]Wu Y Y,Kosinski M,Stillwell D.Computer-based Personality Judgments Are More Accurate Than Those Made By Humans[J].Proceedings of the National Academy of Sciences,2015,112(4),1036-1040.
[8]Broniatowski D A,Paul M J,Dredze M.National and Local Influenza Surveillance Through Twitter:An Analysis of the 2012-2013 Influenza Epidemic[J].PLoS One,2013,8(12):e83672.
[9]Chew C,Eysenbach G.Pandemics in the Age of Twitter:Content Analysis of Tweets During the 2009 H1N1 Outbreak[J].PloS One,2010,5(11):e14118.
[10]Kass-Hout T A,Alhinnawi H.Social Media in Public Health[J].British Medical Bulletin,2013,108(1):5-24.
[11]Lwe B,Kroenke K,Herzog W,et al.Measuring Depression Outcome with a Brief Self-report Instrument:Sensitivity to Change of the Patient Health Questionnaire(PHQ-9)[J].Affect Disord 2004,81:61-66.
[12]Seung W Choi,Benjamin Schalet,Karon F,et al.Establishing a Common Metric for Depressive Symptoms:Linking the BDI-II,CES-D,and PHQ-9 to PROMIS Depression[J].Psychological Assesment,2014,26:513-527.
[13]Radloff L S.The CES-D Scale:A Self-report Depression Scale for Research in the General Population[J]. Appl Psychol Meas,1977,(1):385-401.
[14]Beck A T,Steer R A,Brown G K.Beck Depression Inventory Ⅱ[J].San Antonio,1996,78:490-498.
[15]Chancellor S,Lin Z Y,Goodman E L,et al.Quantifying and Predicting Mental Illness Severity in Online Pro-Eating Disorder Communities[C]//Proceedings of the 19th ACM Conference on Computer-Supported Cooperative Work & Social Computing.San Francisco,USA:ACM,2016:1171-1184.
[16]Choudhury M D,De S.Mental Health Discourse on Reddit:Self- Disclosure,Social Support,and Anonymity[C]//Proceedings of the 8th International AAAI Conference on Weblogs and Social Media,Ann Arbor,USA:AAAI,2014:71-80.
[17]劉德喜,邱家洪,万常选,等.利用准私密社交网络文本数据检测抑郁用户的可行性分析[J].中文信息学报,2018,32(9):93-102.
[18]Rude S,Gortner E M,Pennebaker J.Language Use of Depressed and Depression-Vulnerable College Students[J].Cognition & Emotion,2004,18(8):1121-1133.
[19]Nadeem M,Horn M,Coppersmith G,et al.Identifying Depression on Twitter[EB/OL].https://arxiv.org/ftp/arxiv/papers/1607/1607.07384.pdf,2019-04-16.
[20]De Choudhury M,Counts S,Horvitz E.Predicting Postpartum Changes in Emotion Andbehavior Via Social Media[C]//Proceedings of the SIGCHI Conference on Human Factorsin Computing Systems,New York,USA:ACM,2013:3267-3276.
[21]Nguyen T,Phung D Q,Dao Bo,et al.Affective and Content Analysis of Online Depression Communities[J].IEEE Transactions on Affective Computing,2014,5(3):217-226.
[22]蒋宛月,江光荣,徐升,等.国民心理健康素养变化趋势——基于抑郁主题微博大数据分析[C]//杭州:第二十二届全国心理学学术会议,2019.
[23]Choudhury M D,Gamon M,Counts S,et al.Predicting Depression Via Social Media[C]//Proceedings of the 7th International AAAI Conference on Weblogs and Social Media.Cambridge,USA:AAAI,2013:128-137.
[24]Zhang L,Huang X L,Liu T L,et al.Using Linguistic Features to Estimate Suicide Probability of Chinese Microblog Users[C]//Proceedings of International Conference on Human Centered Computing.Berlin,Germany:Springer,2014:549-559.
[25]Preotiuc-Pietro D,Eichstaedt J,Park G,et al.The Role of Personality,Age and Gender in Tweeting About Mental Illnesses[C]//Proceedings of the 2nd Workshop on Computational Linguistics and Clinical Psychology.Denver,USA:ACL,2015:21-31.
[26]Coppersmith G,Harman C,Dredze M.Measuring Post traumatic Stress Disorder in Twitter[C]//Proceedings of the 8th International AAAI Conference on Weblogs and Social Media.Ann Arbor,USA:AAAI,2014:579-582.
[27]Tausczik Y R,Pennebaker J W.The Psychological Meaning of Words:LIWC and Computerized Text Analysis Methods[J].Journal of Language and Social Psychology,2010,29 16(1):24-54.
[28]Coopersmith G,Dredze M,Harman C.Quantifying Mental Health Signals in Twitter[C]// Proceedings of the 1st Workshop on Computational Linguistics and Clinical Psychology,Baltimore,USA:ACL,2014:51-60.
[29]Wang X Y,Zhang C H,Ji Y,et al.A Depression Detection Model Based on Sentiment Analysis in Micro-blog Social Network[C]//Proceedings of Pacific-Asia Conference on Knowledge Discovery and Data Mining.Gold Coast,Australia:Spring,2013:201-213.
[30]韩梅花,赵景秀.基于“用户画像”的阅读疗法模式研究——以抑郁症为例[J].大学图书馆学报,2017,35(6):105-110.
[31]方振宇.基于词向量的微博用户抑郁预测方法研究[D].合肥:合肥工业大学,2017.
[32]李林坚.基于情绪词库的抑郁症患者情绪表达分析与预测[D].杭州:浙江大学,2019.
[33]胡泉.基于新浪微博的互联网用户心理健康状态判别[D].开封:河南大学,2015.
[34]Choudhury M D,Counts S,Horvitz E.Social Media as a Measurement Tool of Depression in Populations[C]//Proceedings of the fifth Annual ACM Web Science Conference.New York,USA:ACM,2013:47-56.
[35]Jefrey A Lieberman,Diana Perkins,Aysenil Belger,et al.The Early Stages of Schizophrenia:Speculations on Pathogenesis,Pathophysiology,and Therapeutic Approaches[J].Biological psychiatry,2001,50(11):884-897.
[36]Pennebaker J W,Francis M E,Booth R J.Linguistic Inquiry and Word Count[J].Psychosomatic Medicine,2001,63:517-522.
[37]Fast E,Chen B B,Bernstein M S.Empath:Understanding Topic Signals in Large-scale Text[C]//Proceedings of the 2016 CHI Conference on Human Factors in Computing Systems.San Jose,USA:ACM,2016:4647-4657.
[38]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].The Journal of Machine Learning Research,2003,3(1):993-1022.
(責任编辑:陈 媛)