APP下载

基于词频分析的关键词特征向量调查法

2018-10-25徐德义林志恒张康康

大学教育 2018年10期
关键词:词频特征向量共性

徐德义 林志恒 张康康

[摘 要]针对在校大学生等特殊群体的思想动向的快速调查,本文基于词频分析技术,设计了关键词特征向量调查方法。给出了关键词特征向量等相关定义,并设计了共性特征向量和带约束的共性特征向量提取方法。用实例验证了方法的有效性,指出了该方法的适用范围和应注意的问题。

[关键词]关键词向量;共性特征向量;迭代扩张法;快速调查

[中图分类号] G64 [文献标识码] A [文章编号] 2095-3437(2018)10-0077-05

如何快速获取经济类近百名新生的思想动态?他们最关心的问题是什么?他们中有没有意外心理问题发生?这些问题是学生辅导员等学生工作者常常面临的问题。在新的学期开始时、学生即将毕业时、新的重大事件发生时都会有获取学生思想动态的需要。车间管理员、保险业务经理等也经常面临类似的问题。被动的做法是等事件发生了再去补救,这样不仅成本高,而且效果差。主动式做法是事先了解动向,正确引导,防患于未然。通常了解动向的方法有两种:一是找代表谈话以获取相关信息;二是做问卷调查获取相关信息。然而这两种获取信息的方法都有明显的局限性。第一种方法是统计学中的抽样调查法,该方法获取总体的信息的好坏不仅与样本容量有关,而且与样本质量有关。第二种方法涉及复杂的问卷设计,并且可能由于问题选项设计局限会将重要的特殊信息排斥在外。这两种常见方法的共同局限性是获取信息的时间长,实施难度大。特别是,大数据的突出特点,也是大数据统计区别于传统统计的一个重要方面是“不是抽样,而是全体”[1]。有鉴于此,我们基于词频分析技术设计了关键词向量调查法。

一、关键词向量调查法

言为心声,语言是信息的重要载体。从语言或文字中获取信息是机器学习(Machine Learning, ML)[2][3]、人工智能(Artificial Intelligence, AL) [4][5]的熱点研究对象,语言或文字也是大数据(Big Data) [6][7][8]中的重要数据形式。统计学是关于数据的科学,其研究对象是数据。文字也是统计学中的数据形式,为了方便起见我们将调查、观测等统计过程中的文字记录称为文字数据(Verbal Data)。一篇期刊论文往往需要列出3~5个关键词(Key Words),其作用是方便检索。从另一方面看,期刊论文的关键词也有分类的作用,它们将该论文归列到具有由关键词概括的共同特征的一类文章中。然而,论文作者也一定会列举体现该论文的创新性和特殊性的关键词,这些关键词起到了文章标签的作用。由此看,期刊论文的关键词既标示了论文的共性,也标示了论文的特性。如果我们能获取被调查对象在某一情景下“心中的关键词”不就可以总结出调查群体的共性和捕捉个体的特性吗?

设G是被调查的群体,该群体有n个成员。我们设计的关键词调查法包含四个步骤,(1)为调查目的设置一个情景(Scenario);(2)采集每个成员的关键词向量,构成关键词向量集;(3)从关键词向量集中提取特征向量(Keyword Character Vector, KCV);(4)特征向量的校验及应用。

(一)情景设置

情景设置的目的是使得被调研的群体中的每个个体写出来的关键词能够较好地反映调查的主题。因此,从某种程度上说,情景设置是一种心理暗示[9]。情景可以以文字形式描述,也可以口头表述。比如,设计调查新入学的大学生的思想动态,则可以要求学生按顺序写出自己近期想得最多的事,用10个关键词形式给出。情景设置很重要,所获得的关键词向量数据集中能否提取出达到调查目的的特征向量与情景设置密切相关。换句话说,情景与目的是对应的,即便相同的调研对象,设置的情景不同所得到的关键词向量集是不一样的,可用G(S, n)表示,其中S表示情景。当不强调被调查对象的个数n或情景S时,G(S, n)也可简写为G(S)或G。

(二)关键词向量采集

关键词向量的采集可以是现场进行,也可以在指定时间在网络上填写并提交。为保证不同对象所提供的关键词向量间的一致性,需要尽量让受调研对象被置同一情景中。设第i个调研对象提供的顺序关键词向量为 Vi=(v1(i), v2(i),… ,vm(i))。其中vk(i)是第i个被调研对象的第k个关键词。为了方便,在不至于引起混淆的情况下我们也用Vi表示其分量组成的集合Vi={v1(i), v2(i),… ,vm(i)}。m是每个被调研对象提供的关键词的个数,通常要求每个被调研对象提供的关键词的个数是相同的。在实际应用中,少数被调研对象提供的关键词个数与要求的不一致对结果的影响不大。全部关键词向量组成的集合称为关键词向量集,记为

或者在不引起混淆的情况下用同一符号表示各分量组成的集合,称为关键词集,即

(三)特征向量的提取

假设:关键词向量集是被调研群体的在指定主题情景下的真实反应的关键词形式的记录;被调研群体的个体间的关键词词汇量(语料库)没有区别;在相同情景下被调研个体间的心理状态没有区别。

显然,以上假设只有被调研的对象在年龄、文化水平、心理素质、专业、职业等因素差别不大时才适用。比如同一学校的同一年级的学生、部队中同一个班的战士、同一个车间的工人等。

1.共性特征向量的提取

设在情景S下获得了关键词向量集G(S, n)。从任意一个关键词向量Vi开始,将其分量集合(关键词集合)逐一加进其他被调研对象的关键词集合,进行词频统计。设累计统计的对象个数为M(1≤M≤n),如果存在某个正整数N,当M足够大时,词频数最高的前N个关键词稳定不变,则称这前N个关键词组成的向量为G在情景S下的共性特征向量(Universality Character Vector, UCV),也可以简称为共性向量(Universality Vector, UV)。由关键词提取出的共性特征向量称之为关键词共性特征向量,记为W = (w1, w2, …, wN)。注,此处的特征向量与线性代数中的特征向量(Eigen Vector)含义不一样。

文献计量学中常常需要提取文献中频数高的词条[10-19],如果将提取出的高频词条作成的向量称为高频词向量,则本文中的共性特征向量与高频词向量既有联系又有区别。如果共性特征向量存在,则共性特征向量的分量必须是频率高的;一般情况下高频词向量总是存在的,但从定义来看,共性特征向量不一定存在,即使共性特征向量存在,它所包含的关键词个数与高频词向量所包含的词条数不一定相同。再实际应用中,共性特征向量的存在性不容易检验,但被调研群体中的被调研对象往往是有限的,如果共性特征向量存在,则一定可以提取出来,且其分量是高频词,因此我们可以借鉴文献计量学中的方法提取高频词向量,并按一定的准则将高频词向量或其部分向量作为共性特征向量。

此处定义的特征向量是只与情景S有关的被调研群体中大多数人关心的问题,关心的程度可以用

来表示, 称为W的G(S, n)的集中度(The focusing of W on G)。其中,f(wi)是wi的频数,文中提到的词频分析就是基于词条出现频数的分析,这种方法的最有名的应用是通过词频挖掘大词条数据集中的关联法则[20]。||G||是G中元素的个数(此处为n×m)。从定义不难看出集中度是被调研对象共同关心对象的代表性的一种体现,既然如此,分母中频数为1的词条可以去掉。去掉的是个性,保留的是共性。那么修正后的集中度

反映的是W描述的G的共性的集中程度。

显然,0 ≤ f(W) ≤ 1,如果规定W中每个词条的频率不小于2,则同样有0≤ f *(W)≤1。f或f *越接近于1说明由W提出的G共性越集中。很显然集中度与N有关,对于给定的G,其关键词特征向量一般情况下是不唯一的。事实上,按照上述定義,若W = (w1, w2, …, wN)是G的关键词特征向量,则当N1

我们可以将与特征向量至少有一个分量相同的关键词向量的个数定义该特征向量对G的涵盖率ρ(W)。

2.带约束的共性特征向量的提取

在实际工作中,我们除了要了解整个调研群体的共性之外,往往还要了解群体中特殊子群体的情况。比如,入学新生中男生和女生思想动态的差别,不同专业学生共同兴趣点的差别,准备考研究生的学生普遍关心的问题,低收入人群中突出的思想动态,等等。用关键词向量分析这些问题关键在于能够将群体划分成特殊的子群体,然后提取子群体的特征信息,这种问题我们称之为带约束的特征向量的提取。为处理这样的问题我们提出了三种方法。

第一种方法是预置分类变量法。在情景设置中事先设置分类变量,如根据调查目的不同,让受调研者提供性别、专业(或班号)、薪金数量等信息,用这些信息当作分类变量将G分成相应的子集,然后提取各子集的特征向量用作分析。比如,用性别信息将G(S, n)分成G女和G男,分别提取它们的共性特征向量UV(G女)和UV(G男)。这些特征向量除了可以直接用在实际分析中,也可以用在两个特殊子群体比较分析中,还可以将它们看成集合,作集合的各种运算,用以揭示更深层次的特征。比如,UV(G女)和UV(G男)的交UV(G女)∩UV(G男)表现的是男生和女生的共同共性;UV(G女)-[UV(G女)∩ UV(G男)]表示的是女生区别于男生的特有共性等。

第二种方法是先验特征向量法。首先根据经验设置特殊调研目的的特征向量,或在关键词向量集中提取特殊调研目的的特征向量;然后用该特征向量识别调研群体中的对象组成特征向量集的子集;最后提取该子集的特征向量用作分析。这种方法类似于多元统计分析中的判别分析,先获取分类特征向量,再将被调研群体的每个对象与获得的特征向量进行比较,将满足一定相似程度的对象归为该特殊群体组,再进行特征向量提取分析。

上述提到的根据经验设置的特殊调查目的的特征向量可以称之为先验特征向量(Priori Character Vector, PCV),先验特征向量可以是以往相同主题和场景调研所获得的特征向量。

第三种方法是迭代扩张法。关于在关键词向量集中提取特殊调研目的的特征向量我们设计了一个迭代扩张法( Iterative Expansion Method, IEM )。

该方法是根据调研的目的,首先选取种子关键词集G0,提取G中包含G0的所有关键词向量组成集合的特征向量CV1;用CV1代替G0,提取G中包含CV1的所有关键词向量组成集合的特征向量CV2;如此迭代,当本次提取的关键词特征向量CVk等于CVk-1时终止迭代,CVk即为所求的特征向量。

种子关键词集,可以选取一个或多个最能体现特殊调研目的的关键词组成。比如我们的调查对象是大学二年级初经济学专业大学生中准备考研究生的学生们的思想动态,根据经验一般考研学生都比较注重高数(高等数学)和英语的学习,他们通常会将高数和英语列为关键词,故而,我们可以设置G0={高数,英语}。当然,可以设G0={考研}。

迭代扩张算法为:

Step1:设置种子关键词集G0。令s=1,CVs=G0。

Step2:将CVs与G中每个Vi进行比较,令t=1,将包含CVs的Vi的分量组成Gt

Gt={vk(i) | Vi=(v1(i), v2(i),… ,vm(i))[?]CVs, k=1, 2, …, m}

Step3:提取Gt的共性特征向量CVs+1,显然CVs+1[?]CVs,Gt [?]Gt-1。

Step4:令s=s+1,t=t+1,重复Step2和Step3得

G[?]…[?]CVs+1[?]CVs[?]…[?]CV1=G0 (6)

Step5:如果CVs+1≠CVs返回Step4;如果CVs+1=CVs,则结束迭代,CVs+1即为所求特征向量。

迭代过程使得特征向量集不断扩大,构成了单调上升有上界的序列(6)。G是有限集时,该迭代扩张算法显然是收敛的,因为CVs+1不能超过G;G是无限集时,根据单调上升有上界必有极限的原理同样得到该算法收敛。

(四)特征向量的校验

因为特征向量是要用尽可能少的关键词概括尽可能多的被调研群体的共性,因此关键词向量所包含的关键词的个数和关键词向量的集中度之间要取得平衡。被调查群体越大获得的特征向量越稳定,并且群体中部分对象中所提取的特征向量随着部分数的增加而趋近于整个群体的特征向量。不过,由于文字数据没有顺序性(order)和可加性(additivity),上述“趋近于”不能简单地理解为通常的极限。显然特征向量越稳定越好,我们可以借用Bootstrap思想[21]对特征向量的稳定性进行校验。

为此,我们给出两个有限集合的匹配度的定义。设集合A和B的元素个数||A||= nA,||B||=nB。定义A和B的匹配度为

[r(A,B)=A∩B2nAnB] (7)

显然,[0≤r(A,B)≤1,且r(A,B)=1?A=B]。

1.特征向量稳定性校验

设W是G的特征向量,作G的子集集合[GKGK?G;K=1,2…,M;GK=nik],作Gk的特征向量Wk,若

[r=1Mk=1Mr(W,Wk)] (8)

充分接近于1,则称W是稳定的。

实际应用中子集所包含关键词的个数[nik(k=1,2,…,M)]尽可能大,[nik]也可以取同一个值。Gk不必互斥。“r充分接近于1”可以根据经验判断,如果可以得到r的经验分布,则可以构造统计量进行假设检验。

2.关键词向量长度的校验。

在关键词向量调研中,所采集的关键词向量的长度也是需要考量的问题。采集的是被调查对象的最关心问题,当被调研对象提供最关心问题的关键词向量时往往是越关心的就越靠前。因而,要求提供关键词向量时不必需要向量太长;在提取特征向量时也不必用整个向量,而是只要用前面的部分分量就可以,这样不至于使得提取出的特征向量对调研对象的集中度过低。当然,有可能越往后提供的关键词有可能是心里更深处所关心的问题,也可能是更长远的问题,这方面与分量顺序有关的深层次问题本文暂不考虑。

设G的特征向量为W,[G[k]]是G中每个向量的前k个分量组成的关键词集,其特征向量为CV[k],若存在某个k0,使得r(W,CV[k0])充分接近于1,则称k0是关键词特征向量的充分长度。

二、新生思想动态调查

今年国庆节之后,新生军训刚刚结束,在给经济专业新生和统计专业新生上专业导论课的第一节课上课之前,给每位学生分发一样白纸,告诉每学生在5分钟之内用20个词语写出自己目前最关心的、想得最多的事物,不需要提供个人任何信息。

(一)数据描述

经济学专业86人,统计专业26人,共收得问卷112份,其中少数人没有写满20个词,共得记录2181个。另有少数学生提供的关键词是语句而不是一个词,我们用R的断词函数进行了处理,共得3398个词。根据中文停词表对处理后的词进行整理,最终得到1224个关键词。基于词频的关键词向量分析过程均用R语言编程实现。图1为关键词云图。

我们对关键词集作了频数统计,如表1所示。

(二)共性特征向量的提取

根据共性特征向量的定义和表1频数的分布 ,对比样本量为50、60、80、90、100、112的前14个高频词,结果如表2所示。

根据表2的结果和特征向量的稳定性、确定特征向量的充分长度两种方法对特征向量的校验,得到频数为前8的关键词可作为共性特征向量,如(9)式所示。

E={高數 学习 英语 健康 朋友 睡觉 作业 成绩} (9)

E的集中度为0.176,涵盖率达到了79.46%。其中,各关键词出现的频数如表3所示。所得的共性特征向量体现出来的新生思想动态是健康向上的,为进步和今后的工作而努力学习成为学生中的主流,这会推动良好氛围的形成。“朋友”成为共性特征向量的关键词说明新入校的大学生感情方面的需求悄然凸显,正确引导必不可少。“睡觉”成为特征关键词是个意外。事后进一步调查才知道,入校1个月以来学生们不仅经历大强度的军事训练,而且几乎没间断地参加各种各样的集体活动,并且同寝室同学间“卧谈”盛行,每天早晨还要参加集体早锻炼,这些使得同学们普遍睡眠严重不足,渴望睡觉。睡觉问题非常突出,学生辅导员等学生工作者应重视这一问题。

为了了解有考研意向学生的思想状态,根据数据集中的特征,以{考研}、{保研}和{研究生}为种子关键词,根据本文提出的迭代扩张法计算,每次循环所提取的共性特征向量依据共性特征向量的提取方法,样本量分别选取筛选Gt的2/3、4/5和全样本,每次选取前14个高频词集比对,结果如(10-14)式所示。

CV4={高数 学习 英语}= CV3 (13)

经过3次迭代算法收敛,得到准备考研究生的同学的共性特征向量如(15)式所示。

E研={高数 英语 学习} (14)

考研共性特征向量看起来很正常,其实其中隐藏着高等教育中长期存在的弊端,那就是“目的性太强”。对于考研究生的学生而言,考研不应该是全部,不能为了考研而轻视了综合素质的培养,更不能忽视应承担的社会责任。

三、讨论

从应用实例看,本文提出的基于词频分析的关键词向量调查方法具有快速高效的特点,适用于对大学生群体等生活环境相同、文化水平相当的群体进行实时快速调查,群体越大效率越高,效果也会越好。关键词特征向量的提取需要的是计算机文字处理与分析技术,R语言可以很方便地实现相关功能。采集到的关键词向量集不仅仅可以做本文所提出的特征向量的提取,还可以进行深度数据挖掘,比如关联分析[20]等。

我们将关键词集G(S, n)中低频的关键词组成的向量或集合称为G的个性特征向量(Individuality Character Vector, ICV)。个性特征向量的分析是要针对具体的对象,虽然不能代表总体的共性特征,也不一定会引起学生辅导员等学生工作者的关注,但个性特征向量在某一方面的集聚代表着潜在问题的存在,需要格外重视,防患于未然。在特征向量调查法中,个性特征向量应该被高度重视,它是对共性特征向量的重要补充,本文不在此展开讨论。

由于文字数据不具备可加性,传统的数学和统计方法的应用受到局限,甚至像本文中提到的收敛等概念不能用实空间中极限理论定义,但这并不影响特征向量的提取,更不影响其应用。

文字数据另一方面具有模糊性和多解性,因此特征向量的提取之前进行文字预处理是必需的,文字预处理可以用到模糊理论和方法甚至人工智能技术。如果将受调研的对象可以选择的全部关键词组成的集合称为关键词支撑集,那么理论上看不加限制的关键词支撑集是无限的、开放的,为了使得特征向量的收敛性质更好,在实际应用中可以对支撑集加以限制。比如,我们在对新生进行调研时发现两个字的关键词占41.3%,如果限制关键词全是两个字的则会提高共性特征向量的集中度,损失的信息在可接受的范围之内。如果根据以往的调研数据,制作一个备选关键词集合(可以足够大),让被调研者在该集合中勾选关键词,这时候支撑集是有限的、封闭的,文字本身的模糊性就消除了,得到的关键词集就是AGRAWAL他们用的词条集[20]。有限支撑集对共性特征向量的影响比个性特征向量大。本文仅对学生群体做了关键词特征向量的分析试验,其他的群体甚至其他语言的关键词的分析必定有特别之处,另外本文提出的方法还有许多需要完善的地方,这些工作有待今后逐步完成。

[ 参 考 文 献 ]

[1] MAYER-SCH?NBERGER V.CUKIER K.Big data:A Revolution that will transform how we live, work and think [M].Houghton Mifflin Harcourt Publishing Company,2013.

[2] 何清,李宁,罗文娟,等.大数据下的机器学习算法综述[J].模拟识别与人工智能,2014(4):327-336.

[3] 苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006(9):1848-1859.

[4] 马玉慧,柏茂林,周政.智慧教育时代我国人工智能教育应用的发展路径探究[J].电化教育研究,2017(3):123-128.

[5] 闫志明,唐夏,夏秦旋,等.教育人工智能(EAI)的内涵、关键技术与应用趋势[J].远程教育杂志,2017(1):26-35.

[6] 程学旗,靳小龙,王元卓等.大数据系统和分析技术综述[J].软件学报,2014(9):1889-1908.

[7] 邱东.大数据时代对统计学的挑战[J].统计研究,2014(1):16-22.

[8] 张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013(S2):216-233.

[9] 管鑫雨.情境性词汇教学的研究分析[J].教育现代化,2016(27):146-150.

[10] 邱均平,丁敬达,周春雷.1999—2008年我国图书馆学研究的实证分析(上) [J].中国图书馆学报,2009(35):72-79.

[11] 邱均平,丁敬达.1999—2008年我国图书馆学研究的实证分析(下) [J].中国图书馆学报,2009(35):79-118.

[12] 傅柱,王曰芬.共词分析中术语收集阶段的若干问题研究[J].情报学报,2016(35):704-713.

[13] 张宝生,祁晓婷.我国政府公共关系研究的演进路径及热点主题的可视化分析[J].图书情报工作,2017(61):122-126.

[14] WANG ZY,LI G,LI A,et al.Research in the semantic-based co-word analysis[J].Scientometrucs,2012,90(3):855-875.

[15] 魏瑞斌.基于關键词的情报学研究主题分析[J].情报科学,2006,24(9):1400-1404.

[16] DONOHUE J C.Understanding Scientific Literatures:A Bibliometric Approach[M].Cambridge:The MIT Press,1973:49-50.

[17] 刘敏娟,张学福,颜蕴.基于词频、词量、累积词频占比的共词分析词集范围选取方法研究[J].图书情报工作,2016(23):135-142.

[18] ZHANG S, LIU C X, CHANG Y.Selection research of keywords in co-word clustered based on the G-index of word frequency[J].Modern Educational Technology,2013,23(10):54-57.

[19] 杨爱青,马秀峰,张风燕,等.g指数在共词分析主题词选取中的应用研究[J].情报杂志,2012(2):52-55.(YANG AQ,MA XF,ZHANG FY,et al.Application research of g-index in the topic words of co-word analysis[J].Journal of Intelligence,2012,31(2):52-55.)

[20] AGRAWAL R,IMIELINSKI T,SWAMI A.Mining Association Rules between Sets of Items in Large Databases[J].ACM SIGMOD Record,1993,22(2):207-216.

[21] BRADLEY E.Bootstrap methods:another look at the jackknife [J].The Annals of Statistics,1979,7(1):1-26.

[责任编辑:王 品]

猜你喜欢

词频特征向量共性
延安精神和三线精神的共性特性与继承弘扬
高中数学特征值和特征向量解题策略
三个高阶微分方程的解法研究
毛泽东话语的词语特征
旋转体容球的一个有趣共性再探究
氨基酸序列特征向量提取方法的探讨
词频,一部隐秘的历史
矩阵方法求一类数列的通项
喜爱音乐的物理大师