基于NLP的公众人物信息数据挖掘研究
2020-05-18黄莉
黄莉
[摘 要]NLP指自然语言处理,将人类特有的语言转为结构化数据,是数据挖掘中人机交互的基础。本文以公众人物的公开文本信息为数据集,基于NLP自然语言处理的词向量及余弦相似度,主要对相近职业、月亮星座和地理位置3个维度展开浅层分析。为初步建立画像特征,挖掘步骤分为数据探索、爬虫采集和数据预处理,数据量级、颗粒度、泛化和评估仍有待优化。
[关键词]数据;维度;NLP
doi:10.3969/j.issn.1673 - 0194.2020.08.087
[中图分类号]TP311.10[文献标识码]A[文章编号]1673-0194(2020)08-0-02
1 數据探索
数据探索包含数据质量分析和数据特征分析,是为了进一步数据采集、预处理和建模,通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程。数据质量分析需要准备可信的数据,是数据挖掘的重要基础,直接影响模型和结论的有效性和准确性。需要观测收集样本数据源的数量和质量,检查原始数据状态,如缺失值、异常值、非一致值、重复值等数据,分析比较明显的规律和趋势、各因素之间的关联性,满足模型构建的要求。数据特征分析一般是分布分析和统计量分析。分布分析能揭示数据的分布特征和分布类型。通过定量数据分布分析,了解其分布形式是对称的还是非对称的,发现某些特大或特小的离群值;通过定性数据分布分析,根据定性变量的类型来分组。统计量分析则有集中和离中趋势度量、趋势度量、周期性分析、贡献度分析、相关性分析。截至2017年,维基百科的文本集字段有文章编码、标题、章节标题、章节文本。公众人物相关文本集的存储结构以姓名为标题,章节标题一般包含简介、早期、家庭、教育或生涯,因此本文所需的数据主要采集于早期。
2 数据采集
元素采集的规则是,通过姓名实体识别,初步采样英文人名名单样本框。以姓名为索引,从维基百科英文网简单随机抽样,按出生日期截取初步样本数据集。其中出生日期的时间序列跨度主要为10年(1900-1910年);公众人物样本单元数为310;维度简化至12个,分别为:姓名、职业、行业代码、月亮星座、星座属性、出生日期、死亡日期、年龄、所属洲、原国籍、国籍和性别。职业元素结合国际劳动管理组织2008年发布的职业国际标准分类ISCO-08确定,一人多职者,由该职的突出性确定入样权重。国籍的元素则根据国际标准化组织管理的国家代码ISO 3166-1-2006进行数据变换。这里月亮星座的算法是b=int(a-0.2+0.4n),a和b分别是太阳星座和月亮星座的编码,n是农历生日的“日”部分。
3 数据预处理
数据预处理主要包括数据清洗、数据集成、数据变换和数据规约。
3.1 数据清洗
数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,过滤与挖掘主题无关的数据,处理缺失值、异常值等。采取删除记录、数据插补来解决缺失值的问题。通过删除含有异常值的单元来保全完整度是最有效的,但减少历史数据会造成资源大量浪费和信息丢失。数据集越小,对分析结果的客观性和正确性影响越大。
3.2 数据集成
数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)的过程。要考虑实体识别和属性冗余问题,从而将源数据在最低层上加以转换、提炼和集成。实体识别指筛选并整合与挖掘有关实体,如识别同名异义、异名同义、单位不统一,用相关分析检测并删除冗余属性(重复或近义)。
3.3 数据变换
数据变换主要是对数据进行规范化处理,如平方、开方、取对数、差分运算等,将数据转换成便于机器运算的形式,以适用于挖掘任务及算法的需要。变换常用来将不具有正态分布的数据变换成具有正态分布的数据。维度内区间跨度差别很大,可使用对数变换对其进行压缩。在时间序列分析中,有时简单的对数变换或者差分运算可以将非平稳序列转换成平稳序列。
数据规范化(归一化)处理是数据挖掘的基础步骤之一。基于距离的挖掘算法有离差标准化、标准差标准化、小数定标规范化、连续属性离散化。不同评价指标往往具有不同的量纲,数值间的差别可能很大,不进行处理可能会影响数据分析结果。为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定区域,便于进行综合分析。
3.4 数据规约
在大规模复杂的数据挖掘生产环境中,往往需要优化数据集、泛化模型、提高运算效率、降低存储成本。数据规约分为属性规约和数值规约。属性规约是在尽可能地接近原数据集的概率分布下,找出最小的属性子集,通过属性合并来创建新属性维数,或者直接删除不相关的属性(维)来减少数据维数。数值规约指在尽量少丢失信息下用较小的数值表示元数据以减少数据量和运算量,包括有参数和无参数两类方法。有参数方法是使用一个模型来评估数据,如参数回归。无参数方法则使用实际值,如直方图、聚类、抽样。
为确保样本信息的真实性,这里的训练集经过规约删除与本次挖掘主题无关的属性和数值,不处理部分缺失值,插补出生日期和死亡日期数据,如月日不详,取首月首日,规范国籍和性别(0为女,1为男)。样本容量310,其中月亮星座分布的标准差约为2.67。各月亮星座下的大类行业科研、军政、经济、艺术、体育的数据规约采用(d-avg)/std,d是人数,avg是平均值,std是标准差(详情见https://github.com/SpencerHale/w2v.git)。当某个星座在离开平均数1个标准差附近,计±0.5分,表示“人数接近且高于平均水平”或“人数接近但低于平均水平”。当明显超过1个标准差,计±1分,表示“人数比较多”或“人数非常少”。当超过2个标准差,计±2分,表示“人数非常多”或“人数非常少”。在1个标准差以内,计0分,表示“人数处于平均水平”。四象月亮星座在大类行业和地理位置中的分布比较相似,在艺术上和欧洲的人数都明显超过1个标准差,人数都比较多。当细分月亮星座为水瓶时,在大类行业为军政和体育上的人数明显超过1个标准差,人数比较多;而金牛则在经济上超过2个标准差,人数非常多。原国籍占比的前三位是美、英、德,分别约为35%、14%、9%。年龄整体的平均值约为75,其中科研行业的平均年龄比较大,经济行业的平均年龄比较小;艺术行业的年龄极差接近且高于平均水平,体育行业的年龄极差比较小。男女性别比约为4.6∶1(男255,女55)。
4 数据挖掘
根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模式和偏差检测等模型,结合实际问题选择机器学习算法模型。机器学习是通过训练数据集,找到特征和标签间的关系,使机器自动分析未知的数据标签等,并迭代优化。按解决问题的属性来划分,分为分类学习算法模型、聚类学习算法模型、回归学习算法模型、推荐学习算法模型;按训练数据集特征和标签的有无来划分则包括监督学习算法模型、半监督学习算法模型、无监督学习算法模型。如已知特征、有标签,属于监督分类;未知特征、无标签,属于无监督聚类;已知特征、部分有标签,属于半监督分类;未知特征、部分有标签,属于半监督聚类。实际情况下,无标签数据量一般远远大于有标签数据量,通过一些有标签数据的局部特征,无标签数据的整体分布,也可以迭代训练模型。
本文选择了谷歌开源的无监督学习聚类算法模型word2vec。封装接口则调用开源第三方库gensim.scripts.glove2word2vec。原理是将词映射到N维的向量空间,然后基于这个词向量进行聚类,计算近似词以及分析词性等。语料直接加载了100维GloVe词向量的文本文件,以引入外部语义信息,训练平均耗时约35秒。GloVe词向量是斯坦福基于共现矩阵分解预训练
60亿词的词向量。这里基于余弦相似度计算职业在语义上的近似关系,通过PCA主成分分析对特征維度进行降维,并将这些向量形成的几何嵌入空间。将一个词用特定的向量来表示,当向量之间的余弦相似度越高则距离越近,在二维空间里,词之间的语义关系也越近。例如,“physicist”与“mathematician”
“scientist”“chemist”的距离分别为0.17、0.21、0.22,证明在二维空间里,余弦相似度比较高,语义上的职业相似度也高。当进一步细分职业为数学家时,月亮星座为火象和风象的人数接近且高于平均水平,地理位置为欧洲的人数非常多。但物理学家为风象的人数比较多,土象的人数接近但低于平均水平;科学家和化学家则水象比较多;而且地理位置为欧洲的人数都比较多,亚洲的人数接近但低于平均水平。
5 结 语
本文还需要优化之处:增加样本数据量;细化相关维度的颗粒度,如增加父亲职业、母亲职业、启蒙年龄、教育程度、死亡原因等;训练其他语言版本,泛化模型,建立画像。
主要参考文献
[1]张良均,王路.Python数据分析与挖掘实战[M].北京:机械工业出版社,2015.
[2]O Levy,Y Goldberg,I Dagan,Improving Distributional Similarity with Lessons Learned from Word Embeddings[J].Transactions of the Association for Computational Linguistics,2015:211-225.