陶瓷行业博客文本矩阵的建立方法
2018-12-05胡小丽
胡小丽
(景德镇陶瓷大学信息工程学院,江西 景德镇 333403)
1 引言
在有着几千年历史且名扬海外的中国陶瓷行业,网络中有大量关于陶瓷艺术、陶瓷文献、陶瓷企业、陶瓷产品、陶瓷技术、陶瓷原料、燃料以及行业资讯等陶瓷方面的有价值的博客信息资源。为了提高陶瓷行业聚类的精度,陶瓷信息词典的建立与博客文本矩阵建立方法尤为重要,对提取陶瓷行业博客文本特征有着重大意义。
2 陶瓷信息词典建立
本文从各知名陶瓷网站中收集信息,进行预处理,再进行人工分类,创建了以下11个类别,分别是:陶瓷艺术、日用陶瓷、建筑陶瓷、卫浴陶瓷、功能陶瓷、工业陶瓷、陶瓷燃料、陶瓷原料、陶瓷商贸、陶瓷文献和陶瓷技术。收集的信息主要来自全国陶瓷行业排名前十位的陶瓷网站服务商,如中国陶瓷信息资源网http://www.ccisn.com.cn、中国陶瓷网http://www.taoci163.com/、中华陶瓷网 http://www.chinaceram.cn/、中陶网http://www.ccenn.com/等等。这些网站相对来说是比较权威的,其信息内容比较全面,信息来源也都是可靠的,能够很好地满足创建陶瓷信息语料库的要求。创建的陶瓷信息词典以文本格式保存到相应的文件中。
3 陶瓷信息词获取方法
陶瓷行业的博客文本的特征词与陶瓷信息密切相关。提取陶瓷信息的方法有多种,例如,基于陶瓷信息词典的方法、基于语料库的方法等等。本文选用的是基于陶瓷信息词典的方法。
提取一篇文章中的陶瓷信息词的方法:先为选用的陶瓷信息词典建立一个表,然后通过查表的方式判断进行过分词处理的文章(词串)中的词是不是陶瓷信息词。如果能在表中查找到,则是陶瓷信息词,将其输出;否则,不是陶瓷信息词,判断下一个。这样,最后得到一个陶瓷信息词串(该串可以是空串)。考虑到陶瓷信息词表的长度较长,加之需要频繁查找,为降低开销,我们采用了索引技术。先对无序的陶瓷信息词语表排序,按字长由短到长,然后对排好序的陶瓷信息词表,根据词的字长建立了一个索引表。因此,查找陶瓷信息词时,可以先查索引表,然后查陶瓷信息词表。具体算法如下所示:
提取陶瓷信息词的算法:
输入:陶瓷信息词典CIC,词串S1
输出:陶瓷信息词串S2
方法:
1)创建一个表存放陶瓷信息词典CIC;
2)将CIC按陶瓷信息词字长以升序排列;
3)根据词的字长在CIC上创建一个方便查找的索引表Index;
4)Loop1
5)判断S1是否为空,如果是,执行第(13)步,否则,继续;
6)取S1中的第一个单词视为当前单词W;
7)Loop2
8)判断W是否标点符号,如否,继续执行判断;否则,读串S1的下一个单词作为当前单词W,并执行第(4)步;
9)计算W的字长;
10)在索引表Index中查询单词W,如果查找到,继续执行;否则,读串S1的下一个单词视为当前单词W,并执行第(4)步;
11)在CIC中查询单词W,如果查找到,执行第(8)步;否则,读串S1的下一个单词视为当前单词W,并执行第(4)步;
12)W进入串S2,并从S1中去掉W,执行第(4)步;
13)输出词串S2。
在具体实现程序过程中,我们可以队列的形式存储词串S1和S2,采用二维数组存储陶瓷信息词。
4 陶瓷博客文本矩阵建立
从Web获取到的博客文本经预处理后仍然属于半结构化数据,需要将数据结构化,即转换为数据库中的结构化数据形式,才能用于后续的聚类分析处理。从Web页面中获取的文本必须表示成计算机可读取的形式,常用的表示形式:向量空间、布尔模型、基于图的文本表示、概率模型和潜在语意索引等。本文采用向量空间模型的建立方法。
向量空间模型是将一篇文档表示成一个特征值向量。同样一个文档数据集合中所有不重复出现的词(除了停用词)组成该向量的各分量,每一个不同的特征项对应向量的一个维度,维数和词的数目相同。也就是说,在向量空间模型中,每一个文本都被转换为一个n维的向量,n为特征项的个数,形式为V(T1,W1;T2,W2;…;TV,WV),Tk为特征项,Wk为特征项权重。向量中的Wk的值表示Tk在此文档中的中的权值,即Tk对于描述此文档所起作用的程度。Wk越大,则Tk对于描述V(T1,W1;T2,W2;…;TV,WV)也越重要;Wk越小,Tk就越不能反映V(T1,W1;T2,W2;…;TV,WV)的内容。
本文选取的文本表示方法是基于向量空间模型的方法,该方法是将文本映射成为一个特征向量,把博客看作一个文本,每个博客都有对应的特征项(也叫索引词),V={T1,T2,…,TV}表示相关博客的一组特征项,每一个Tk都是一个索引词,集合V称为词汇表,v表示它的大小,代表V中所包含的特征项个数,对于博客Bj中的每个特征项Tk,都有一个权值Wkj,这样对于每个博客Bj都可以被表示成一个词向量Wj={W1j,W2j,…,Wvj},这个词向量就是该博客的特征向量。从而对于一个有M个博客的博客集,可以构造相应的文本特征项矩阵:
5 结束语
基于向量空间模型的矩阵建立方法是目前较为常用的文本表示方法。该方法较布尔模型包含了更多的信息,对陶瓷行业博客文本的聚类研究非常有帮助。