APP下载

微博用户的个性特征及交互关系分析

2021-01-13金茂辉湖北民族大学

环球首映 2021年6期
关键词:个性特征特征内容

金茂辉 湖北民族大学

一、前言

微博是继博客之后出现的一种新型的Web2.0互应用,相比BBS、博客等交流平台,它独特的平台架构、设计理念及便捷的发布方式使用户交流更为及时、畅通和广泛。根据《第46次中国互联网络发展状况统计报告》显示,截止2020年9月29日,微博月活跃用户达5.23亿,同比增长3700万。每天活跃用户2.29亿,同比增长1800万。

媒体、企业、政府单位等纷纷入驻微博,开始了新媒体的尝试,与此同时,国内外学者开始了对这一新媒体的研究。但目前的研究主要集中在微博应用价值的探讨,如微博在网络营销、教育、新闻及重大事件通报等领域的应用,对于微博中理论模型、用户关系、用户行为特征、信息交流机制与结构却少有研究。事实上,建立微博的关系模型和用户模型,掌握微博用户的行为特征和相互交流的内在规律,是探索及开发微博新应用的基础。

因此,本项目将以微博作为研究平台,对微博的用户关系、用户行为、主题传播建立理论模型,分析微博用户的发帖、回帖、转帖、引用、私信等各种交流方式,利用Web挖掘理论技术,精确挖掘微博用户的真实身份和个性特征,研究微博中用户关系网络特点和度量方法,实现重要用户和“小团体”的发现。本项目的研究对划分微博用户群体、识别潜在客户、加强网络监管、真实化虚拟用户等具有重要的意义。

二、微博用户的个性特征及交互关系分析

(一)微博相关模型分析与建立

一是微博基础模型。研究微博中的各种表示方式和组织结构,分析微博中内容关系与传播规律,建立微博的基础理论模型。二是用户的行为模型。研究微博用户发帖、回帖、转帖、引用、私信、关注等各种行为,建立微博中用户的行为模型。三是用户的个性特征模型。基于微博用户的行为模型,研究如何建立微博中用户的个性特征模型和兴趣模型,描述微博用户的年龄范围、性别、学历、职业类别、收入范围、资产、地域、兴趣、特长、性格特征等个性特征要素。四是微博用户关系模型。研究微博中的用户关系与传统社交网络的区别,研究微博中用户与用户之间的交流以构成用户的关系网络,通过用户基本信息特征以及充分挖掘用户间的各种交流行为,建立微博用户关系模型来反映用户关系强度、方向、重要程度等特征。

(二)微博用户的关系网络研究

①微博中用户的交互特征和交流行为。微博中用户的交互交流主要有两类,一类是通过围绕某个微博主题多个用户进行发表、评论、转发、引用等行为而产生的关系;另一类是用户间直接进行的信息交流。在用户关系模型的基础上,研究用户间不同关系的行为特征和计算方法。②微博中用户的关系网络研究。由于微博中用户数量庞大、用户间的交流行为密切、交流内容信息量较少,传统的关系计算方法在性能上无法满足微博的应用。本项目基于微博中用户的不同的交互行为,在微博用户关系模型的基础上,研究如何构造用户间的关系强度计算方法,最终形成有向的微博用户关系网络。③微博中重要用户的发现与排序。微博作为越来越有影响力的Web应用,通过挖掘微博中的重要用户,以实现广告营销、舆情疏导等具有重要的意义。本项目将研究如何通过用户关系网络分布和影响力模型,来挖掘微博中的重要用户并对其进行排序。④微博中“小团体”的发现与分析。微博中“小团体”的发现和分析,对划分微博用户群体、识别潜在客户、加强舆情监管等具有重要的意义。本项目将研究如何根据“交往亲密、互动活跃、兴趣相似”的原则,挖掘真正紧密的微博“小团体”。

(三)微博用户真实属性和个性特征挖掘

①微博用户真实属性和个性特征模型要素与属性集。研究如何建立微博用户的真实属性和个性特征的模型和推导规则,针对微博用户的真实属性和兴趣爱好,建立不同的描述算子、取值范围和特征推导集合。特征属性集可根据要求进行动态增加和调整。②基于文本内容的用户真实属性和个性特征挖掘。微博中的文本内容具有长度短、频率高、缺乏上下文语境等特点,为基于用户的微博内容挖掘用户特征属性带来了困难。本项目将从快速过滤无效内容、短文本潜在语义扩展挖掘和多文本共性特征挖掘三个方面展开深入的研究。③基于用户关系的真实属性和特征挖掘。在现实生活和网络交互中,那些交往较为亲密的朋友似乎具有较多的相似性。但是相似的程度、相似的特征和相似的特点都具有不确定性。本项目将针对大量的微博数据进行统计分析,来量化不同的用户交互关系与特征相似度的相关性,最终推导基于交互行为的个性特征挖掘方法。④基于用户的时间行为与频率周期的用户真实属性和个性特征挖掘。研究如何根据时间量、频度、间歇、日月年时间分布、假期时间分布等时间统计特征,来推断用户的用户真实属性和个性特征。⑤不确定性的属性决策与推断。根据多种规则集可以针对特征属性得出不同的推导结论,相互之间的支持度和结果集会存在不确定问题。本项目将研究如何在多个推导规则下的用户个性特征属性决策和推断方法。

本文将深入研究微博中的组织方式、用户交流机制和行为特征,建立科学、合理、有效、完善的微博理论模型。在此基础上,对微博中用户的行为、交互进行大规模的数据分析,研究微博用户间的关系特征,建立微博用户的关系网络模型和计算方法,实现微博用户的关系分布、重要用户发现和“小团体”挖掘。同时基于用户的行为特征和言论记录,建立微博用户真实属性和个性特征模型,针对微博主题高频率及短文本的特点,研究通过短文本内容挖掘、关系网络挖掘和行为挖掘三种发现,实现对微博用户真实属性和个性特征的挖掘和提取,最终开发微博用户关系网络分析系统和微博用户个性特征挖掘系统,为微博营销、知识挖掘、微博舆情和宏观管理提供理论工具和应用平台。

三、微博用户真实属性和个性特征挖掘系统分析

(一)微博用户真实属性和个性特征挖掘

(1)微博用户真实属性和个性特征模型要素与属性集。在本项目中,首先对微博用户的基本属性进行分析和挖掘,定义用户的特征属性集合(包含年龄、性别、职业、地域、学历、兴趣、性格等)的描述算子和取值范围。特征属性集可根据要求进行动态增加和调整。微博用户的兴趣爱好属性用兴趣空间来表示,用户的兴趣取值用兴趣集来表示,兴趣集为兴趣空间的子集。取值概率反映了兴趣爱好存在性和兴趣程度。

(2)基于文本内容的用户真实属性和个性特征挖掘。微博内容的文本长度一般在140字以内,且相关的评论数量大、文本短,传统的关键词模型和概率模型不适用于微博内容的特征挖掘。针对微博内容的特点,本项目将基于微博内容采用3个步骤实现真实属性和个性特征的挖掘。

一是微博内容过滤。因为微博内容具有数量大、速度快等特点,为基于内容的特征语义挖掘带来了效率上的困扰,所以本项目在进行微博真实属性和个性特征挖掘时,先利用改进的相似度模型,快速地过滤无效的微博内容。

二是基于多文本组合的共性特征挖掘。为了克服传统主题词抽取算法中的主题漂移与主题误判等问题,本项目利用关键特征的共现信息来进行特征挖掘。根据词汇与文本中的上下文环境词汇的共现关系来调节词的权重评分,对该用户在多篇微博中多次提到的类似关键特征进行重点分析。

三是微博内容的短文本潜在语义分析。本项目将改进潜在语义模型来实现微博中短文本的语义分析,将微博文本、微博评论和相关转发进行综合分析,首先建立评论内容或转发内容对正文内容的对应关系,挖掘评论或转发中对正文的补充描述,实现正文的特征扩展。其次建立用户真实属性与个性特征的各个特征属性的规则集和推导集,以及基于半监督的规则集和推导集的构造方法。最后对正文进行语义扩展,挖掘正文中的词法和句法,对关键词进行相关扩展,基于本体的规则匹配来与规则集和推导集进行投影比较,最终构造特征属性上的结论集。

Thompson(1996:65)指出:“任何对语篇人际意义的分析,都必须涉及其中的评价。”Martin&White(2005)的评价理论认为,词汇资源也表达人际意义,强调人际功能中“人”的因素。评价表达作者对评价对象的情感、观点和看法。评价对象可抽象为实体和命题(张大群,肖雁2014)。实体评价通常由形容词实现,作者情感、态度的表达往往直观明了,评价呈显性。而命题评价大多呈隐性,对于语境的依赖性较强,信息的解读往往要借助于作者和读者共享的历史文化语境及价值观。

(3)基于用户关系的真实属性和特征挖掘

在现实生活和网络交互中,那些交往较为亲密的朋友似乎具有较多的相似性。但是相似的程度、相似的特征和相似的特点都具有不确定性。本项目将从大量的微博用户行为和用户交互关系数据进行分析,进行微博中用户关系和特征相似性的研究以找到兴趣相似特征的规律和特点。

为了检验在微博用户中,用户之间关系k是否具有特征相似性,随机选择一组用户对,对每个用户对进行检验。

在用户对空间R中,随机选择n个用户对形成总体R’,n>200,根据用户对的关系k的关系强度的取值范围,从小到大划分为5个值域A1、A2、A3、A4、A5,根据用户对的相似度的取值范围,从小到大划分为5个值域B1、B2、B3、B4、B5。

统计每个用户对的关系i的关系强度和相似度的值,构造用户间关系强度和相似度的r*c联表,建立卡方分布的统计量,来对不同的用户关系和相似度进行假设检验判定。

(4)基于用户的时间行为与频率周期的用户真实属性和个性特征

用户登录微博的时间统计特征包括:时间量、频度、间歇、日月年时间分布、假期时间分布等时间统计特征。用户登录微博的时间行为,能够一定程度上反映该用户的特征,对这些时间特征进行归纳统计,推理挖掘出相关特征。

以上描述了通过多种方法进行用户的真实属性和个性特征的挖掘,这些挖掘的结论将组成一组结果集。然而,根据不同的规则,可能有互斥的一些结论,如何来对这些不确定的结论来进行最终结论推导是本节研究的问题。

(二)个性特征挖掘与关系网络研究的原型系统开发

(1)开发微博应用综合平台

本项目将采用Hadoop分布计算平台,通过元搜索引擎技术,整合国内主流的微博系统,对其中的用户和主题相关数据,分布式的进行数据抽取和数据挖掘,以结构化的形式存入本地服务器的ORACLE数据库中,建立完善的微博用户行为、关系的分析系统。

(2)开发微博用户关系网络分析系统

在微博数据平台的基础上,根据微博用户关系网络挖掘方法,开发相关算法并融入到系统中,使系统提供预读和预判机制,自动计算用户间的关系强度和方向,自动绘制用户间的关系网络图;提供重要用户排序列表和“小团体”分布结果。

(3)开发微博用户个性特征挖掘系统

在微博数据平台的基础上,根据微博中用户真实属性和个性特征的挖掘方法,开发相关算法并融入到系统中。在分布式采集时,将微博主题进行结构化处理,并对无效数据预过滤,对有效数据进行预分词。当查询用户名时,系统快速的对该用户进行真实属性和个性挖掘,并将结果展示出来。

微博中用户数量庞大,用户间的交互关系种类多样,用户交互行为频率较高,传统的社会关系网络分析方法在效率和精度上都不能满足微博用户关系的研究。研究科学有效的微博用户关系分析方法,建立高效、精确的微博用户关系网络是一个极具挑战性的关键科学问题。

微博中用户发表的主题、回复的文本内容往往都比较短,且数量多、频次高。基于关键词频无法得到准确的数据,传统的语义分析也因缺乏上下文语境无法高效的实现。寻找合适的方法,快速有效地挖掘真实属性和个性特征是一个极具挑战性的关键科学问题。

四、结语与展望

实验结果表明,本文所提出的基于本体特征对用户主题评论分析,得到该用户的特征属性是可行的。在本文中,以性别、年龄、学历、地域、兴趣5个特征属性为例进行了研究,此方法具有可扩展性。

微博中的用户关系具有多样性和复杂性,快速地分析微博中的用户关系和计算关系强度是一个具有挑战性的关键问题。在本文中,我们首先对微博、微博用户、微博用户行为建立了完整的科学模型,在此基础上对已有数据进行深入的分析和挖掘,对用户关系进行分类,针对不同类别的用户关系进行统计分析,研究用户关系的分布规律,并通过实验来进行校验,最终构造高效、准确的用户关系强度计算方法,使得微博间用户关系的发现和强度快速计算是可行的。

微博中的用户所发表的主题文本短、频率高,从大量的短文本中快速的挖掘特征信息,以识别用户的真实属性和个性特征是一个具有挑战性的关键问题。在本文中,在微博用户行为模型和微博用户个性特征模型的基础上,提出了基于文本内容的语义识别、基于用户关系的关联挖掘和基于用户行为的行为挖掘三种方式,来对微博中用户的真实属性和个性特征进行挖掘。特别是在文本内容的语义识别上,改进了潜在语义模型,综合利用共性、关联、扩展等特征方法,来识别微博中的用户真实属性和个性特征进行挖掘,具有良好的可行性。

猜你喜欢

个性特征特征内容
根据方程特征选解法
内容回顾温故知新
离散型随机变量的分布列与数字特征
不忠诚的四个特征
关于对幼儿园教学中教师有效提问的研究
苏轼散文的个性特征
主要内容
浅析贝多芬奏鸣曲OP.10 No.2 第一乐章
《斗牛士之歌》的曲式结构与演唱特点分析
抓特征 猜成语