APP下载

基于R语言的社交网络数据信息挖掘

2021-09-18孙泽龙

电子测试 2021年16期
关键词:聊天短语数据挖掘

孙泽龙

(西安职业技术学院,陕西西安,710077)

1 R 语言的特点

R 语言是数据分析并进行可视化展示实现的实用工具,数据科学的不断发展,使得我们需要把数据映射成为方便查看的图形、图像或微视频等,用户对数据的交互更为方便,容易从中理解和读取数据。R 语言拥有灵活性和多样性的特点,使用它可以根据用户的不同需求,通过R 语言工具本身提供的大量R 函数,可以完成相对应的图形图标绘制,依据函数的帮助信息,对于特殊图形要求的还可以自己编写程序,绘制符合个性化要求的图形。

生活中全国春运客流数据,气象云图数据、用户搜索生成搜索网络数据,微博用户相互关注和传播的数据,电子商务购物网站等都可以称得上是大数据产生的源头聚集地,数据爆发式增长和社会化趋势是大数据产生的本质原因。爆发式增长是现在实时数据、非结构化数据、机器数据产生的迅速是以前无法想象的。摩尔定律中全球每18 个月产生的数据量是之前有计算机历史以来数据的总和,现在更新后需要的时间更短了。用户的行为和关系产生大量的碎片化信息被互联网所记录。大数据体量之大使得现有数据库技术无法承载,视频、音频等存储遇到问题,实时生成数据之快传统数据库和网络架构无法满足,数据产生的价值密度低,需要挖掘展现其中的价值。

2 社交网络的特点

互联网上拥有用户实时生成的海量数据,这些数据往往具有碎片化,当然也存在着N 度好友理论,说的是你的好友的好友依次往下不超过六个的好友可以覆盖你所在区域或更广的所有人,由于社交网络工具的便捷,使得生成的这些数据记录着上网用户的情绪和智慧,这些庞大的群体用户蕴含着社交网络的价值。比如利用社交网络挖掘价值,可以进行预测天气的变化,通过各个地区很热的人数来进行监测,在微博网络上选取一些关键词种子描述很”热”的词需要关注的,在一定语境下的热才指天气热,选取相应数据并进行文本集合算法的规则处理,当然关于’热’的方言相关词和综合语境都要提取文本处理相关语境,根据语法结构判断真正的天气热。经过这些处理后再统计出各个地区很热的人数,然后得到”热”的数据,加上日期后可以根据时间的推移看出不同地区天气的变化情况。预测选用的方法会对结果产生影响。

社交网路也存在着问题和挑战,有时同一个句子不同语境所表达的意思会不一样,这就涉及到机器对自然语言规则的处理,不同场景中情感分析中词汇本题库的积累,微博或论坛数据中涉及大都是稀疏文本或表情符号信息提取、垃圾信息地处理等面临一定的问题,抽样数据中不是所有的信息都有用,有用的数据是否抽取全面和抽样方法的合理性都可能影响最后的处理结果。

3 数据信息挖掘

把从数据源文本中抽取出的特征词,进一步量化的过程来进行表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。文本挖掘是从大量文本数据中提取前所未知的、有用的、可理解的、可操作的知识的过程。文本挖掘包含了学术或技术报告、新闻、网页、用户手册等都是文本挖掘的数据来源,文本挖掘的主要任务是包含对词或短语的关键字提取;对词条的关系建立对应文本的主要概念,进行概念提取;从多角度出发进行分析,实现可视化的显示或导航;文本挖掘与数据挖掘有着紧密的联系,主要区别如表1 所示。

表1 对比数据挖掘与文本挖掘

使计算机能够通过对这种模型的计算和操作来实现对文本的识别。短语提取是提取文本集中所有相关的短语。概念提取是对这些短语之间的关系,建立一个该文本集中的主要概念。可视化显示和导航是从多个视角出发进行分析。本文数据来源是一个班级群里,近一个月时间里群里消息文本资料,班级群里面应该有老师,学生,学生里面有学生的班干部等,通过对此数据进行挖掘分析,从下图2 所示,来找出群内高频词汇,分析群里面近期关注的热点信息等。

图1 高频词挖掘图

4 数据分析应用

聊天时间统计后发现,群里早上10 点前基本很少有人聊天,11 点后聊天数量逐步上升,一天时间段中晚上9-11点聊天是最为活跃的。从下图2 所示时间分布图中,可以看出群聊里在一天中聊天的活跃度分布情况。这样就可以看出,如果需要讨论或者通知相关事宜,就可以适当选择合适的时间进行,比如早上方便通知消息或发布文件资料等信息,这样重要信息就不会被吞没,而讨论适合在晚间进行。

图2 聊天时间分布图

5 结语

随着大数据与云计算的发展,网络上的信息内容和文本类型将变得日趋丰富。本文在对文本内容分析为研究目的和文本挖掘模型的基础上对高频词、时间分布两个参数为研究对象进行了分析。从高频词和时间分布的图表中,我们可以判断出来群信息最近谈论的最热的话题等。以上分析的数据只是建立在现有的数据之上的,统计数据只能统计出大概的事情发展趋势,可能会有许多的误差,所以还需进一步完善和优化进而做出更准确的判断。今后教学实践将继续以数据挖掘案例为载体,“新工科”建设为指导,设计更多基于有数据挖掘价值的应用案例,提升教育教学水平和激发学生学习兴趣。

猜你喜欢

聊天短语数据挖掘
探讨人工智能与数据挖掘发展趋势
我就是不想跟你聊天了
基于并行计算的大数据挖掘在电网中的应用
敞开门聊天
《健民短语》一则
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
聊天不倒王
你我聊天桌等