APP下载

关于StackExchange问答社区网络数据挖掘的分析

2020-08-13史可玉罗洋

软件 2020年6期
关键词:用户群数据挖掘社区

史可玉 罗洋

摘  要: 作为由多个问答社区组成的问答网站,StackExchange上拥有诸多用户的问答数据。想要实现知识的有效传播,还要加强专业回答的挖掘。基于此,本文对数据挖掘技术及其在社区网络平台中的应用方法进行了探讨,然后结合StackExchange特点提出了相应的数据挖掘算法,为网站个性化问答推荐服务生成提供支持,促使用户知识获取需求得到满足。

关键词: StackExchange问答网站;社区网络平台;数据挖掘

中图分类号: TP3    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2020.06.048

本文著录格式:史可玉,罗洋. 关于StackExchange问答社区网络数据挖掘的分析[J]. 软件,2020,41(06):233236

【Abstract】: As Q & A website composed of multiple Q & A communities, StackExchange has Q & A data of many users. To achieve effective dissemination of knowledge, it is necessary to strengthen mining of professional answers. Based on this, the paper discusses data mining technology and application method in community network platform, and puts forward corresponding data mining algorithm combined with characteristics of StackExchange, which provides support for generation of personalized Q & A recommendation service on website, and meets  knowledge acquisition requirement of users.

【Key words】: StackExchange Q & A website; Community network platform; Data mining

0  引言

在信息大爆炸时代,知识出现了多元化交融的趋势。面对人们日渐增加的知识和信息获取需求,社区网络平台得到了迅速发展,为人们获取知识提供途径。对于网站用户来讲,希望在第一时间通过访问平台满足自身求知欲。因此在网站经营方面,还应同够数据挖掘实现精准营销,以推动平台的可持续发展。

1  数据挖掘技术

数据挖掘技术实际为利用算法从大量数据中完成有用信息提取的过程,需要先获取数据源,然后进行预处理和数据变换,将提取到的有用信息转换为知识,向用户可视化展现。针对数据推向,应确定特征信息。在合适数据库中完成数据存储,能够保证数据综合性、完整性,然后根据经验确定分析指标。对数据进行清洗、归约等处理,去除无效和冗余数据,完成噪声点处理,保证数据一致性,从而使数据质量得到提高[1]。对得到的数据进行归约,能够得到形式更小的数据集,保证数据挖掘效率。实际在数据挖掘期间,需要确定目标,对研究主题进行选择,然后解决数据抽样问题。根据挖掘程度,能够对与任务相关的知識类型进行确认。选择适合的分析工具,如决策树、模糊集等,能够完成数据挖掘,最后以图表、报告等不同形式呈现结果。

2  数据挖掘在社区网络平台中的应用

2.1  确定访问习惯

社区网络平台在运营的过程中,需要为用户提供个性化服务,确保平台点击量和人流量能够得到提高。为此,平台需要把握受众心理,呈现用户感兴趣的内容。通过为用户提供相对自由的网络空间,根据自身需求发表意见和建议,能够使用户对平台服务感到满意,继而使平台竞争力得到提升。因此运用数据挖掘技术,需要对访问平台的用户数据展开深入分析,结合用户习惯对其日常偏好、界面浏览方式等进行推断,以便提供有针对性的服务[2]。通过提供人性化服务,能够使用户对平台的好感度得到提升,促使平台运营效益得到保证。结合这一目标,对用户网络数据进行分析需要确定用户行为流程,如浏览点击、搜索等过程。根据用户浏览规律和访问习惯,能够对频繁访问路径进行抽取,实现前端界面优化,使用户能够迅速完成符合需求的结果查找。

2.2  实现类群分组

按照上述思路,在对平台数据进行挖掘时需要完成用户搜索特征信息采集,从中分析得到用户搜索行为特点。通常的情况下,用户需要利用关键词对想要的信息进行搜索。根据这一习惯对平台关键词进行选取,使平台搜索符合用户操作习惯,能够使用户目光在第一时间被吸引。实际在关键词选取时,需要做到合理分组,完成词库建立,以便使拥有类似行为特征的用户需求得到兼顾,确保用户群能够根据平台推广搜索到想要的内容。按照这一要求,需要对用户后端数据展开分析和处理,根据用户问答提供的文本信息完成兴趣标签的设置,完成潜在用户特征数据提取,得到准确的用户类群信息。根据兴趣标签完成用户分组,能够推断用户对哪些信息感兴趣。结合用户倾向进行信息推广,能够使挖掘得到的有用信息更具价值,帮助平台成功实现用户关系维系。

2.3  完善网站运营

利用数据挖掘结果,能够对用户访问结果进行完善,促使用户得到关注度得到提高。结合用户群兴趣爱好,可以对平台界面布局进行调整和动态更新,在显著位置推广关键信息。在平台规划设计阶段,也可以采取该措施实现资源整合,通过提供大量有效信息完成用户感兴趣内容挖掘,使平台对用户的吸引力得到提高。应用数据挖掘技术,也能完成网站日志数据分析,做到合理判断用户日常浏览行为,为用户操作提供便捷服务。针对潜在客户,也可以在浏览信息中推送感兴趣的内容[3]。从平台运营角度来看,可以结合用户群偏好进行广告适度推送,在保证用户顺利接收各种信息的同时,为平台带来更多收益,继而使平台在维持稳定用户数的同时,能够取得可持续发展。

其中,EQui→qj为回答ui对问题涉及各知识领域专业可信度,Tagqj为问题qj知识领域标签。在实际分析的过程中,需要对相关参数进行归一化处理,得到Tui→tk的特定取值范围。根据分析得到的用户在不同领域回答可信度,并根据用户提问涉及的知识领域,能够完成专业可信用户群划分,对用户的回答进行推荐,达到生成网站个性化回答推荐服务的目标[9]。

3.5  网站个性化推荐服务生成

利用数据挖掘方法完成社区网络数据分析后,可以得到不同的用户群。在平台个性化回答推荐服务生成方面,可以先利用筛选得到的高信誉用户集合进行验证,然后利用特殊贡献用户集合展开验证分析。在此基础上,针对某个问题,可以完成全部用户专业可信度评价,从中筛选出专业可信用户,得到专家用户集合。在问题回答验证上,可以对三种用户群的回答命中个数展开比较,确定不同推荐服务的有效性。实际开展评估时,可以采用准确率和平均相似度两大指标,前者为回答命中数占推荐个数的比率,后者为命中个数占用户个数的比率。如表1所示,为验证结果。在回答拥有一定推荐数的情况下,相较于其他用户群,专业用户群的回答显然拥有更高的准确率和较小平均相似度。但在一些问题回答上,专业可信回答用户数量较少,以至于推荐数量比设定的数量要少。出现这一情况,主要是由于专业用户数量本身较少。为提高专业用户的活跃度,平台还应采取一定奖励措施。但总体  来看,专业用户回答推荐性能依然较高,因此还应将专业用户回答当成是优选结果,在新问题提出  后进行个性化推荐,继而使网站服务水平得到提   高[10]。

4  结语

综上所述,针对社区网络中大量问答数据,可以利用数据挖掘技术加强用户访问习惯分析,通过类群分组对访问结果进行完善,保证用户能够尽快获得想要的信息。在StackExchange网站运营方面,通过实现数据采集和处理,能够完成专业回答数据挖掘,生成个性化推荐服务,从而通过构建高效社区满足用户访问需求。

参考文献

[1] 陈华庆, 冼远清, 赖建明. 网站弹幕视频数据的挖掘与分析[J]. 福建电脑, 2019, 35(08): 102-103.

[2] 国锋. 数据挖掘技术在电子商务中的应用研究[J]. 电脑知识与技术, 2019, 15(24): 280-281.

[3] 刘艳, 李一铭, 刘子逸. 基于精准营销的问答平台数据挖掘算法需求综述[J]. 中小企业管理与科技(中旬刊), 2018(01): 152-153.

[4] 刘迎春, 朱旭, 谢年春, 等. 基于数据挖掘的专业可信回答者个性化推荐——以Stack Overflow问答社区为例[J]. 现代教育技术, 2019, 29(05): 78-84.

[5] 常海. 数据挖掘与分析在网站运营管理中的应用[J]. 企业改革与管理, 2018(19): 66+70.

[6] 李小双. 基于CNKI數据库的城市社区活力知识图谱分析[C]. 中国城市规划学会、重庆市人民政府. 活力城乡 美好人居——2019中国城市规划年会论文集(20住房与社区规划). 中国城市规划学会、重庆市人民政府: 中国城市规划学会, 2019: 817-832.

[7] 洪闯, 李贺, 祝琳琳, 彭丽徽. 活动理论视角下社会化问答平台用户知识协同模型与关键影响因素研究——基于模糊DANP方法[J]. 情报理论与实践, 2019, 42(11): 100-106.

[8] 王丽萍. 智慧图书馆知识服务新思路:问答社区模式的启示与应用[J]. 出版广角, 2019(13): 74-76.

[9] 闫俊周, 齐念念. 基于ISM的我国战略性新兴产业创新绩效影响因素分析[J]. 科技管理研究, 2019, 39(12): 159-166.

[10] 张晓清, 潘清, 龚波. 基于控制流与数据流分离机制的网络服务方法[J]. 软件, 2014, 35(03): 111-113.

猜你喜欢

用户群数据挖掘社区
3D打印社区
从资源出发的面向用户群的高校图书馆资源推荐模型分析
在社区推行“互助式”治理
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
公共图书馆的用户群和服务人员的分析
基于GPGPU的离散数据挖掘研究
如何积极应对社区老年抑郁症