APP下载

基于Web招聘信息的专业技能需求文本挖掘

2019-05-22钟静罗南超

电脑知识与技术 2019年6期
关键词:文本挖掘关联规则

钟静 罗南超

摘要:文章使用八爪鱼采集器在智联招聘网上采集了成都范围内有关计算机科学与技术专业工作招聘的技能要求,通过数据预处理、关联规则来处理采集到的大量数据,挖掘出各职位和对应能力要求之间的关联程度,以便此专业学生找工作时了解自己应该掌握的技能侧重点以及学校对工作单位所需要的人才的技能进行有针对性的培养。

关键词:招聘信息;文本挖掘;关联规则

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2019)06-0001-02

目前很多高校呈现出培养的毕业生掌握的技能和企业所需要的人才掌握的技能无法匹配,导致大量大学生毕业却无法和企业招聘条件接轨,没有实际操作能力只能去各种技术补习机构培训后才能找到心仪的工作,企业也无法快速找到和自己需求匹配的毕业生们。我们各个高校可以从这些招聘信息中提炼出自己学校有关专业的就业岗位的用人需求,设置对口的专业课程,以此来为用人单位培养对口人才;同时也解决了企业难以找到对口毕业生的难题。本文对“智联招聘”成都地区计算机科学与技术专业相关工作岗位的招聘信息进行了挖掘,并且提炼出这些岗位招聘信息里面出现频率较高的技能做了统计,以便学校为本专业的学生设置合适的课程。

1数据挖掘处理

1.1数据来源

本文利用八爪鱼采集器于2017年12月对智联招聘网近一个月成都范围内各工作岗位对计算机科学与技术专业人才所需要掌握的技能等各方面进行采集,总共得到招聘信息11205条,其中每条招聘信息包括职位名称、能力要求、知识要求等内容,通过数据库函数对数据进行去重处理,最终得到8248条可用数据。

1.2数据预处理[1]

采集的数据中包含大量文本信息,所以通过数据库函数对这些文本进行数据预处理。

1.2.1 循环删除,避免日志文件暴增

循环删除的伪代码如下,该方法仍有一些局限性,耗时过长,并且会长期使数据库处于简单恢复模式下:

--ALTER DATABASE database_name SET RECOVERY SIMPLE ; while @index<@EndIndex begin delete table_name where index<=@index; set @index+=@Increment end

1.2.2 将数据插入到临时表中,把原表drop

把原始表中的数据通过select语句筛选出来,然后批量插入导新表中,这种方式利用了大容量日志(Bulk Logged)操作的优势。由于 SELECT INTO,INSERT SELECT 是大容量日志操作,select命令不会产生大量日志文件,因此,执行插入比执行删除的效率更高。最后,执行drop命令,删除整个原始表,几乎不消耗任何时间。

--ALTER DATABASE database_name SET RECOVERY BULK_LOGGED ; insert into new_table select column_list from original_table where filter_retain drop table original_table

把临时表重命名,执行 sp_rename 或手动重命名,其中 @objtype 参数是可选的,默认值是NULL,对表重命名,设置参数 @objtype='object':

sp_rename [ @objname = ] 'object_name' , [ @newname = ] 'new_name' [ , [ @objtype = ] 'object_type' ]

1.2.3 对分区表执行分区转移操作

SQL Server的分区表实际上是一系列物理上独立存储的“表”(也叫分区)构成的。被剥离的分区,通过drop命令删除,这种方法,耗时最短,资源消耗最小,效率最高。

alter table original_table SWITCH PARTITION source_partition_number TO temporary_table drop table temporary_table

1.3應用关联规则处理数据

2结语

综合数据采集及关联规则的结果,我们可以找到计算机科学与技术专业学生毕业后在成都范围内就职岗位的用人需求,这样有助于同学们根据自己毕业后理想的工作岗位进行课程的重点学习,也有助于学院根据此结果对课程设置进行调整以适应社会用人单位需求。而且文章较文献[5]具有更强的针对性,具体落实到某一个专业,而不是参杂了很多其他应用例子,给读者直截了当的印象。这个基于Web招聘信息的计算机科学与技术专业人才技能需求挖掘成功后,不仅针对计算机科学与技术这个专业,或者成都这个范围内的工作岗位用人需求,也可以针对其他专业以及全国各地的工作岗位用人需求,以解决现存的这个产出和需求对接不上的严峻问题。在各个高校的“产出”与工作单位的“需求”的对接工作上可以起到很好的衔接作用。

参考文献:

[1] 悦光阴.大数据操作删除去重.http://www.cnblogs.com/ljhdo/

[2] 刘畅.基于Web文本挖掘的数据分析岗位需求研究[J].中国管理信息化,2018,21(10):76-79.

[3] 李玉洁,杨威.浅析行动导向教学法中数据挖掘的应用[J].知识经济,2016(11):97.

[4] 王小玉,王亚东,冯丽.关联规则的挖掘[J].信息技术,2003(1):55-57.

[5] 钟晓旭.基于Web招聘信息的文本挖掘系统研究[D].合肥:合肥工业大学,2010.

.

猜你喜欢

文本挖掘关联规则
慧眼识璞玉,妙手炼浑金