APP下载

基于Web数据挖掘主流CAD软件的对比分析

2015-12-06赵华许超

精密制造与自动化 2015年1期
关键词:关键字采集器网址

赵华 许超

(天津机电职业技术学院 产学研中心 天津 300131)

基于Web数据挖掘主流CAD软件的对比分析

赵华 许超

(天津机电职业技术学院 产学研中心 天津 300131)

CAD技术在制造业中发挥着越来越重要的作用,由于有四大主流CAD软件,怎样选择适合本行业最优的软件,成为企业和工程技术人员的难题。应用采集工具“火车采集器”对国内招聘网站“51job”发布的招聘信息进行数据挖掘,通过对采集到的数据进行分析,结合四大主流CAD软件各自的特点,在行业及地区分布等多个方面,对四大软件在国内的应用情况进行对比分析,为广大学生、工程技术人员和企业选择合适的CAD软件提供依据。

Web 数据挖掘 CAD 对比分析

1 引言

随着计算机计算能力的不断提高,CAD技术和CAD产业在工业需求的推动下日益兴旺与繁荣[1]。随着我国制造业的不断发展,CAD技术已经被广泛应用于航空航天、汽车制造、船舶制造、机械制造、电子、消费品等行业[2]。当前,国内企业通常采用的大型CAD软件主要有SolidWorks、UG NX、Pro/Engineer、CATIA。业内很多人对当前主流的CAD软件进行比较,网络上也充斥着关于几大软件的争论。这些对比分析一般都是基于个人使用经验或者CAD软件公司的宣传,缺乏科学的数据支持。本文对网络数据进行挖掘,以市场的实际应用情况为依据,对四大主流软件进行对比分析,为广大学生、工程技术人员和企业选择合适的软件提供了可靠的依据。

2 数据挖掘

2.1 采集工具

随着互联网技术的飞速发展,网络正影响着人类社会生活的方方面面。互联网为人类提供了海量数据,已经成为人类信息资源的主要来源。Web包含了各种信息和资源,数据多样而复杂,数据量十分庞大。有时,人们可以直接登录某个网站,通过网站程序提供的某些功能直接提取所需的信息。但是也有些时候,现有的网站程序不能提取满足人们需求的数据,这时就需要借助Web数据挖掘技术来采集有价值的信息。Web数据挖掘是从网络资源上抽取信息(或知识)的过程,是对Web资源中蕴含的、未知的、有潜在应用价值的模式的提取[3]。Web爬虫是Web挖掘中重要技术之一,是爬取页面的重要手段,通过爬虫的构建达到Web信息搜索的目的。网络爬虫,又称网络蜘蛛或Web信息采集器,是一个自动下载网页的计算机程序或自动化脚本[4,5]。目前,国内应用较多的采集软件主要有以下几种:“火车采集器”、“网络旷工”、“有讯软件”、“狂人”、“三人行”等,本文选择“火车采集器”作为采集工具。

2.2 Web数据源

“前程无忧(51job)”是国内领先的专业招聘网站,网站拥有超过8 200万个注册用户,通过“51job”发布的招聘职位每天超过320万个,涉及信息技术、电子、金融、化工、物流、广告等59个行业58个职能大类720个小类,职位遍布全国近500个大中小城市。“51job”提供的海量人力资源信息真实地反映了就业市场对某一类人才和技能的需求。本文选取“51job”网站上的招聘信息作为作为数据源,采集对四大主流CAD软件有技术要求的招聘信息,进行数据分析,从中总结出四大主流CAD软件在市场上的应用情况,进而进行对比分析。

2.3 Web数据挖掘

因为招聘网页具有相同的结构,可以使用统一的抽取规则。利用“火车采集器(Locoyspider)”对地区、行业、职位等关键信息要素进行抓取。“火车采集器”是一款专业的网络数据采集/信息挖掘处理软件,通过采集规则的定义,可以搜索所有网站,采集几乎任何类型的信息,采集到的数据被同步保存到关联数据库中。

以包含关键字Pro/Engineer的所有招聘信息的采集为例,“火车采集器”采集信息主要分以下三步进行:

第一步:采集网址,即采集所有关键字包含Pro/Engineer的招聘网页对应的网址。

“51job”提供招聘信息全文关键字搜索,输入关键字,可以检索到与该关键字有关的所有职位。以Pro/Engineer为例,输入关键字Pro/Engineer,“51job”检索出所有招聘信息中对Pro/Engineer软件有一定要求的所有职位信息,这些招聘信息的简要信息被罗列在搜索栏的下方,形成搜索结果页面,称为起始页,也就是列表页,对应的URL,就是起始网址。因为符合搜索条件的招聘信息一共11183条,而每个列表页只能显示50条,因此列表有分页。

添加开始采集地址时,选择“批量/多页”选项卡,地址格式为:

(其中*为列表页页码,呈等差数列增长,首项为1,项数为224)

但是,在这些网页中只能看到关于招聘内容的简单概述,如,职位名称、公司名称等,如果想进一步了解招聘信息,必须单击该条信息,网页跳转到该条信息所在的招聘信息网页,该网页对应的URL称为多级网址。

由于“51job”的招聘页网址都有统一的格式,http://search.51job.com/job/(*),c.html(其中*为变量,代表不同的招聘信息页面)。因此,在添加多级网址采集规则时,选择“从页面自动分析得到地址链接”,在网页中解析出“必须包含/job/”的网址,即可得到具体的招聘信息页面网址。

第二步:采集内容,编写采集规则,使采集器在所有采集到的网址上遍历,抓取所有符合采集规则的内容。根据招聘信息网页源代码的特点,数据提取方式选择“前后截取”,同时添加适当的数据处理方式,具体规则如表1所示。

第三步:发布内容,“火车采集器”支持在线发布到网站、保存为内地文件、导入自定义数据库和发布到其它扩展四种方式,在“发布内容设置”选项卡选择“保存为本地Excel文件”。

表1 含关键字Pro/Engineer的招聘信息网页内容采集规则

3 数据分析

经过数据采集,得到四大主流CAD软件相关的招聘信息总数为30828条,各大软件所占比例如图1所示。

图1 四大CAD软件相关招聘信息数量所占比例

“51job”把公司按照公司性质分为“国企”“民营企业”等十类,四大主流CAD软件相关的招聘信息中,不同性质的公司提供的职位数量所占比重如表2所示。

表2 不同性质公司提供的职位数量所占比例

提供招聘职位的企业有大中小不同规模,“51job”对公司规模按照人数不同分为7个等级。各种软件相关的招聘信息中,不同等级规模公司提供的职位数量所占比重如表3所示。

表3 不同等级规模公司提供的职位数量所占比重

30828条招聘信息中提供的职位分布在全国各地198个大中小城市。在各大软件相关的招聘信息中,职位分布密集度前十的城市提供的职位数量所占比重见表4所示。

表4 职位分布密集度前十的城市提供的职位数量所占比重

30828条招聘信息分布在38个行业,在各大软件相关的招聘信息中,职位分布密集度前十的行业职位数量所占比重如表5所示。

表5 职位分布密集度前十的行业职位数量所占比重

在以上行业中,选出7个典型的职能类别,四大主流CAD软件相关的职位数量如表6所示。

表67个典型的职能类别中四大主流CAD软件相关职位数量

4 结语

UG NX、CATIA、Pro/Engineer同属高阶大型CAD/CAM/CAE软件,而SolidWorks则占据中低端市场。单就职位数量来看,企业对能够掌握Pro/Engineer的人才需求量最大,其次为UG NX和SolidWorks,CATIA最少。其中CATIA居于领先地位,在航空航天、汽车制造领域的应用远高于UG NX和Pro/Engineer;CATIA整体功能强大,是达索集团的高端软件,价格也昂贵,因此在大型企业的应用较多,但是CATIA的CAM功能在国内较少使用。UG NX的模具设计模块功能强大,在模具设计领域占有绝对优势;在汽车制造和航空航天领域UG NX也有较多的应用;同时UG NX加工方式完备,在NC领域具有较高的声誉,在以加工制造为主的企业中应用较广泛;在地区分布上,相对比其他三款软件,UG NX在南方应用更加广泛。Pro/Engineer以参数化著称,强调特征的全相关性,在家电、数码产品等小型电子产品设计领域Pro/Engineer应用最为广泛,在模具设计领域的受欢迎程度仅次于UG NX;Pro/Engineer的编程功能也相当强大,在加工企业也较受欢迎。SolidWorks是达索集团的中端软件,图形界面友好,操作简单,用户易学易用,价格便宜,在中小企业及民营企业应用十分广泛;该软件的NC模块SolidCAM在国内较少应用;虽然SolidWorks整体功能较其他三大软件较弱,但是在对曲面造型要求不高的机械领域却占有绝对优势,一般企业机械工程师多使用该软件。

[1] 叶修梓,彭维,唐荣锡.国际CAD产业的发展历史回顾与几点经验教训[J].计算机辅助设计与图形学学报,2003,15(10):1186-1193.

[2] 梅黎锦.CAD/CAM技术在我国的发展和应用现状[J].机械工程师,2009,(3):75-76.

[3] 高岩,胡静涛.Web数据挖掘的原理、方法及用途[J].现代图书情报技术,2002(3):51-52.

[4] 焦赛美.网络爬虫技术的研究[J].琼州学院学报,2011[1].18(5):28-30.

[5] 苏新宁,杨建林.数据挖掘理论与技术[M].北京:科学技术文献出版社,2003:15-18.

猜你喜欢

关键字采集器网址
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
本刊网址变更通知
COVID-19大便标本采集器的设计及应用
成功避开“关键字”
基于ZigBee的大型公共建筑能耗采集器设计
基于LabVIEW的多数据采集器自动监控软件设计与开发
本刊网址变更通知
本刊关于网址的郑重申明
本刊关于网址的郑重申明
多接口温湿度数据采集器的设计