APP下载

基于智慧城市大数据分析的投标市场研究

2021-04-25宋迪

商讯·公司金融 2021年36期
关键词:多元线性回归模型Python语言大数据分析

摘要:2021年,D公司经营状况步履维艰,累计新签合同额偏离预计指标。为响应上级部署,拓宽经营渠道,利用Python语言,围绕国家新型重点建设领域相关数据的进行收集,筛选出符合D公司经营期望值的数据并进行预处理,运用概率论及统计学知识构建多元线性回归模型,进行大数据分析,实现数据可视化,最终为D公司下一步投标工作重点和投标决策提供参考依据。

关键词: Python语言;多元线性回归模型;大数据分析;可视化

大数据时代的到来,为工程建设项目的招投标带来了新的机遇与挑战,大数据带来了海量的信息,具体体现出的特征有数据量大,类型繁多,价值密度低,速度快、时效高,在商业、经济和其他领域,决策正日益基于数据和计算作出,而非传统意义上的经验和直觉。

2021年,我国多地在“十四五”规划中指出,要加快智慧城市、新基建等规模部署,推进新技术等基础设施建设,推动传统基础设施升级,建设新一代信息基础设施体系。智慧城市建设成为经济建设领域的重点。

Python语言简单易用,具备直观的语法,在探索性计算、数据分析和交互、和数据的可视化等方面十分有优势,这是本文将Python语言作为智慧城市大数据分析工具的原因之一。

1 使用Python进行智慧城市大数据分析的流程

智慧城市大数据分析流程包括:Python环境搭建,数据获取,数据预处理,建模与分析,数据可视化,为投标决策提供依据。

Python是跨平台的代码(CrossPlatform),但特定的函数方法只能在对应的操作系统下实现,因此需要判别操作系统的类型(Windows系统、OS X系统、Lunix系统)并作对应安装。

智慧城市尚属新兴产业,通过人与浏览器的交互获取数据费时费力,而通过API交互的方式又很难找到方便可用的API,因此智慧城市大数据分析需要利用Python语言设计一个自动化程序向网络服务器请求数据,编写Python代码爬取相关网站里诸如智慧城市试点数目、PPP项目成交数目、智慧城市招标项目、财政收入、智慧企业、日期等有关数据,并创建数据库,以方便查询调用。

由于在不同的网站、不同的链接抓取的数据标准不统一,导致数据库包含很多含有噪声、不完整(missing)、不一致(inconsisitent)的数据,必须对数据对象进行预处理,处理后进行数据集成,标准化规范化后才能进行建模分析。

本文将预处理后的2021年智慧化工程相关数据建立数据集,并转换为CSV格式,构建多元线性回归模型,并对模型进行显著性检验,利用Python进行数据的逆向选择,剔除统计意义最小的变量。流程见图1。

通过对多元线性回归模型的计算分析,以及对大數据分析结果的诊断,得出结论:智慧城市市场活跃程度与智慧城市试点数目、城市基建计划投资额、累计成交PPP项目数、财政收入、建材涨跌指数具有显著的线性关系。

采用数据可视化技术可以直观地表达经过分析处理的数据,也更方便决策者对数据的解读。Python有很多可视化工具,在进行智慧城市大数据分析时,本文调用Python中的pyecharts工具包,加载中国省级地图包,以热力图的形式展现2021年中国智慧城市市场活跃程度。

以智慧城市试点数目为例,根据2021年《住房和城乡建设部工业和信息化部关于确定智慧城市基础设施与智能网联汽车协同发展第一批试点城市的通知》,确定北京、上海、广州、武汉、长沙、无锡等6个城市为智慧城市基础设施与智能网联汽车协同发展第一批试点城市。对比前文的市场热力图,北京、上海、广州、无锡与智慧城市市场活跃省份高度重合,说明市场成型已久,基建设施完善,但相对市场趋于固化,竞争压力较大,不易进入;武汉、长沙两市地处的湖北、湖南两省,对比热力图可见智慧城市建设方兴未艾,较易进入,但智慧城市基建设施相对薄弱。不同分析结果可以作为不同投标决策参考的依据。

2 应对反爬取机制

在智慧城市建设大数据分析中,当爬取网页的时候,输出信息中会出现诸如“HTTP Error 403: Forbidden”“URLError”等字眼,翻译过来就是访问被拒绝,禁止爬取。这是由于爬虫技术会造成大量IP访问和占用带宽资源,部分网站会采用反爬取机制。面对此类问题,需要采取相应的反爬机制应对。如降低爬取速度,减少对服务器的影响,文明爬取;或隐藏身份,使用代理服务器,应对封锁IP机制;或构造合理的HTTP请求头(headers),伪装成浏览器,应对封锁User-Agent机制。

3 数据预处理

在智慧城市建设大数据分析中,通过爬取相关数据来源网站,采集出2021年国内各省份“智慧城市建设”相关数据,并创建数据集。面对不完整、冗余、异常的数据,采取不同的应对策略以使数据标准化。

对于数据的缺失值,有三种处理缺失值的方法,分别是删除、插补、不处理。常采用插补法处理。使用Python中的df.isnull()函数,显示数据集情况,缺失值返回结果为“True”,调用df.fillna()或Imputer()函数,在缺失值中填充数据。

对于数据的重复值,需要导入Pandas工具包,使用duplicated()找出重复的行(默认全部列),返回布尔类型的运算结果:没有重复的行,返回False,有重复的行,在重复数据首次出现的行返回False,其余返回True。

对于数据的异常值,处理时需要视情况而定,尤其包含特俗信息的数据,要慎重处理,常用删除记录、视为缺失、平均值修正的处理方法。

对数据集进行预处理,其中,y是因变量,代表2021年国内智慧城市预测投资规模;x1至x9都是自变量,x1是智慧城市试点数目;x2是2021年城市基建计划投资额;x3是2021年累计成交PPP项目数;x4 是2021年智慧城市招标项目数;x5 是2021年上半年财政收入;x6 是2021年人口比重统计;x7是一级资质智能化企业统计数目;x8是2021年上半年耗电总量;x9是2021年建材涨跌指数。其中y、x2、x5的单位是亿元;x8的单位是亿千瓦时;x1 、x3 、x4 、x7 的单位都是个;x6、 x9是指数,没有单位。其内容如表1所示。

4 创建多元线性回归模型

多元线性回归分析考虑几个自变量同因变量的线性关系,其公式如下:

y=β01x1i2x2i+…kxki+ei

這里y是因变量,xki是自变量,βn是回归系数,β0是回归常数,ei是随机误差。

我们获得了k组观察数据,矩阵形式如下所示:

模型写作:y=Xβ+ε

根据原理,利用ptyhon生成多元线性回归模型,返回结果见图2。

在结果中,回归系数是coef的值,回归常数是const的值,我们生成的回归模型为:

y=10.8346-5.1654x1+0.0372x2+0.2776x3+0.0061x4+0.0182x5-1026.5773x6+0.0497x7+0.0327x8-3422.4688 x9

返回结果中R-squared是0.718,根据方差膨胀因子(Variance Inflation Factor,以下简称VIF)计算公式:

可以得出结论:模型的精度较低,存在线性关系不显著的变量,需要建立逆向逐步回归,筛选自变量。

在智慧城市建设大数据分析中我们采用P检验,即“P>|t|”判断每个自变量和y的线性显著关系,统计学常用系数0.05、0.02或0.01作为检验标准,这里我们采用0.05。P>|t|列中,数值大于0.05的自变量,显示和y线性关系不显著,逐个筛选去除,并重复上述建模过程,直到所有P值都小于等于0.05。得到最终建模结果见图3。

得出多元线性回归方程如下:

y=10.1598-5.1441x1+0.039x2+0.28x3+0.0229x5-3215.0963x9

由此可以推导出,与因变量y具有显著线性关系的自变量是x1、x2、x3、x5、x9。

5 结语

本文旨在研究智慧城市市场中Python语言对于投标决策者们的支持。文中利用Python强大的开源库,根据爬取到的数据建立多元线性回归模型,通过对模型系数的定量分析,推论出与市场密切相关的因素,并实现分析结果的可视化。作为一门集合了函数式编程的脚本语言,Python在对数据集进行回归性分析时,取得了较好成果,论证了Python作为招投标市场分析的工具是可行的。

参考文献:

[1] 赵勇,徐轲,等. 大数据在招投标领域大有可为[N].政府采购信息,2015:8-31

[2] [美]Eric Matthes.Python编程从入门到实践[M].袁国忠,译.北京:人民邮电出版社,2016:7

[3] GB/T 36333 – 2018,智慧城市顶层设计指南[S].北京:国家市场监督管理总局中国国家标准化管理委员会,2018:6-7

[4] 住房和城乡建设部、工业和信息化部.住房和城乡建设部工业和信息化部关于确定智慧城市基础设施与智能网联汽车协同发展第一批试点城市的通知[EB/OL].2021:4-28

[5] Ryan,Mitchell.Web Scraping With Python[M]. New York: O'Reilly Media. 2015:7-24

[6] Michael Bowles.Python机器学习预测分析核心算法[M].沙嬴,李鹏,等,译. 北京:人民邮电出版社,2017:1

作者简介:宋迪(1987-),男,汉族,辽宁沈阳人。主要研究方向:经营开发招投标工作。

猜你喜欢

多元线性回归模型Python语言大数据分析
基于Python语言和支持向量机的字符验证码识别
论Python程序设计语言
基于Python语言的面向对象课程实践教学探讨
面向大数据远程开放实验平台构建研究
面向大数据分析的信息管理实践教学体系构建
传媒变局中的人口电视栏目困境与创新
公司产品差异化对股本回报率影响的实证分析
基于多元回归模型的厦门房地产市场非均衡度分析
基于Android的Python语言英汉维电子词典设计与实现