基于大数据的我国能源发展态势分析
2018-04-10沈跃栋
沈跃栋,姜 凌
(上海科学院/上海产业技术研究院 上海 201203)
本文基于大数据思维方式,应用上海科学院/上海产业技术研究院自主开发 “科技发展动态分析平台”服务于战略咨询研究工作,从战略研究的大数据分析模块开发入手,设计建立战略咨询研究流程,运用大数据分析工具开展我国能源发展态势分析研究。2016年底公开发布的国家能源发展“十三五”规划,提出了到2020年建设清洁低碳、安全高效的现代能源体系战略要求,并就推动能源技术革命,作为七项主要任务之一做了具体部署[1]。本文运用信息计量、数据逻辑运算和大数据分析(文献计量分析、舆情热点分析),通过舆情分析来识别能源战略的认同度、用文献计量分析来研判能源科技的发展态势,并以此为基础做出相应判断。
1 分析研究工具与方法
1.1 分析工具
“科技发展动态分析平台”作为大数据分析工具(见图1),应用信息数据采集技术,聚焦能源、信息、制造和健康等四大领域,以专业关键词为线索,收集汇总互联网(如新闻网站、微博等)和相关文献情报数据库等的信息数据,对领域发展动态进行跟踪与分析[2-3]。本平台由社会舆情、科技情报、热词云图和专题研究等四大栏目组成,“社会舆情”呈现的社会公众数据信息,“科技情报”呈现的是专业学界数据信息,“热词云图”呈现的是公众与专业二大视角(范畴)热词分析结果,这三个栏目按标准化处理分析、社会化共享要求运行;“专题研究”提供个性化定制数据信息,按柔性化加工处理要求,为特定用户提供专业增值服务。
图1 平台架构
数据资源库建设包括二个部分。一是科技文献(中文)数据库:是与国内专业机构合作,根据能源、信息、制造和健康等四大领域,对国内相关中文专业领域数据库信息进行汇总梳理,建成以实现全社会知识资源传播共享与专业应用为目标的文献资源数据库。二是社会舆情库:作为我院自主开发的“科学发展动态分析平台”基础部分,应用大数据技术,以专业关键词为线索,围绕相关产业领域与方向,采集汇总网站新闻报道和微博等信息,现已建成相当体量(约七百万条信息)的社会舆情数据库,现日新增信息近万条。
1.2 研究方法
1.2.1文献计量分析
科技文献计量分析是以科技论文、报告资料等结构化数据为基础的一种客观分析方法,通过运用文献计量、数据挖掘、数据分析等手段,研究科技论文、报告资料等所包含的相关信息,开展相关科技热点和前沿、发展趋势等方面分析。
1.2.2信息数据逻辑运算
网络信息资源具有体量大、结构复杂、动态性等特点,以关键词为线索,收集互联网公开信息数据,应用逻辑运算对信息数据进行处理和分析,通过逻辑关系分析可发现问题、提炼规律、验证观点,为战略研究工作提供信息数据支撑。
1.2.3热词分析
(1)文本数据分词。做好文本数据分词是进行热词分析的基础。对于各种分词工具,关键在于识别从未见过的网络热门词、各种个性化品牌、产品词等,这就需要专业知识库的辅助和支持。
(2)热词获取。对于成千上万的文献资料,包含海量的词,而其中真正需要被关注的只是少数关键词,从文献资料中挑出关键词是核心问题。作为热词分析方法,如TextRank算法提供了生成关键词的有效途径,TextRank的算法思想来源于PageRank,旨在通过文献资料中词(或句子)之间的相互投票,为词(或句子)进行权重的排序,最后可以挑选TopN词作为关键词。
(3)词关联度计算。对于每个热词,人们还关注与其强关联的词。对于关联度的确定,可用点互信息(Pointwise Mutual Information,PMI)来表示,点互信息衡量是“给定一个随机变量后,另一个随机变量不确定性的减少程度”。假设有两个词x和y,二者间的点互信息表示为:
(1)
其中p(x,y)表示x和y同时出现的概率,p(x)和p(y)分别表示x和y单独出现的概率。就每个热词,相对于单独出现,某两个词更喜欢一起出现,则它们之间的关联程度越高。
(4)热度计算。根据不同研究问题,词热度计算式也不同,这不能仅统计这个词在所有资料文章中的出现次数,因每篇文章的热门程度不一样。热词分析在计算热度时,要用资料文章的热度对词进行加权,而资料文章的热度要综合考虑以下因素:文章的转发量、浏览量、评论量、文章发布的时间;随发布时间推移,热度则相应衰减。
2 有关能源问题分析研究
现代能源体系涉及相关问题及范围由五个一级关键词界定:绿色能源、可再生能源、新能源汽车、储能和能源系统等,每个一级关键词涉及六个二级关键词。
2.1 现代能源体系构建
根据国家能源发展“十三五”规划对现代能源体系的描述,其具有清洁、低碳、安全、高效的四大标识。把“能源及四大标识词”作为一项专题研究任务,由“科技发展动态分析平台”采集相应信息数据。先用计量方法汇总统计五个关键词的个人(为需求侧主体)关注量和机构(为供给侧主体)关注量,随后就关键词“能源”分别和四大标识词不同组合进行逻辑“与”运算。对40天(2017年9月1日至10月10日)采集信息数据进行统计和运算,结果分别见表1。
表1 个人关注量(真实数据)
个人(社会民众)就独立四大标识概念的认同度依次排序为:清洁、高效、安全、低碳;当能源问题与四大标识结合起来考虑时,认同度依次排序为:清洁、低碳、高效、安全;就能源体系而言,清洁低碳更受关注见表2。
表2 机构关注量(真实数据)
单位机构就独立四大标识概念的认同度依次排序为:高效、安全、清洁、低碳;当能源问题与四大标识结合起来考虑时,认同度依次排序为:清洁、低碳、安全、高效;就能源体系而言,清洁低碳更受关注[3-4]。
能源体系由供给侧和需求侧二部分组成,对此判别要有一个归类判据。将个人与机构关注量之比(主体比值)作为指标Xn,当Xn大于某个临界值,相应问题主要体现需求侧的特性;当Xn小于某个临界值,相应问题主要体现供给侧的特性。
同样,情感分析数据可作为能源体系相关问题总体评价的判据。将正向与负向评价量之比(情感比值)作为指标Yn,当Yn大于某个临界值,相应问题为社会普遍接受,可积极推进;当Yn小于某个临界值,相应问题社会认同度有问题,要给予谨慎对待。
如何给Xn、Yn取值,取决于相关问题的思考角度和方位。根据“与”逻辑运算规则:Xn数值随着相关因素的增加而减小,而Yn数值随着相关因素的增加而增加。
独立关键词关注度与赞同度比对见表3。
表3 独立关键词关注度与赞同度比对
根据近二年来数据汇总,设X1=2.0;当X1≥2.0,主要体现需求侧的特性;当X1<2.0,主要体现供给侧的特性。设Y1=10,当Y1≥10,社会各方以赞同为主;当Y1<10,社会各方认同度不高。
表3数据表明,能源问题具有明显的市场属性;作为全社会的一种高度共识,当下经济增长必须以确保能源供应为前提,抢占未来发展制高点要有坚强能源保障。
单复合关键词关注度与赞同度比对见表4。
表4 单复合关键词关注度与赞同度比对
根据近二年来数据汇总,设X2=1.5;当X2≥1.5,主要体现需求侧的特性;当X2<1,5,主要体现供给侧的特性。设Y2=20,当Y2≥20,则各方以赞同为主;当Y2<20,则各方的认同度不高。表4数据表明:能源体系供给侧是问题的主要方面。
(1)能源的清洁化问题解决,供给侧要发挥重要作用。对这个问题,各方争议还是比较大,从自身利益角度考虑,赞同度较低。为此,政府部门要加强宏观管理,通过规划制定、政策引导和项目扶持等方式,提升社会各方对此认识,在经济效益和生态效益的二者间寻求平衡点。
(2)能源的高效化包含二层含义。能源体系运行高效率和高收益,而高效率运行是高收益回报的前提条件。在一个健全的市场体系下,需求侧起主导作用,这点是社会各方高度认同的。
(3)能源的低碳化问题,供给侧要发挥积极作用。对这个问题,社会各方认同度较高。为此,政府、企业和消费者等各类主体要协力同心,加强宏观引导管理,从规划制定、政策引导和项目扶持等方面入手,增加低碳能源技术供给,从能源的特性和成本方面给需求侧有充分的选择机会。
(4)能源的安全保障问题,供给侧发挥决定性作用,这点得到社会各方普遍认同。能源安全的重点是保障能源供应,为此,政府和企业责无旁贷,同时也确保能源使用安全,需要社会民众的共同参与。
双复合关键词的关注度与赞同度比对见表5。
表5 双复合关键词的关注度与赞同度比对
根据近二年来数据汇总,设X3=1.0;当X3≥1.0,主要体现需求侧的特性;当X3<1.0,主要体现供给侧的特性;设Y3=30;当Y3≥30,则各方以赞同为主;当Y3<30,则各方的认同度不高。
表5数据表明,对于综合性能源问题,各种因素相互间影响是错综复杂的,有耦合关系、互补关系和并列关系等。当研究能源体系的二个因素作用时,有五种组合显现出供给侧的特性,只有清洁低碳能源这一项呈需求侧的特性[5-6]。
2.2 能源领域技术热度版图(热度榜)
以2017年上半年数据信息的地域属性为标识,用计量方法汇总统计个人关注量和机构关注量,并参考百度搜索指数(见表6)。以这三组数据信息为基础,提出能源技术热度值算法,根据计算结果,绘制我国能源领域技术热度版图(即能源技术热度榜,见表7)。
表6 数据信息汇总
2.2.1计算公式
要综合考虑事件的主动性和被动性,可从三个观察点入手,做到既关注事件发起引领者的因素,用个人和机构的主体行为次数来表示;也关注事件参与执行者的因素,用社会公众搜索行为(百度搜索指数)来表示。用等权重法,计算式为
热度值=100*(个人次数/最大个人次数+机构次数/最大机构次数+百度搜索指数/最大百度搜索指数)/3
2.2.2能源技术热度版图
基于基础数据,根据热度值计算式可得热度榜(Top20)。
由此绘制成我国能源技术热度版图见图2。
表7 能源技术热度榜
图2 能源技术热度版图
与“胡焕庸线”对比(见图3),二者在地域分布是吻合的,这也是我国人口密度对比线的佐证;而与之形成强烈反差的我国陆域能源资源分布恰好是东稀西密,构成供给侧与需求侧间的不平衡局面,是我国现代能源体系建设面临的最大挑战。
图3 胡焕庸线
2.3 2016年我国能源形势述评
截至2016年12月31日,平台系统生成Top100热词。作为一种人工干预方法,用能源领域热词网络语(热词以TOP100为主,相关内容开展至TOP1000)来串联造句成段,形成对国内外总体态势描述和发展趋势预判。
(1)领域方向和技术热点:新能源已成为能源领域的重点发展方向;近几年来,新能源汽车、太阳能技术等为中国能源技术聚焦的热点。
(2)企业和政府的做法:就技术而言,发电技术是关键,全球各大公司致力于电池项目开发;各国政府积极扶植绿色产业,出台相关补贴政策。
表8 TOP10专业热词(科技文献库)
(3)电动汽车开发及产业发展:在新能源汽车行业,我国的比亚迪、格力和长安与美国的特斯拉及德国企业等致力于电动汽车开发,以动力电池(如锂电池)系统为科技创新和投资重点。作为外围的配套,北京、上海等地电网公司、环保企业开展充电站建设,根据“十三五”发展规划和城市建设要求,建成一批智能型充电桩,为新能源汽车产业发展创造良好条件。
(4)我国新能源与节能产业发展:经历了从持续追赶的阶段起步、到强化创新的发展阶段,现正跨入整体先进、制造领先的新时代。目前,我国新能源与节能技术研发规模大,产业技术有一定竞争力,产业发展相对成熟、制造优势明显。
2.4 2016年相关热点排行榜
根据TOP1000能源领域热词列表梳理排序得到。
2.4.1热点国家排行榜
Top100之内:中国、美国和德国;Top200-300的有:英国;Top300之后的有:印度、日本、澳大利亚、欧盟国家和加拿大等。
2.4.2热点国内城市排行榜
Top100之内:北京、上海;Top100-200的有:深圳;Top200-300的有:珠海、苏州、重庆;Top300-500之后的有:成都、杭州、广州、天津、济南、南京;Top500之后的有:武汉、宁波、合肥、青岛、大连、无锡和南昌等。
2.4.3热点新能源汽车企业排行榜
Top100之内:比亚迪、格力、特斯拉、长安;Top200-300的有:北汽、宝马;Top300-500的有:三星;Top500之后的有:奇瑞、奥迪、东风、上汽、吉利、通用汽车、沃尔沃等。
2.5 能源科技热点追踪
以科技专业文献信息数据统计量基础,进行能源领域专业热词分析,生成热词云图(见图4、图5)。作为一种人工干预方法,应用专业知识对热词列表进行筛选整理,汇总成TOP10专业热词表见表8。对表8数据梳理归类,可分为如下三种情况。
图4 能源领域热词云图
图5 其他方面热词云图
(1)近期推广实用技术:以绿色发展、生态文明建设等重大需求为牵引,推广普及先进能源、高效节能和污染治理技术,把技术优势转化为产业优势和经济优势。应用工业节能、智能生态建筑、高效清洁煤利用等技术,为能源的高效、清洁利用提供技术保障。
(2)中期开发新型技术:加强信息技术与能源技术的深度融合,推动能源互联网与分布式能源、智能电网、智慧能源等技术发展;在可再生能源规模化利用、储能、新能源汽车、页岩气与可燃冰开采与利用、特高压输电、新型核电和核废料处理技术等方面实现突破,为构建清洁低碳、安全高效的现代能源体系提供技术支撑。
(3)远期布局前瞻技术:开展氢能、可控热核聚变等前沿技术的研发和示范,占领能源科技的制高点,为能源产业可持续发展奠定基础。
表8列述的能源技术是热词,同时还是基于近中期经济和特性指标综合权衡的结果,所以前瞻性技术未能进入TOP排行榜。还有关于核电、生物燃料和煤炭净化及其碳捕获技术是否属低碳技术,学界是存在争议的。对比社会舆情与专业文献的热点,二者通常不一致,如新能源汽车是社会舆情的热点,但不是学界关注的重点。
3 相关问题说明
作为一种全新的研究范式,对于能源大数据的判断分析,在应用层面需综合考虑如下三个方面因素。
(1)参考度。由于信息数据库建设工作仅二年时间,积累数据资源有局限性,所包含内容不一定全面、观察角度不一定精准,因而形成判断可能与实际情况有偏差;但作为分析全局问题的一份基础资料,还是有相应的参考价值。
(2)关联度。从排序情况看,北京一般总是名列前茅,这是由于其作为我国的首都,是各类资讯的发源地,体现了全国信息枢纽港作用(信息的集聚和扩散),而不一定是相关领域状况的标量。但应该认同的是:热度值与相关领域发展状况具有正关联性。
(3)认可度。对分析计算结果的解读,需要大量的背景资料支撑,而此热度值和热词等,仅是一种数量的标识和重点的标识,可有不同的理解和认可度。只有通过不同观点的交流碰撞,推动新型科学研究范式的发展。
4 结论与建议
4.1 明确发展战略导向
根据大数据分析显示:目前我国在这四个方面发展是不充分的,也是不平衡的,为全面实现建设清洁低碳、安全高效的现代能源体系,要制定具体细致的实施进程表,根据先易后难的原则,做到单点突破和综合平衡的结合,建议如下。
(1)实现能源高效化的关键在需求侧,要继续强化市场机制、充分发挥好需求侧响应作用,保持供给侧与需求侧良性互动;
(2)基于社会各方对能源低碳化、能源安全保障的较高共识度,要发挥好供给侧的推动作用,充分动员全社会力量的积极支持和共同参与;
(3)对于有相当难度的能源清洁化问题,要发挥好供给侧的引领作用,创新体制机制,在商业运行模式上寻求突破点和适宜的解决方案。
(4)对于综合性能源体系问题,从供给侧改革入手,重点调整平衡好清洁、安全和高效三者间关系。
4.2 把握技术发展方向
为使能源技术革命已成为推进我国能源革命的新动能,要发挥能源科技对能源结构转型的支撑引领作用,要加快形成新能源技术相对于传统化石能源的竞争优势,建议如下。
(1)着力提高化石能源和可再生能源的开发技术水平,降低能源成本,尤其是提升可再生能源的竞争力,为能源品种的选择提供更多可能性,以实现能源的安全保障和清洁化。
(2)以智慧能源技术为重点,构建安全高效的能源基础设施体系,形成支撑多能源协调互补、及时有效接入的能源互联网,推广智能储能设施、智能用电设施,实现能源供需信息的实时匹配和智能化响应,确保现代能源体系高效运营。
(3)以能源低碳技术为主攻方向,应用能源外部成本核算法,发挥好碳税的杠杆作用,打造低碳发展优势,使我国在全球能源变革和应对气候变化国际合作行动中占据主动和引领地位。
参考文献:
[1]科技发展动态分析平台(V3 .0)[DB/OL] http://112.124.52.142:8081.
[2]舆情中的热词分析 [DB/OL] https://yq.aliyun.com/articles/68813.
[3]百度指数[DB/OL] http://index.baidu.com/.
[4]百度指数专业版[DB/OL] http://vip.index.baidu.com/.
[5]热词分析[DB/OL] http://www.search1990.com/other/201702211915.html.
[6]沈跃栋,姜凌,张冬梅,等. 绿色能源产业及其技术的地位与作用[J]. 上海节能,2015(1):29-34.