区域科技创新资源共享服务平台建设与应用
——以泰安市科技创新服务平台为例
2022-01-10徐鲁波王俊杰唐玉敏
张 森 王 普 徐鲁波 王俊杰 唐玉敏
(1.泰山科学技术研究院,山东泰安 271000;2.山东科技大学资源学院,山东泰安 271019)
0 引言
在大数据作为产品的时代背景下,科技创新资源作为一种重要的数据资源,对推动科技进步、实现社会快速发展、提升国家综合实力具有重要的作用。广义的科技创新资源是指科技活动中涉及的人才、设备、平台、信息、数据、基地等要素资源的集合,一般将能够促进科技发展、产业创新、社会进步的各种要素和条件视为科技创新资源[1]。为了有效促进科技创新活动的开展,科技创新资源共享的重要性日益凸显。区域科技创新资源共享服务平台作为区域创新体系建设的重要组成部分,是区域科技创新体系发挥功能的重要载体[2-3]。大数据、人工智能等新理念和技术的兴起加速了科技创新资源的智能化、智慧化变革[4],运用大数据自动挖掘、抓取、推送等技术,搭建区域科技创新资源共享服务平台,帮助域内用户主体低成本、高效率、全方位、便捷化、精准化、个性化地获取科技数据等创新资源,成为地方科技主管部门助力创新发展的重要手段之一。
目前,随着科技资源种类及数量的不断增加,用户需求及市场的快速变化,传统模式下科技创新资源共享服务平台普遍存在着数量多而效率不高、总体定位不准且功能特色不明显、科技信息资源尚未实现广泛的开放共享、信息资源靠人工录入、数据更新不及时、网站僵尸化、专业性技术服务团队力量薄弱、科技服务不精准和科技型企业找技术难、成本高、周期长、针对性不强等问题[5]。大数据时代下,科研人员对科技信息资源的更新频率、时效性、精准度、前瞻性提出了更高的要求[6],运用现代信息技术和手段提升信息资源获取和分析能力,实现平台信息资源自动抓取、即时推送并实时更新等服务,是科技创新资源共享服务平台建设面临的巨大挑战和发展方向[7]。
本文将以泰安市科技局主导搭建的泰安市科技创新服务平台为例,介绍基于数据自动抓取的区域科技创新资源共享服务平台建设模式及应用,综合运用大数据挖掘、比特能管道、云计算分析、语言协同翻译、智能机器人信息采集等技术,通过大数据手段打造区域创新体系的科技信息资源共享平台[8],为区域内的政府部门、企业、高校院所、科研单位和中介服务机构等相关用户主体提供产业咨讯、行业动态、项目管理、通知公告等,完善技术供需、仪器共享、科技人才、管理咨询、成果转化、创新创业服务等功能,解决创新体系中信息、资源等不对称等问题,促进创新要素合理配置、创新主体有机合作、创新系统有效运行,实现科技精准服务,推动区域科技创新能力的发展。
1 平台创新资源的规模范围
平台创新资源基本涵盖了以国内数据为主、国外数据为辅的国内外公开的全球数据资源,主要包括域外数据库、域内数据库、平台管理数据库等3个方面。其中,域外数据库是指国内外公开发表的各类相关文献、专利、标准、成果、技术、人才以及各有关机构公开发布的技术供需、产业动态、新闻报道等各类科技信息资源库;域内数据库是指泰安市本地政府、企业、产业、组织等相关机构公开发布或提供的信息资源;平台管理数据库是在平台运行维护过程中产生的各类数据,包括基础数据、应用数据、统计分析数据、二次挖掘和分析计算形成的各类资源。
在平台创新资源规模上,主要是利用比特能管道跟踪全国各级政府官网及主流媒体网、维普资讯、万方数据、中国知网、国家专利网、国内主要行业网站和资讯机构网站,全球主要经济区企业、政府、世界知名经济组织、世界500强企业等网站,提供全球范围内与泰安各主导产业、科技信息相关的公开数据资源,通过热点分析、聚类分析、集中度分析等方法从海量科技资源中进行挖掘分析,以知识密集度、创业活力度、要素活跃度、产业引领能力为主要指标搜集相关信息,形成创新地图,提供技术、资本和产业链等的链接。
2 平台数据抓取与处理的关键技术
2.1 比特能管道技术
“比特能量”是一种集数据、信息和知识于一体的能量源,是维系泛在网络空间中数据生态的基本能量,是对大数据的时空分布可能变化程度的度量。比特能管道是构建用户和互联网融合的快速通道,包括互联网、能量采集、能量存储、能量转化、能量输出和用户6个部分。互联网是知识和信息的源泉,用户是信息的使用终端。在比特能管道内,通过信息智能机器人的数据采集,构建微库群和知识库进行数据存储,着重围绕需求感知、内容获取、服务推送,利用知识图谱的数据分析、加工、处理技术,实现信息融合和能量转化,进行能量信息的直接推送、知识增益和智慧决策,在平台的各个终端用户界面实现信息输出,为用户提供信息服务[9]。同时,建立反馈机制,根据智能机器人自动获取的用户需求和喜好,对前端的采集、存储和转化环节进行优化和调整,更好地适应用户的需求变化,提供个性化的服务。
2.2 信息智能采集机器人技术
信息智能采集机器人是实现C2B服务模式构建的重要技术基础。根据互联网信息源特点和采集形式,将智能采集机器人一般分为采集机器人、感知机器人和迭代机器人,分别实现信息站点、搜索引擎和互动媒体信息的跟踪、挖掘和采集。智能采集机器人不同于传统的网络蜘蛛程序,它是能够在互联网大数据环境下快速识别用户的需求和对关键词检索,有针对性地实现用户数据采集与推送的智能组件,每个机器人能够携带用户需求在互联网大数据中进行智能跟踪,具有主题识别分析、感知用户主题需求信息源、自动监测信息源变化的能力,从而实现信息快速跟踪、采集和即时推送服务。
2.3 微库计算技术
微库计算技术是利用知识描述体系、领域本体概念库以及自动分类和聚类等技术进行分析和构建知识库存储结构,从资源的专业、来源、类型、数据结构、应用方式等方面进行分析和组织,采用XML语言对创新资源进行描述和规范化处理的技术。微库加工处理过程一般为分资源层、加工层、知识层、服务层等4个部分,根据应用需求,通过对专利、期刊、论文、文档等创新资源的采集,进行数据的数字化和格式处理生成微库群,结合用户模型和计算分析,提供精准检索、属性标注及内容梳理服务。
2.4 知识图谱构建技术
知识图谱作为一种新的知识表示方法,把数学、图形学、信息及计算机科学等学科交叉结合,以多维度可视化的图像直观地将复杂知识关联表达出来,为知识服务提供全新的知识表示形式。通过知识图谱进行数据标注、分类、关联挖掘、相关计算、关联网络、能量度量,实现信息融合和能量转化。知识图谱系统分为数据预处理、数据分析、图谱绘制3个模块,主要是通过数据文本格式的转换、中文分词、停用词表过滤、建立索引、数据特征项提取、数据标注等进行潜在语义算法分析数据结果,并将分析结果进行可视化技术图谱绘制,形成平台产品知识图谱。
2.5 数据抓取的知识产权合规性处理
数据抓取行为本身只是一种技术,而技术的本质是利用自动化算法程序,按照数据获取规则,自动提取所需的网页数据并加以利用的现象[10]。当前,学界普遍认为抓取公开数据原则上不构成不正当竞争[11]。该平台数据抓取采取合法、正当、公开的方式,以技术中立性为数据抓取行为的边界,实现竞争法律制度与数据保护制度之间的协同,确保数据的合法性,不存在恶意使用、危害社会公共利益,或违背商业道德、扰乱公平竞争秩序的问题。平台数据抓取的信息资源均为网上公开数据,专利、标准以国家专利局公开的数据为基本准则,行业新闻资讯以官网原文链接为信息源,对数据仅抓取推送,不做进一步的重新编辑和修改,保证数据信息合法的知识产权;对从外部网络进出数据中心的信息内容进行过滤,实现对应用层HTTP、FTP、TELNET、SMTP、POP3等协议命令级的控制,不抓取构成版权保护的数据,不违反网站设置的robots协议,推送转载数据以原文链接形式进行;对设置了安全保障措施的数据,不会实施数据的抓取。
3 平台精准推送的匹配原则与方法
3.1 匹配原则
高层次的精准推送是将所推内容进行精细化划分或加工,并将其通过有效的方式推送给经过专业细分用户的行为[12]。平台坚持“按需定制、及时跟踪、深度挖掘、智能秒抓”的建设思路,紧密围绕产业发展方向,以企业技术难题、工作实际需求、高校科研成果、承担项目课题、拥有专利、发表论文、获得奖项、举办活动等为检索关键词,根据平台所需要的主要关键词利用大数据分析,在全球范围内进行相关资源的跟踪、挖掘、匹配和服务,基于对企业用户及其产品/服务的静态属性和动态属性(用户反馈、行为日志等)的建模分析,在对用户和系统交互状态和行为分析的基础上,建立起用户—关键词关联模型和用户—知识关联模型,对信息深入挖掘与分析,整合高校院所、专家团队、科研成果等信息,即时链接具有最新成果的国内外高校、专家,帮助企业有针对性地实现技术供需精准对接,解决了产学研合作中盲目找专家、找技术、找成果的问题,实现产学研合作中的科技精准对接、科技信息及服务的精准推送。
3.2 精准推送方法
随着移动互联网的发展,用户不再是被动的信息接收者,而是逐渐成为产品的设计者和使用者的双重身份。以比特能量、群体智慧和社会媒体为代表的新兴互联网应用产品和服务正在由以“B”为中心逐渐向以“C”为中心转变,形成C2B和C2C的数据服务模式。运用知识表示实现从知识到服务的映射,通过4个层次依次解决服务的质量保证、内容表示、逻辑处理、呈现方式等问题,根据用户环境及预定义的个性化需求关键词信息等,匹配激活知识库中的相关服务,通过用户的参与使得相关服务内容更加适合用户的真实需求,采用知识推送技术实现“信息追人”,利用比特能管道技术建立精准服务信息推送模式,从而为用户提供主动的、个性化服务。
4 平台建设的框架及功能
为了更好地发挥科技领域新型智库作用,山东省泰安市科技局直属正县级事业单位泰山科学技术研究院建设了泰安市科技创新服务平台,着力打造科技创新资源大整合、区域创新体系服务大链接、政产学研金服用为一体的大融合平台,主要面向域内企业用户、科技管理人员、专业技术人员提供产业动态、文献查询、专利检索、新闻报道、科技人才、技术供需等公益性服务,具有定制开发、系统融合、拓展链接、动态更新等功能。
4.1 平台总体架构
泰安市科技创新服务平台总体架构分4层,如图1所示。自底向上依次为:比特能管道平台基础设施层、科技创新大数据存储系统层、平台及应用管理系统层、用户应用终端层。
图1 泰安市科技创新服务平台总体架构
(1)比特能管道平台基础设施层。以比特能管道技术数据处理平台为基础,运用云计算相关技术(云计算、云存储、云网络、云安全)及百万智能采集机器人,提供大数据采集、大数据存储、大数据加工和大数据应用服务。
(2)科技创新大数据存储系统层。主要建立域外数据库、域内数据库和平台管理数据库等三类数据库。其中,域外数据库是指利用比特能管道,结合平台建设需求跟踪采集国内外相关各类专利、标准、文献、动态、机构、人才、成果、技术、供需、产业等各类资源库,大规模挖掘泰安市以外的科技资源。域内数据库是指通过平台录入、企业填报、数据导入等方法积累泰安市本地的企业、产业、科技机构相关的数据资源。平台管理数据库是在平台运行维护过程中产生的各类数据,包括基础数据、应用数据、统计分析数据、二次挖掘和分析计算形成的各类资源。
(3)平台应用管理系统层。主要分平台公共服务功能模块、定制服务功能模块、管理员系统3个方面。公共服务功能模块包括平台门户、产业分类、企业概况、政策法规、技术供需、科技人才、科技金融、管理咨询等。定制服务功能模块包括科技千里眼、大数据工具包、个性化定制、创新管理决策、创新数据监控等。管理员维护系统主要实现数据维护、用户管理、统计分析、配置管理和权限管理等底层系统维护管理功能。
(4)用户应用终端层。提供面向PC机、笔记本等设备互联网的访问,手机、PAD、微信等移动终端的访问。系统权限控制管理可以满足政府部门、企事业单位、科研机构和各类型科技服务机构等用户的使用。
4.2 平台主要功能
平台在建设内容及功能上分公共服务和定制服务两大功能板块,如图2所示。公共服务包括产业分类、企业概况、政策法规、技术供需、仪器资源、科技人才、科技金融、管理咨询等8个模块。定制服务包括科技千里眼、大数据工具包、个性化定制、创新管理决策、创新数据监控等5个模块,需要用户注册授权进行访问。
图2 泰安市科技创新服务平台功能模块
4.2.1 公共服务功能
(1)产业分类。围绕泰安市主导产业进行分类,自动推送产业相关的最新发展规划、国内外行业资讯、行业技术发展前沿、国内外最新的技术专利、科技文献搜集、科研新闻报道、国内外知名专家、重点高校院所等信息,帮助用户快速全面掌握产业的最新动态与发展方向。
(2)企业信息。按小微企业、规模以上企业、科技型中小企业、国家级高新技术企业等进行分类,采集企业简介、企业新闻、主营产品、核心技术、研发项目、人才情况、营业收入等信息,分产业导入平台系统,形成按产业分类的企业信息资源库,并实现定期的自动更新维护。
(3)政策法规。分别从国家、省、市等层面为用户提供相关的政策宣传、政策解读和政策使用指导等信息,采用大数据挖掘与自动推送技术,对信息进行自动抓取、分类和更新,帮助企业获取政策的全面性、快速性和准确性。
(4)技术供需。设置企业需求发布窗口、高校院所成果发布窗口。通过数据关联匹配技术,企业窗口可实现对接全国优势科研力量,获取最优解决方案,快速反应、精确匹配,最短时间内得到反馈;高校成果发布窗口可实现对接全国企业技术需求与难题,扩大横向合作范围;科技服务人员通过从平台内寻找解决方案,为双方牵线搭桥,促成双方的技术合作。
(5)仪器资源。围绕全市科技与产业发展提供动态的仪器共享、科研平台、重点实验室、院士工作站、科技中介机构等各类科技创新要素资源,利用科技资源平台及时为企业提供国内外最新的科技动态、产业高端人才、前沿技术成果、优秀科研团队和机构、产业市场动态等。
(6)科技人才。分产业、分领域、分类型、分层次建立科技人才数据库,运用关键词检索、定向追踪、网络爬虫等手段,挖掘国内外院士、长江学者、国家级人才工程专家的基本信息、优秀成果、获得奖项、相关专利、研究论文等内容,为用户提供各类人才服务。
(7)科技金融。针对企业在不同发展阶段的融资需求和金融类机构的融资服务要求,提供国家、省、市最新的金融政策、投资担保、融资项目、金融产品、银企对接等科技金融类服务,为科技资源和金融资源的有效对接提供有力支撑。
(8)管理咨询。在平台中及时发布通知公告、科技动态、服务咨询、办事指南、科技讲座、各类政府项目申报等相关服务信息,帮助企业第一时间了解最新科技动态、全面掌握科技服务流程,为企业提供全方位、一站式信息化管理服务。
4.2.2 定制服务功能
(1)科技千里眼。运用信息抓取、自动推送技术,关注国家科技主管部门、各省级科技主管部门、国内重点城市科技部门、沿海开放城市科技部门、省内16地市科技主管部门等网站信息,通过“新闻+情报+智库”的增值路径[13],将最新的科技类舆情报道、科技热点挖掘、科技进展跟踪等科技动态信息进行精准推送,实现浏览一网站掌握多部门信息的目的,助力科技主管部门在纵向、横向上全面了解科技舆情并正确引导和管控。
(2)大数据工具包。提供知识雷达、知识魔方、挖掘机等大数据分析挖掘工具,链接维普资讯、万方数据、中国知网等科技文献资源库和国家专利网、soopat专利搜索等专利分析工具,实现对国内外相关专利、文献、市场动态、专题技术前沿等各类相关信息的深度分析,辅助科技人员快速撰写专题研究报告。
(3)个性化定制。由企业自主设计关注内容、热点、关键词,针对企业在市场开拓、技术创新、经营发展和政策咨询等方面的个性化需求,为企业搭建具有按需定制、及时跟踪、深度挖掘、智能秒抓等特点的一对一大数据个性化应用平台,从科研专题云、竞企雷达、市场商机、政策千里眼等4个方面为企业提供科技信息资源个性化定制服务,利用百万信息智能感知机器人,24小时不间断地对互联网公开数据进行扫描,及时准确抓取推送需求信息,帮助企业传送实时市场动态、先进技术、热点新闻、产品供需、商业情报、会展等方面的信息,提高企业创新和决策能力。
(4)创新管理决策。根据产业发展的动态、市场资讯、专利技术等情况,利用知识挖掘工具,跟踪域内科技报告、项目研发、大型仪器使用、高企申报、专利申报授权、R&D投入等情况,对区域、产业、企业、科研机构等进行多维度海量数据挖掘、监控和分析,采用“计算机+人工”的模式,撰写有理论数据支撑的产学研分析报告、产业分析报告、技术先进性分析报告,方便政府机构、企业用户实时了解某个研究领域的研究热点、技术方向、最新成果等,为政府、研究机构、企业等衡量科技产业发展情况提供决策参考。
(5)创新数据监控。根据体现产业、企业创新能力的知识产权数量、新产品数量、科研成果数量、产学研合作数量、技术创新数量、科研项目数量、引进人才数量等要素,监控各类企业科研项目、知识产权占有、技术成果转化、人才团队、核心产品及运营情况,构建产业、企业创新能力指数,通过指标量化的算法,并采用数据可视化形式进行分析展示,从多个角度对创新能力数据进行考监控,便于科技管理人员实时了解产业发展状况。
5 平台建设意义及应用成效
5.1 平台建设意义
(1)满足产业发展对科技服务的需求。随着全球化发展进程的加快,地区产业发展和面临的整体竞争格局越来越严峻,产业发展也迫切需要快速吸收全球范围内的最新技术和成果,面向市场迅速提供更具创新的产品和服务。在产业发展的创新链中,通过创新资源共享平台的建设,进一步整合、集成、优化创新资源,及时推送产业动态、行业资讯、先进技术等,有机衔接上下游,协助配套产业发展,加速整合和提升创新效率,进而更广泛、便捷、高效地服务于产业的创新创业。
(2)满足企业创新对科技资源的需求。在激烈的市场竞争环境下,企业的技术创新能力和产业信息动态已难以应对全球范围内的行业竞争和市场变化。企业在产学研合作、成果转化、技术培育等方面迫切需要国内外相关的科技资源、科技服务等。科技创新服务平台能够为企业技术研发人员提供专利查询、标准查询、文献查询等大数据工具包,以及竞争企业新产品、新闻报道、大事件等动态资讯,提高企业创新能力。
(3)满足科技管理对服务方式的需求。地方科技主管部门在对企业科技创新服务的过程中,由于存在科技服务人员少、涉及范围广、服务手段单一等问题,造成服务不精准、不及时。通过科技创新资源共享服务平台建设,构建高端专家人才库、科研成果资源库、创新创业服务、技术成果转化信息以及科技金融超市等,对原有科技创新平台进行集成,利用大数据分析,梳理主导产业的地域占比、科研人才创新能力排名,筛选产业领先的高校院所及专家,在为企业服务中,实现科技合作精准对接服务,将科技管理工作由单纯的线下服务转为“线下+线上”相结合的服务模式,提供丰富、优质的公共服务,促进本地企业创新发展。
5.2 平台应用成效
泰安市科技创新服务平台采用B/S架构[14],用户无需安装客户端,通过浏览器即可访问和使用平台的相关资源和服务。平台在基于云计算和大数据技术的基础上,采用比特能管道技术,实现了国内外相关的百万级规模科技资源的自动采集、即时更新及信息推送服务,基本解决了产业发展对科技服务、企业创新对科技资源、科技管理对服务方式等多方面的实际需求,建立了以用户为中心的信息自动抓取、即时更新的科技创新服务平台资源共享新模式。正式上线运行1年多以来,共累计自动收集、一键推送公共服务信息970多万条。为31家企业搭建了个性化定制服务平台,针对184项技术科研专题内容以及150家竞争企业和市场商机情况,累计推送信息360多万条,满足了企业个性化需求,有效帮助企业免费、快捷、足不出户的获得全球最优、最新创新资源信息,大大降低了企业获取资源和信息的成本。在特种装备、智能制造、生物医药等领域已为105家企业精准提供技术成果350多项,编写干细胞与再生医学项目、高端芯片材料制备半导体单晶衬底和外延研发生产项目等分析报告27项,有效帮助用户及时获得国内外创新资源信息,显著提高了产学研合作的效率,增强了科技深度服务与决策的能力,实现了科技精准服务,利用大数据、云服务、知识处理等技术,提升了科技创新资源的信息推送能力,为区域创新体系的建设和发展提供了强有力的科技支撑。