科技情报采集与分析系统的总体设计
2022-03-15张祥甫闫仲秋
张祥甫 闫仲秋
(1.海装驻连云港地区军代室,江苏 连云港 222061;2.中船重工第七一六研究所,江苏 连云港 222005)
0 引言
科技情报工作是把科技知识和科技成果,通过组织加工后,准确、及时地提供给使用者的传递工作[1]。当前,科技情报工作已经成为社会发展的重要推动力,是科研、生产、市场经营、产业发展中的关键一环。
随着大数据时代的到来,依靠有限的人力进行情报搜集的工作模式,已很难适应市场和技术发展的要求。充分利用互联网的优势,及时、全面、低成本地搜集科技情报,再结合人工研判加以分析处理,形成具有参考价值的情报资源,帮助科技部门开展新兴产业发展的战略情报研究,有助于加强科技资源整合利用、增强科技成果保护和转化;同时也可为行业情报咨询服务机构、各级行业协会提供情报收集和分析辅助工具,提升其咨询服务能力。
本文分析了科技情报研究的现状,尤其是科技情报平台架构及功能规划,设计了科技情报搜集与分析系统,包括总体流程、系统功能和关键技术三大部分。本文的研究成果对基于科技情报搜集与分析系统的情报服务有重要的借鉴意义。
1 相关工作
一些学者在科技情报的内涵、存在的问题、发展趋势、服务模式等方面开展了广泛的研究。
王鹏[2]分析了科技情报在“互联网+”环境下的发展趋势,提出了科技情报团队建设方案与“云”情报团队的概念,阐释了“云”情报团队的内涵与建设方向,认为情报服务必须从传统物理层次的信息组织向认知层次的个性化知识组织转变。
刘如[3]介绍了国内情报机构向智库转型的趋势,构建了面向智库转型的科技情报机构知识服务体系。
周飞[4]介绍了大数据对科技情报服务的影响,分析了大数据时代科技情报工作者面临的新时代问题,并对大数据时代背景下科技情报服务内容和服务模式进行了探讨。
黄宇康[5]分析了企业科技情报服务的发展现状,提出了改善现状的策略,包括建立企业科技情报服务系统、加强与第三方情报服务机构的合作、建立灵活的工作机制及提高情报人员专业素质等。
王娜等人[6]分析了国防军工科研单位科技情报工作中存在的问题,提出了此类单位科技情报工作的思路和框架,包括培育多维度的情报人才队伍,与科研设计人员协同开展情报研究,注重战略情报跟踪研究和临时性情报咨询的均衡协调发展,以及建立系统、完善的科技情报服务体系。
周晓英等人[1]采用文献调研、网络调查等方法对我国科技情报事业发展的历史事件进行了全面梳理,提出了中国科技情报事业发展的5个方面的演变规律,包括从“情报—信息—多元范式的大情报”的演变、从“机构服务”到“平台服务”的演变、从“收集提供”到“分析挖掘”的演变、从“文献资源”到“数字资源”再到“综合数字资源”的演变、从“资源服务”到“方案服务”的演变。
钱虹[7]通过调查问卷与访谈研究了技术创新链条中各主体在不同创新阶段的服务需求,构建了资源与服务一体化的科技情报服务体系,实现了情报服务与用户需求的精准对接。
科技情报工作的有效开展离不开信息化手段的支撑,一些学者围绕科技情报平台的构建进行了深入的研究。
刘源[8]介绍了互联网科技情报的采集与清洗、数据存储与索引、数据的智能分析,阐述了自动获取与智能分析平台的技术实现路线。
李时玉等人[9]利用Hadoop平台的分布式存储和计算模型,基于Hadoop实现了科技情报大数据深度分析的实践。
刘明月等人[10]认为基于人工智能的科技情报需求自动感知在未来会成为科技情报工作发展的潮流,提出了基于人工智能的科技情报需求自动感知研究方法,并就各个模块提出了技术方案。
鲁文帅等人[11]基于数据挖掘和人工智能技术,给出了自动化采集分析平台的总体设计,并从数据采集、预处理、归集、展现、汇编等方面分模块介绍了技术实现的方法。
吴素研等人[12]结合虚拟化、云平台、高性能和人工智能等新一代信息技术,设计了科技情报大数据业务平台的总体架构,阐述了硬件层、虚拟层、支撑层和业务层的主要功能,搭建了基于Hadoop和HBase的大数据存储平台。
2 科技情报搜集与分析系统设计
2.1 总体流程
本文提出了科技情报搜集与分析系统的总体流程,如图1所示。
图1所示的流程中,科技情报系统分为情报采集、分析处理、情报处理和分类展示四大步骤。情报采集除了包含主流的文献库之外,各类网站、社交媒体也被纳入其中,因为社交媒体已经成为碎片化知识产生与传播的主要载体。情报处理与一般意义的文本分析处理不一样,强调的是情报报告生成、图表分析及预警等功能。
图1 科技情报搜集与分析系统的总体流程
2.2 系统功能设计
针对科技情报工作的业务特点,融合互联网信息采集与挖掘应用技术,本文设计的情报系统的功能如表1所示。
表1 情报系统的功能
2.3 关键技术设计
2.3.1 基于规则的情报相关性判定技术
传统的文本与规则的相关性,根据文本中规则词之间特定位置关系来匹配判定,大致可分为同句判定、同字段判定和同文本判定等几种传统的判定方式虽然考虑了规则词之间的位置关系,但没有考虑到规则的类型及文本的类型,尤其是微博类的短文本,更加口语化、句子划分不够规整,影响了情报相关性的判定精度。
针对传统方法的不足,基于规则的情报相关性判定技术,首先判断规则与情报标题的相关性;其次判断规则与情报正文的相关性。该技术根据规则的核心词、规则类型及正文类型,划分正文文本句子,获取最短距离句子集,判断规则与最短距离句子集的相关性。根据规则与情报的标题及正文的相关,获得规则与情报的相关性。
2.3.2 基于波特五力模型的企业情报采集技术
企业为保持较强的竞争力,需密切关注行业情报。波特五力分析模型聚焦于企业竞争环境中五个核心要素,包括竞争者、供应商、客户、潜在进入者、替代性技术或商品。基于波特五力模型的企业情报采集技术,全面分析企业竞争环境影响因素,构建五力要素量化指标;将量化指标结合企业业务领域知识自动转换为搜索规则;针对五个因素,从信息载体(新闻网、博客、论坛、微博、电子商务网站等)中采集有效信息;采用结构化的抽取方式,抽取企业及产品相关属性;对企业及产品属性进行分析,自动发现竞争对手及同类产品;自动跟踪竞争对手动态事件信息,生成专报进行预警。
2.3.3 基于本体的行业知识库构建技术
系统采用基于行业本体的知识库构建技术,面向不同行业的构建领域知识库,提供Web模式的知识库半自动构建工具。通过对当前各行业科技情报规则词的搜集整理,形成一套行业齐全、内容全面、关系逻辑清晰的核心智能体。对行业进行区分,内置多个行业的规则支持,包含各行业的相关特征词,支持建立任意行业和子类,支持无限级划分,子类下支持建立与、或、非关系的规则,规则数量不限。行业库中包含企业基本信息、科技政策、产业发展、科研机构等规则库,同时提供信息筛选功能。
2.3.4 全面的科技情报监测技术
系统聚焦于科技情报的七个方面,包括科技政策、产业发展、科技计划、重大报告、研究机构、专利、文献。通过智能知识库辅助构建规则以及与中外专利数据库、维普、知网、万方、中国行业研究网、中国产业研究网、国务院发展研究中心资源库等平台合作,系统地采集与分析互联网情报,得到的科技情报覆盖面广且针对性更强。
2.3.5 全网采集技术
系统支持定向采集和搜索采集相结合的情报采集方式,既可做到对企业情报信息的全面搜索,又可有针对性地对指定的论坛、博客、新闻、贴吧等媒体进行深度采集,还涵盖新浪、腾讯等主流微博的站内垂直搜索,对特定社交媒体用户还可定点监测,真正做到企业情报的全面采集。
2.3.6 URL规则匹配技术
系统采用URL规则与关键字规则相结合的方式,既可按关键字监测,也可按定向URL与关键字组合监测,使系统监测方式更为灵活多变。系统根据用户定义的搜索规则可自动发现满足规则的网站,将其设为系统的全局黑名单,对这些网站上的信息进行自动屏蔽,减少采集过程中的无效信息。
3 小结
本文在充分地调研与科技情报相关的系统的基础上,结合大数据、社交媒体、移动互联网、人工智能、精准推荐等新一代信息技术,设计了面向科技情报应用场景的情报采集与分析系统。本文的研究成果对科技情报搜集与分析系统的研发,以及基于情报系统的科技情报服务有重要的借鉴意义,但如下问题还需进一步提升:(1)不同语言类型的情报融合问题;(2)个性化的情报服务推荐问题;(3)不同类型的情报分析问题,包括文本、图片、音视频,等等。