APP下载

主题内容智能聚合技术的研究和应用

2022-05-31邵德奇关培培

关键词:功能模块智能文本

邵德奇, 关培培, 石 聪

(科技日报社 技术研发部,北京 100038)

引言

互联网的快速发展,特别是新媒体的发展,给传统媒体带来了巨大的挑战。一是公众的需求发生了变化。面对互联网繁杂的海量信息,需要快速获取主题信息,同时需要全面了解与主题内容相关的信息,深度理解主题内容的内涵。二是媒体发展的需求发生了变化。近年来新媒体发展迅速,移动端、微信、微博、抖音号、头条号、百家号等新媒体对内容呈现差异化的需求,新闻的传播方式也不再是刻板、固定、一成不变的,而是越来越向连续、不间断、实时更新的新型模式方向发展,媒体需求的这个变化对主题内容的快速反应要求更高。三是主题内容建设的需求发生了变化。现在对于突发的重大事件,需要快速形成主题专栏内容且需要对专栏内容进行全方位、实时、高效的维护更新,及时为受众提供真实可靠的资讯,以便正确地引导舆论,避免谣言、错误信息传播引发不必要的恐慌。

为了解决上述问题,我们利用智能化信息技术,实现主题内容快速聚合,解决主题内容的缺乏、主题专栏的快建和维护、聚合内容的版权等媒体发展的痛点。本文通过大数据、AI等技术实现资讯内容的智能主题聚合、精准分类和特征提取,使资讯内容智能化,通过智能算法实现精准主题内容制作与定制主题内容的推送,从而实现内容主题智能化聚合服务的目标。

1 主题内容聚合平台的构建

为了实现主题内容的智能聚合,首先要建立相关领域的智能化资讯数据库,通过分类、标注、自动聚类、深度学习等信息化技术,将资讯内容智能化,形成智能化资讯数据库。在智能化资讯数据库的基础上,通过主题内容定制与内容加工,实现主题内容聚合服务。主题内容聚合平台由基础设施层、系统层、数据中心层和应用层组成。其中,基础设施层由服务器、存储、网络、安全设备组成,系统层由操作系统、中间件、数据库和虚拟化服务器组成,数据中心层由主题内容采集接入系统、主题内容智能处理系统、主题内容知识加工系统、主题内容数据管理系统4个系统组成,应用层由智能主题内容服务、主题内容加工、主题内容定制服务、主题内容推送组成(如图1所示)。

图1 主题内容聚合平台系统架构Fig.1 System architecture of subject content aggregation platform

1.1 数据中心层

数据中心层在主题内容聚合平台的构建中起着至关重要的作用。数据中心层的任务为完成数据的聚合、语义分析、知识加工、大数据管理等功能,为上层应用提供数据支持与算法能力。

1.1.1 主题内容采集接入系统 主题内容采集接入系统重点解决数据源的接入问题,针对多源异构数据的接入,将推送数据进行多源、多时态、多尺度的整合。主题内容采集接入系统主要包括以下功能模块。

1)数据接入和采集功能模块。数据接入是指将已构建的资讯数据接入进来。数据接入服务功能可提供数据传输服务,在统一数据标准及存储逻辑的基础上,通过多种数据接入渠道,支持数据文件、数据库、表、字段及数据内容片段的接入。实现对新闻、报刊、社交媒体、移动客户端、网站、公众号等平台的实时监控和自动采集,满足对海量互联网信息资源的快速获取需求。

2)数据清洗和校验排重功能模块。实现数据清洗功能,处理字段的残缺、错误和重复等数据问题。实现在接入数据时对数据进行有效性检验、数据质量校验和过滤排重标记等数据预处理工作,确保数据质量。

3)标准化数据转换和校验功能模块。对清洗之后的数据进行标准化处理,实现将不同格式的数据按照统一数据格式规范转换后接入系统,包括实时数据和离线数据的标准化定义。

1.1.2 主题内容智能处理系统 主题内容智能处理系统通过大数据智能处理技术手段进行自动分词、关键词提取、信息分类、聚类等。重点解决数据的智能化问题,主要包括以下功能模块。

1)自动分词功能模块。提供基于融合了词典和CRF1、HMM2分词模型的文本自动分词功能,实现对文本的分词操作,返回正确的处理结果。

2)关键词提取功能模块。提供文本的关键词提取功能,利用文档中词语的统计信息、词性和位置信息进行权重的综合计算,将文本中语义最相关的若干核心词语抽取出来。

3)知识图谱功能模块。提供实体识别、事件抽取等功能,可以从半结构化、结构化的文本中识别出与目标相关的实体与事件元素。

4)文本分类模块。提供基于Word2vec3、BERT4算法的文本分类能力,可实现基于文本内容语义的自动抽取与分类功能。文本分类模块协助构建了基于相关领域的内容分类体系,对于文本内容打标、主题内容的快速形成、用户画像与用户个性化推荐提供了关键支撑。

应用于水产品加工、保鲜等过程中最重要,也最普遍的生物技术是酶工程技术。通过酶工程技术可以将原本低价值的水产品转变成高附加值的产品,显著提高了产品的经济效益。然而,水产品工业中酶的选择取决于其成本、来源、反应条件、稳定性和对酶抑制剂或激活剂的敏感性等因素。大多数酶稳定性差、对环境敏感,且来源受限,限制了其在水产品开发上的应用前景。未来通过基因工程等技术改善酶的性质和提高酶的产量将是酶开发的主要方向。相信随着科技和社会的进步,生物技术在水产品开发中的应用将越来越广泛。

5)稿件聚类模块。提供基于新闻热点、语义、新闻事件的文本聚类能力。通过热点追踪、事件识别、语义聚类等算法,自动挖掘热点新闻、系列事件新闻等,可快速地实现对突发大事件的新闻主题生成与追踪报道。

6)热词分析功能模块。在文本预处理的基础上,提供候选热词评估、面向热点表征的热词甄选等算法,利用多机数据交互技术智能分析出可以表征文本内容的短语或短句。

1.1.3 大数据管理子系统 大数据管理子系统主要是解决数据的存储管理、检索服务与数据管理,主要包括以下功能模块。

1)数据存储功能模块。数据存储要求采用分布式存储框架及分布式数据库,提供大规模稀疏数据的存储方案和技术方法,并实现大规模稀疏数据的有效存储。

2)数据管理功能模块。一是数据质量管理。系统应能够对整个数据链路的数据质量进行管理,从数据的完整性、一致性、唯一性等多个层面轻松实现对数据的全面稽核和预警,提高数据使用质量,指导决策者的决定。二是元数据管理。实现数据服务平台全局的数据预览,血缘分析和影响性分析,不同组织的数据共享以及系统数据的健康监控。用户可通过元数据分析直观了解到数据的来源、数据之间的关系、数据流向、数据被引用次数等重要信息,便于用户直观地把握数据资产状况。三是统一数据生命周期管理。系统应提供数据的采集处理应用和分析服务的各个阶段,提供统一处理流程和中间状态的调度、管理和监控,主要是对数据质量进行检查和分析,定期形成报告,并管理质量规则,使数据创建、获取、加工、使用、维护的全流程质量可控。四是资源调度与任务管理。数据服务平台通过统一资源调度和任务管理,实现对所有计算和查询等操作任务管理,实现对任务所需CPU、内存和网络等资源调度,保障所有任务平稳、快速地运行,状态可监控可管理。五是要求实现数据检索功能。能够对文本进行快速切词,并采用多种索引技术和索引管理、校验技术,完成对数据文本信息检索。

3)上传下载功能模块。用户可单个或批量上传和下载稿件、图片、视频、主题内容、音频、pdf、word、PPT等资讯。一方面满足各种数据接入管理、主题定制、资源上传、数据统计等功能的交互要求,另一方面对数据接入管理的内容、主题内容定制的结果、资源上传的结果进行良好的展示。

1)知识标注和任务管理功能模块。通过知识图谱技术实现知识的自动抽取扩充,支持机器自动抽取与人机结合方式形成准确的知识库构建,支持多人协同标注;支持对主题内容的属性进行标注,例如资讯分类、关键词、摘要等。提供知识条目级和属性级的知识加工功能,实现标注的具体要求与标注内容,支持协同标注的任务分发,对标注任务实现全流程监控与管理。在知识标注的过程中,实现具备知识新鲜度的知识更新功能。

2)粗知识管理功能模块。提供粗知识管理功能,系统支持已有粗知识的导入,以及导入粗知识的有效管理和协同标注任务发布;支持已有结构化知识的导入,对于用户已有的结构化知识需要导入到知识库,与现有知识库进行融合。

3)知识库管理功能模块。对知识加工平台实现系统的配置管理,包括知识库标注字段配置、用户管理、关系管理、分类管理、关键词管理。对知识标注任务的结果实现导出,支持批量导出功能。

1.2 应用层

应用层是主题内容聚合平台的应用,包括智能主题内容服务、主题内容定制服务、主题内容加工与主题内容推送。平台通过聚合、众筹、创作、融合等智能化内容生产方式,汇聚国内外相关主题资讯,利用大数据、AI等技术实现资讯的“智能化”加工,利用知识图谱、NLP等技术实现资讯的“智慧化”服务。

1.2.1 智能主题内容服务 智能主题内容服务使用事件识别、热点识别等算法实现热门事件内容的自动发现与捕捉功能。通过自动聚类算法,汇聚主题内容,自动聚合、生产相近内容主题。通过深度学习分类模型,构建基于行业垂类的分类体系,智能计算稿件所属类别,快速形成各领域专栏与相关主题。

1.2.2 智能内容定制服务 智能内容定制服务支持用户录入相关条件(关键词、来源、媒体类型、分类标签、属性、发稿时间等),系统自动启动数据汇聚工作,支持实时数据与历史数据的汇聚,支持人工设定汇聚条件,包括是否去重、是否是可信源、汇聚条数、汇聚频次等,提供主题内容定制服务。

1.2.3 主题内容加工 主题内容加工提供主题内容创建、修改、删除、检索等操作。可以录入主题内容标签、关键词、起止时间、主题内容文字描述等主题属性数据。可维护主题中的稿件,按日期、分类进行内容加工。支持主题页面生成模板,主题制作成功后平台可实时显示主题内容列表与详情。

1.2.4 主题内容推送 主题内容生产完后可推送至全媒体采编系统、网站发布系统、APP管理系统等其他平台与系统,可实现基于规定时间段的推送频次。支持数据查询接口与推送接口,协助媒体各环节展开主题内容定制工作。

2 主题内容聚合平台的应用

青少年科普主题内容库是主题内容智能化聚合平台的应用之一,是为了满足青少年对科普资讯的个性化要求,建立的涵盖不同科技主题的科普知识库。

图2 青少年科普主题内容库Fig.2 Youth popular science theme content database

如图2所示,主题内容数据库为青少年科普平台提供了基础的数据支撑。围绕青少年科普内容需求,通过自动分类、自动聚类、事件识别、热点识别等能力挖掘科普主题内容。在此基础上,通过使用关键词、分类、热点、事件等组合条件汇聚形成涵盖定制内容的青少年科普主题内容库。再通过主题内容加工、推送等技术手段将主题内容推送到中国科普网相关栏目与频道中,实现自动化主题内容定制服务。

本文得到拓尔思信息技术有限公司的支持,在此谨表感谢。

猜你喜欢

功能模块智能文本
文本联读学概括 细致观察促写作
作为“文本链”的元电影
搭文本之桥 铺生活之路 引习作之流
智能前沿
智能前沿
智能前沿
智能前沿
商业模式是新媒体的核心
基于ASP.NET标准的采购管理系统研究
高校二手交易网络平台功能及技术框架分析与设计