讯库:互联网时代要“知己知彼”
2015-06-01鲍烨童
鲍烨童
依靠非结构化大数据做支撑,通过自主研发的语义分析技术,讯库在数据挖掘和分析的全面性、可靠性和实时性上已经先于同行迈出一大步。
随着大数据和移动互联网兴起,社会进入了“原子”传播时代。在这个时代里,过去由媒体垄断的传播资源,今天被数以亿计的个体所分享;不同的传播媒介在不断融合与分化的状态中推动了舆情的发展。由此衍生的情形是,政府和企业的形象在互联网上以碎片化方式不断地呈现出来。
有媒体报道,近年来舆情监测和危机公关在企业管理成本中所占比重越来越大。尤其是商业力量引发的负面舆情,使效益好、知名度高的企业不断陷入舆情风波,付出了短期和长期的代价。
不久前轰轰烈烈的“阿里巴巴假货门”事件,就体现了企业身处舆论风暴的无奈。
由此来看,如何帮助企业建立舆论对冲机制,与风险共舞,成为舆情管理要解决的命题。
随着大数据技术的发展,将舆情事件中的人、环境、社会关系等多个因素联系起来进行多维度的考察,对于提升舆情研究和服务的决策参考具有重要价值。利用大数据进行分析和解读,成为管理舆情和维护声誉的必要手段。
“北京麦克斯泰科技有限公司(以下简称“麦克斯泰”)存在的意义在于,让政府、企业及其他机构可以快速了解自媒体、社会化媒体上的人民意愿。比如,对于民众在微博上发布的关于某工厂排污的资讯,环境保护部门就可以快速了解,进行处置。”
麦克斯泰是中关村海淀园的一家公司,创始人初晓光是北京“海聚工程”入选者。这家公司拥有全中国数据量最庞大、更新速度最实时的资讯监测预警平台——讯库。无论在反贪反腐还是广纳民智层面,讯库都是帮助政府高效执政的工具。
“正是舆情产业的发展,在自媒体、社会化媒体兴起之后,推动政府变得更加主动、开放和透明。”初晓光强调。
创新才能生存
面对舆情产品的同质化倾向,舆情监测机构一直在谋求品牌竞争的差异化、细分化,更加注重对舆情研判方法和技术的投入力度,在早期单一的舆情报告产品的基础上,开发出舆情监测平台、咨询和培训服务、主题活动和展览等多种业务模式。
有人指出,舆情产业方兴未艾,拥有巨大的发展潜力,可能成为广告模式衰微之后,媒体向信息服务业转型的重要方向。而在移动互联网、大数据技术迅猛发展背景下,产业洗牌将不可避免,只有创新才能生存。
在舆情监测领域,讯库因为三个优势位列第一梯队。
首先,“讯库”实时监测着全球数千个中文报纸、期刊、门户网站、论坛、博客,每天更新数百万条资讯,并拥有自1998年以来的数十亿条资讯数据库。“只需几分钟,我们就可以把客户所需求的信息进行选取分析之后精准地推送到达。”初晓光说。
其次, 讯库互联网资讯传播评测体系,为用户的市场和公关活动提供全程的量化评测,让用户可以随时掌控各项活动的情况和效果。
第三,讯库在云计算、自然语言处理、人工智能等领域拥有多项自主知识产权。通过持续的技术研发和合作,讯库陆续推出了新的产品和服务。
从技术上来看,讯库采用了SaaS软件运营模式,它将应用软件统一部署在公司的服务器上。用初晓光的话说,“讯库3.0实时搜索云Saas服务系统,一切尽在云端,无需下载软件,无需更新系统,只要一台可以上网的电脑就可实现云办公。”
瞄准非结构化大数据
在信息社会,信息都可以被分为两类,一类信息能够用数据或统一的结构加以表示,如数字、符号等,被称为结构化大数据;另一类信息无法用数字或统一的结构表示,如文本、图像、声音乃至网页等,被称为非结构化大数据。
大数据在物理学、生物学、环境生态学等领域存在已有时日,却因为互联网和信息行业的发展而引起人们关注。不同于结构化大数据内容,非结构化大数据广泛存在于互联网上,表现为碎片化、非规范化的特征。
讯库就是基于数据的某种特性,把散布在互联网上的各种信息和碎片化的内容进行整合分析,找出其中的各种关联性和趋势。它打破了传统的信息分类方式,由用户决定分类标准。
讯库平台能实时从互联网上采集有针对性的资讯,将这些数据放到公司的云计算中心进行处理,再通过商业智能分析,生成结果后提供给用户。
讯库搜索出的结果比普通搜索引擎更多,而且每个结果都以文本形式直接呈现给用户;普通搜索引擎只提供排在前面几十页的搜索结果的链接,其中有一部分链接是无法打开的。另外,讯库能够采集到搜索引擎通常搜不出来的微博、论坛中的内容,而这些内容恰恰是反映网络舆情的关键信息。在每条资讯下方,讯库都根据语义分析技术对其做出正负面态度判断,判断准确率为80%。
除了简单的关键词搜索,“讯库”可以实现添加各种限定条件和复杂逻辑关系的高级搜索。在搜索结果出来之后,还可进行资讯曝光指数、地域分布、预警媒体分析,并实时生成电子剪报。“深度挖掘、准确研判、趋势预测、实时推送”,是讯库核心功能的体现。
这一产品最典型的应用是政府舆情监测和企业竞争情报分析。在政府层面,通过互联网的数据采集,讯库把公众的意见反映给政府,政府以此来提高决策和执政水平。而在企业层面,讯库把与企业有关的信息搜集起来,通过智能分析,得出对企业有借鉴性的参考和建议。
七年经历了三次质变
“讯库团队是一个能打硬仗的团队,是能够在有限的资源和巨大的压力下高效工作的团队。”
依靠非结构化大数据做支撑,通过自主研发的语义分析技术,讯库在数据挖掘和分析的全面性、可靠性和实时性上已经先于同行迈出一大步。目前,围绕数据的分析采集与处理,公司已经有4项发明专利,60项软件著作权和4个注册商标。
自公司成立至今,短短七年时间,讯库已经历了三次质变。最初的1.0和2.0版本是为了解决资讯的全面、实时的问题:第一个版本所做的是让资讯搜集不漏;第二个版本可以在资讯出现后的几分钟内将结果传给客户。而3.0版本致力于从语义分析层面解决用户数据的提取准确性问题。
移动互联网的出现改变了用户的使用模式,让碎片化的时间发挥作用,资讯推送的成本更低,效果更好。为了提升用户体验度,除了PC版本外,讯库还推出了手机客户端等移动互联网方式,用户可以随时登陆讯库,个性化定制某类资讯。通过讯库客户端,以一个更快的方式推送给使用者,不同于现在的频道、栏目订阅,它更精准地将想订阅的资讯推送到用户的手中。这样做的好处是,过滤掉重复资讯和非定制化资讯,用户看到的资讯就是他想看到的内容。
除政府和企业客户外,初晓光团队还针对个人定制化产品进行研发和设计,基于讯库分析工具,用户可以根据历史上的大量数据,通过某种运算形式,对他所关心的问题做市场调查。通过非结构化大数据技术来挖掘互联网上的数据,得到某一时刻公众对这一企业的评价,让企业实时知道这一时间点的公众舆论和情感倾向,产生的结果往往比传统问卷调查准确得多。
未来,讯库将以国内为主要市场,积极同拥有数据的政府部门、科研院所、社交媒体平台开展合作,共同探索大数据在各行各业的应用。
初晓光的创业理想是,将讯库变成中国重要的互联网大数据服务商。
链接:初晓光,入选北京“海聚工程”,北京市特聘专家,北京麦克斯泰科技有限公司CEO。