编辑的大数据素养与实现路径
2017-01-26禹卫华
□文│禹卫华
(作者单位:上海交通大学媒体与设计学院)
近年来,大数据成为推动出版行业转型发展的主要变量,在数据驱动下,出版机构正在探索更大规模、更深层次、更广范围的融合,从业者也在思考如何构建个人的大数据素养,以便更好地适应时代要求。无论是机构的融合还是个人的探索都指向一个基本问题,将大数据应用到本专业的基本框架是什么,本文拟从这个入口切入,探讨编辑的大数据素养与实现路径。
一、大数据的基本概念与判断
大数据的说法出现后,业界与学界从各自领域进行了相关探讨,各类概念与说法不一而足,但对大数据的基本内涵与特点基本形成共识,对大数据触发的一些观念转变的说法上还存在争论,本文结合各方研究的最新成果阐述大数据的基本概念与判断。
1.大数据的基本概念与特点
大数据又称海量数据,包含两层含义,第一层含义是指不再依托抽样调查的方法,而是获取所有数据进行分析处理,第二层含义是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,必须开发新工具以适应巨量数据运算的要求。量大并不是大数据的根本特征。[1]大数据具备4种典型特征,数据量大并不是其唯一特征,大数据还有4个特点:首先,更大规模的数据。主要特点是从抽样到相对全体样本,从这个意义上讲,大数据不但量很大,而且很全。其次,更多样化的数据。多样化主要体现在数据类型多,数据来源丰富,与各类问卷调查相比,大数据几乎涵盖方方面面。再次,更实时的数据。这个特征是一个比较根本的特征,以往的数据往往是切片式的数据,只能表明数据在某个时间点上的状态。而大数据则从根本上改变了这种切片式研究,通过数据流呈现数据的整体变化形态。最后,密度低价值高。海量数据的开发价值很大。
有关大数据还有两种典型的说法,第一种是要全体代替抽样,即大数据因为有了全样本所以不需要再进行抽样了,全样本内部容许有误差,这种说法虽有探讨之处,但争议较小;第二种说法是要相关不要因果。这样说法争议比较大,笔者认为,尽管大数据能够做到对全部样本进行分析,但并不能代替因果关系的探究,在一些领域发现相关关系就已足够,在一些领域则必须探究因果,比如医疗领域就不能仅仅依托相关关系判断病情。
2.对大数据的一些基本判断
首先,大数据是时代的主要表征,是各种社会要素数字化之后的呈现形态。大数据改变了人们看待世界的方式,以往无法看到的社会运行状况、网络关系、内容分布、情感倾向在工具和算法的辅助下变得可观察、可测量、可预测,这些动态变化的社会表征对于及时掌握各行各业的发展情况至关重要,也有利于实现对其规律和特点的探究。大数据目前尚处在早期发展阶段,虽然数据量在不断积累,但是相关的算法与挖掘能力还在不断优化过程之中。随着技术的发展,基于大数据构建的宏大社会环境会最终形成,成为人们认知世界、理解世界的主要方法。
其次,大数据不是绝对概念,而是相对概念。
目前尚无一家机构能够完全掌握社会全部数据,还存在各式各样的“信息孤岛”。电商、社交网络、搜索引擎等公司虽然汇聚海量数据,但也并非全社会的大数据;政府、医院、银行等机构拥有各类大数据,但相关的深入挖掘还不够,利用率低。这种分割状况也使研究者清晰地认识到大数据目前主要是解决或预测某一个领域的问题,推动某个行业转型与创新,综合式的研究还不多见,就编辑出版行业来说,大数据在内容生产、图书选题、读者社群经营、精准营销等领域大有作为。有一种观念认为,媒体行业就应该关注媒体行业的大数据,电商行业就应该关注电商大数据,这样才更专业,实际上,如果具备较强的采集存储与计算能力,媒体行业也可以跨界到其他行业的大数据领域。
最后,大数据的应用有规律、有框架、可复制。
大数据的出现给各个行业带来了巨大的冲击,相关行业的业者皆在思考应对之策,然而,掌握大数据资源的实体机构更倾向于神化他们的数据量级与能力,并刻意在人们心理建立一道思维壁垒,让公众感到大数据、云计算等概念遥不可及,高不可攀,这种高高在上的姿态给所有非数据行业出身的业者造成一种严重的认知偏差,以为大数据就是某一小部分人的事情。实际上,大数据并不是不可捉摸的,它有规律可循,其运作框架简单清晰并可复制,其挖掘逻辑与分析工具已成为通用的基本工具,其可视化代码也在不断更新与迭代,熟练掌握这方面知识的业者也越来越多。
本文主要希望将大数据的基本逻辑框架与编辑出版行业结合,形成编辑的大数据素养框架并找到实现路径。
二、编辑对大数据存在的几个认识误区
目前整个行业处在大数据的冲击余波中,无论报刊编辑还是图书编辑均意识到大数据正在快速改变整个行业的运转逻辑,转型是必然选择,但转型的方向是什么,转型实现的路径在哪里尚未明确。虽然数据挖掘的方法已在读者社群经营、图书营销、社会评价等领域有较多的应用,也有一些较为成功的模式,但就编辑的大数据素养而言,目前还存在一些问题。这些问题主要表现为几种认识误区。
认识误区之一:大数据的技术属性强,编辑行业难以适应。由于电商、社交网络、搜索引擎等机构的底层架构是非常技术化的,有关大数据的内容往往具有极强的技术话语特点,多数长期从事编辑工作的人员短期内难以适应这种话语结构的颠覆式转变,而且相关大数据报告动辄亿级的话语描述方式,也让编辑行业的从业者对大数据的边界难以把握,再加上相关公司或企业在媒体上掀起的大数据舆论“螺旋”,也造成了一种大数据迷思,人人都在谈论大数据,仿佛整个社会离开大数据便无法前进,不讨论大数据就落伍一样,这给整个编辑行业造成了隐形压力。
认识误区之二:编辑专业技能价值归零。突如其来的大数据形成的行业压力也传导至编辑个人,许多编辑对自己的专业能力也产生了怀疑,一些编辑悲观地认为长期以来形成的新闻传播或者编辑出版的基本能力已无用武之地,专业价值归零,未来将由人工智能(AI)或者写作机器人代替,要么放弃专业,要么重新开始学习相关的知识,然而面对各类代码与逻辑算法,大量人文社科专业出身的编辑对能否在短期内掌握相关知识也产生了怀疑。大多数的编辑难以适应技术突变带来的行业变革,担心未来发展的方向。当然,还有一批编辑出版的从业者试图通过学习成为大数据方面的全才,掌握大数据全面的知识与技能,实现完全自主的技术能力。
认识误区之三:与计算机和数学相关的都是大数据人才。在转型的道路上,对于什么是编辑出版行业需要的大数据人才也存在认识误区。引进人才作为应对行业变革的一种策略具有重要意义,然而,负责专业发展把关的相关领导多是人文社科专业出身,对引进什么人才缺乏决策依据,出现了只要是学习计算机或数学的都可以按人才引进的情况。实际上,计算机专业学科分野极其细致,凡计算机专业皆可引进是一种模糊的做法,对于专业发展未必有利,跟大数据有关的专业人才其实并不多。数学专业亦如此。
上述3种误区反映了大数据给编辑行业造成的各种不适应,既有变革带来的焦虑也有对专业知识并不了解而形成的误判,不一而足。如前所述,当整个社会的表征都已经数据化的时候,各个行业必然要对这种数据化的基本特点与发展逻辑有所应对。就编辑出版行业来说,大数据首先是一种新的思考逻辑。编辑应能够熟知大数据能做什么,选择何种大数据技术解决哪一种问题。其次,计算机专业并非高深专业,如果寻找理工科与文科最容易结合的部分,非计算机学科莫属,因为计算机使用的语言与人文社会科学的逻辑在很多方面是相通的。大数据的人才主要与文本、算法、可视化相关,跟信号传输、硬件修护等专业之间无太大关联。
大数据对编辑出版行业不仅是挑战也是机遇,短期内它给出版行业造成了一定的压力,但长期来看,如果能够很好地利用大数据,它将是整个编辑行业专业化创新的基本出发点。从历史发展来看,编辑行业一直随着技术进步在不断创新,只不过这次的创新由大数据推动。那么,如何通过大数据推动编辑出版行业转型呢,关键的钥匙是大数据应用的逻辑框架。
三、大数据的技术逻辑框架
大数据的应用框架一言以蔽之就是“采存算取”4个字,即采集(Crawl)—存储(Data)—计算(Mining)—获取(Visualization),这是所有大数据架构的内在逻辑。数据是一切的基础,没有数据也根本不存在所谓的算法与可视化,否则,大数据就是无源之水无本之木。数据采集完成后就要存储在一定的地方,采集数据与存储数据的最终目的是对数据进行分析与挖掘,并通过一定的形式展现出来。无论工业大数据还是社会大数据,都遵循这样的逻辑。
首先是数据采集(采)。在工业领域,数据传感器被植入机器内部,自动采集机器运行信息并通过信息渠道传输,进入大数据库,成为后续分析的基本材料。[2]互联网也是如此,用户的手持终端本质上是数据采集器或传感器,每时每刻都在采集用户的文本、地理位置信息、社交网络等内容,这些数据通过互联网或者局域网向存储设备中的数据库汇聚,形成动态数据流,最终累计成大数据形态。[3]其次是数据存储(存):数据采集之后会以某种形式存储在数据库,便于后面进行数据的分析处理。数据存储是数据采集和数据分析的交互桥梁,为这两个模块提供了高效传输手段,同时降低二者的耦合度。网络社交媒体产生的数据流具有非结构化特点,数据存储结构的优化为海量数据的处理规模和速度奠定了基础。再次是数据分析(算):数据分析模块是构建数据监测系统最重要的一步。根据采集的原始数据通过进行分类、统计、建模等手段,进行时空数据、社会关系网络、文本、舆情等分析,得到相应的量化监测数据。[4]最后达成数据信息可视化(取):利用计算机图形图像显示以及交互能力,将抽象的数据信息转化为直观的视觉形式,实现与用户的交互,满足用户需求。[5]
采集—存储—计算—获取是理解大数据,分析大数据的基本流程,是思考大数据各类问题的基本框架。比如在工业大数据领域,车辆轮胎内置传感器将轮胎的实时数据经过车联网传送至企业数据库,形成动态数据流,经过一定的算法,并可视化呈现出来,生产者便可较为轻松地判断轮胎的寿命并优化生产工艺。再如在舆情领域,研究者采集网上信息,存入数据库,通过一定算法分析舆情走向、核心节点、情感分布等内容,并通过可视化手段呈现,能够有效地对各类舆情进行监测。就编辑出版来说,“采存算取”也是构建编辑大数据能力的基本框架。
四、基于大数据应用技术框架的编辑大数据素养
采集—存储—计算—获取是编辑廓清专业转型方向的一个参考框架,具体而言,编辑的大数据素养包括4种能力与3种思维方式,具体如下。
编辑的数据采集能力。大多数情况下,机构内部用于数据采集的工具可由专人开发,编辑重点是了解不同数据结构的差异,能够应用采集工具获取所需数据,具体可分为两个层面:第一,数据采集的基本能力。编辑对各类社交网络上的数据类型和功能有基本的判断和认知,比如结构化数据与非结构化数据、各类字段的功用、地理位置信息、对网络节点各类关系的描述、各类采集接口(API)的使用现实、采集与反采集的主要思路等,这些属于数据采集的基本知识,所有试图进入大数据领域的人都需要掌握这些知识,这个层面的知识较易掌握,并且在后续的应用中能够发挥基础作用。第二,能够执行基本的数据采集代码。网络数据采集由网路爬虫(Crawler)完成,所谓爬虫其实就是一段代码,目前网络数据采集比较常用采集代码都是Python或者Java开发的,相比其他工具,Python因其简单、高效、适应性强,目前应用最为广泛,普通人上手较快,被广泛接受。编辑在这个阶段能够执行采集代码即可,至于更高级别的代码写作与代码修改则因人而异,负责内容生产的编辑没有必要去专门学习开发代码。第三,形成综合的数据采集能力。编辑具备数据类别的判断能力,能够执行数据采集代码,了解采集与反采集规则主要是为了稳定有效地获取数据,最终形成能够综合运用某种数据采集工具综合运用数据获得观点资讯的能力。
编辑对数据存储类别的判断能力。就实际功能来讲,存储属于基础系统,与编辑出版人员的能力关系不大,但不同的存储框架与逻辑对编辑的影响很大。编辑主要是了解不同数据库的特点,能够掌握数据库的整体发展趋势并作出选择。目前,常用的数据库有两种,MySQL和NoSQ数据库。前者是目前最受欢迎的开源关系型数据库,但对非结构化数据支持并不理想,后者作为非关系型数据库NoSQL家族的代表产品之一,相比关系型数据库在存储海量非结构化数据方面有明显优势。[6]
了解并掌握多种算法的能力。大数据的核心在算法,算法能力的高低决定了编辑对数据的掌控能力,如果说采集与存储是编辑的基本能力,那么,算法能力是编辑掌握大数据的核心能力。比如“今日头条”通过对采集到的用户的各类数据进行分析,从而实现根据用户的使用行为推送内容,在“今日头条”内部通过算法优化的信息推送,实现了更加有效的信息推送。编辑了解大数据、掌握大数据算法的目的是希望通过大数据的分析与研判能够提早发现受众关注的焦点、读者对某类内容的整体意见、阅读者的地理位置分布、内容的传播路线图、社会影响力分布图等。
编辑应该了解或掌握的分析能力包括:①时空分析的能力。时空分析的对象是空间数据和时序数据。空间数据指的是用于描述有关空间实体的位置、形状和相互关系的数据,以坐标和拓扑关系的形式存储具有定位、定性、时间和空间关系等特性。②社会网络分析能力。社会网络分析“社会网络”指的是社会行动者间关系的集合。用点和线来描述关系网,是社会网络量化的基础。③文本分析的能力。通过分词、聚类等方法,挖掘用户文本信息中隐含的兴趣、观点、情感等特征,并根据词频等特性进行文本的综合分析。时空、社会网络、文本三种算法能够有效地覆盖编辑的主要工作领域,比如对图书营销的策划方向,可以从网络评论入手,搜集网络评论的相关意见,并通过时空分析了解相关讨论的地理信息分布,还可以通过社交影响力的可视化效果还原图书推广过程中影响力最大的网络节点。
数据可视化的能力。大数据的关系复杂,数量巨大,必须通过一定的可视化的形式才能完整展示。数据可视化本质上是将巨量数据的运算结果以一种社会大众普遍能接受的形式呈现出来。编辑对数据可视化并不陌生,编辑出版过程中,图画是必不可少的内容,新闻图表或者示意图也是常用的方式,但随着技术的进步,可视化更多地呈现交互可视化的特色,应用工具也有了新的发展,表现形式也越来越丰富,对使用代码的能力要求也有了提升,一些出色的大数据可视化作品都是技术组合而成的。在新闻传播领域,基于大数据的数据新闻也发展起来了,很多机构按照《纽约时报》的模式建立了数据新闻编辑部门,比如网易的“数读”、搜狐的“数字之道”、新浪的“图解新闻”、财新的“财新数据新闻与可视化实验室”等。
以上是编辑应该具备的数据能力,实际上,编辑的主要任务是内容生产,了解大数据运作的框架主要为了更精准地适应行业转型的趋势,对于以应用大数据为主要导向的编辑来说,还需要具备3种思维方式。
协同的思维方式。大数据强调协同是因为大数据所需要的资源与学科异常复杂,仅凭个人的力量难以完成,必须依靠团队的力量。在团队组建或运行的过程中,要形成内部团队与协同团队结合的模式,以最小的成本汇聚最优秀的资源。大数据的很多技术人才分散在社会各个角落,组织者要有能力将这些散落的技术聚合起来为我所用。
融合的思维方式。这里谈的融合是指学科的接纳与融合,长久以来文科背景与理科背景的业者很难走到一起,在一些基本看法上甚至冲突严重,这导致人文社科专业研究一直缺少量化支持,而量化研究又缺乏人文反思,二者的矛盾可以通过大数据达到统一,比如人文社科背景的从业者提出数据和算法的要求,理工科背景的从业者根据要求实现并不断优化,共同解决编辑出版过程中的各类问题,大数据本质上要求打破所有的专业壁垒,编辑也要适应这种趋势。
核心数据的思维方式。一些媒体机构充分认识到大数据的重要性,选择积极与电商、搜索引擎、社交网络公司合作,以期获得大数据方面的支持,事实上,完全没有数据产出的合作无法长久,从实际来看,谁拥有数据谁就掌握了数据决策的话语权,也掌握了主导权,编辑如果能够在数据采集存储层面形成独特的数据资源,并充分开发利用,最终实现由购买数据转向提供数据,并形成产业规模,其影响力与经济效益则会大增。
五、编辑大数据素养的实现路径
编辑大数据素养的培养不能完全技术指向,也不能又回到文本导向,而应从二者融合的角度,结合具体的岗位要求,有重点分步骤,既要提升全员的数据素养,也要形成大数据的核心力量,既要着眼于当下的职业培养,也要从长远角度考虑从高等教育入手。具体路径如下。
1.大数据素养的分类培养
探讨编辑的大数据素养并非催促所有编辑都去钻研计算机技术与代码,那样便偏离了编辑出版是内容产业的方向。培养编辑的大数据素养主要目的是希望编辑能够掌握大数据的基本逻辑,具备研判大数据的基本能力,至于能否成为大数据技术专家则因人而异,实际上,大多数编辑并不会成为大数据的全才,一小部分编辑可以深入了解大数据的专业知识,大部分编辑则应该在充分了解大数据的基础上聚焦实际问题。就解决大数据的问题来说,具备大数据的思维方式,汇聚各种资源解决问题的实际价值大于将编辑变为程序员的价值。
2.通过知识更新逐渐形成编辑的大数据素养
长期的知识更新是提高编辑大数据素养的积极措施,如前所述,要分层分类,有技术型培训,有业务与思维方式的培训。第一,可以组织与大数据有关的业务人员参与大数据采集、存储、算法、可视化等专题培训或者全部培训,使编辑对大数据有基本的了解。第二,对大数据思维方式的训练。并不是所有的编辑都要掌握“采存算取”这四种技术能力,大多数的编辑只需了解相关知识并能够运用大数据的思维方式,聚合资源也是一种较好的培训方式。第三,与高校联合培养相关人才。
3.构建独立运营的大数据中心,形成数据产品
编辑出版机构可以成立独立的大数据运营中心,这个独立的数据运营中心不是技术支持部门,而是一个独立的机构,它汇聚某一出版单位的大数据团队,具有独立的“采存算取”能力,具有独立开展业务的能力,掌握核心技术和核心数据,对内提供各类大数据技术支持,对外能够将大数据作为业务增长点,形成数据产品。
4.编辑出版教育需要引入大数据师资,从源头上改变现状
长期以来,编辑出版教育重视文字的驾驭能力,强调文字的表达,在课程中很少见到专门的数据挖掘与可视化课程。提高大数据业务水准需要从本科教育入手,从基本代码开始持续培养,才能从根本上解决人才缺口的问题。目前大数据所依托的代码大都是开源的,资源丰富,相关教育机构只要开设基础课程,便可为学生打下坚实的知识基础。
六、结语
大数据并非遥不可及,任何一个大数据系统的底层逻辑结构都是相通的。就出版行业来讲,“采存算取”的逻辑结构可以作为编辑大数据素养提升的基本框架,推动编辑形成四种能力并具备三种大数据的思维方式。当然,出版编辑主要是内容生产,在大数据人才的实际应用上也有所区分,强调全员具备基本的大数据素养,但在具体岗位安排上则要分类,让不同层次的大数据素养发挥最大功用。