以维基百科为例试论百度百科进阶之道
2014-04-29张之杰
摘要百科全书可视为科普写作的基础。自2001年维基百科创立,网络百科全书已逐渐取代传统百科全书。维基百科现有280多种语文版本,是中国大陆以外国家或地区最常使用的网络百科全书。在中国大陆,人们最常使用的网络百科全书为百度百科,因此百度百科对中国的影响不容小觑,应提高到战略层次对待。本文以维基百科为指标,为百度百科出谋划策,提出学术条目与非学术条目分流、学术条目中的重要条目改由专家学者执笔并署名、加强图片数据库等策略。一得之愚,望能为神州大地的启蒙事业略尽绵薄。
关键词 百科全书 科普 网络百科 维基百科 百度百科
一 前言
治学和写作都需要工具书。以笔者为例,案头有《大英百科全书》等3部英文百科全书,《不列颠百科全书》(大英百科全书简编汉译本)等两部中文百科全书,另有《辞源》等大型辞书多部。约10年前,笔者仍经常查阅上述工具书,如今通常查阅网络工具书。在众多网络工具书中,笔者最常使用的是维基百科,特别是写作科普文章,配图更是唯维基百科是赖。
科普写作是将科学知识通俗化,根据目标读者,化为深浅不等的文字,使目标读者乐于接受,并读出趣味。将科学知识通俗化的先决条件,是深切了解所要介绍的内容,才能化繁为简、深入浅出。
举例来说,要写一篇有关“大陆漂移”的科普文章,必须将相关知识——地作者简介:张之杰,台湾资深編辑、作家,以从事科普、研究科学史知名,曾主编台湾第一部综合百科全书《环华百科全书》及第一部百科辞典《百科大辞典》。本文因出席2014年9月11-15日在南京举办的“第七届海峡两岸科普论坛”而作。球的构造、魏格纳(大陆漂移说提出者)、板块构造理论、中洋脊、地史上的海陆分布等,一一收入眼底。这些知识当然可以从教科书或专书中取得,但教科书不够详尽,专书又过于专业,对一般科普作者来说,最简便的方法莫如查阅百科全书。
如今传统百科全书已逐渐退出市场,取而代之的是网络百科全书,查阅起来较传统百科全书方便。不过凡事难以两全。传统百科全书通常由专家学者执笔,由专业编辑润饰、统一格式,内容可信度高,文字言简意赅。网络百科则反是。网络百科的特色,是规模不受限制,且由使用者(协同编辑者,即共笔者)编写,难免良莠不齐。
在中国大陆以外地区,人们最常使用的网络百科为维基百科,在中国大陆则为百度百科。中国大陆是个较为封闭的社会,境外信息常遭封锁,以世界性网络百科维基百科为例,2004-2008年曾六度遭到封锁。是以就神州大地来说,百度百科的良窳关系重大,其影响不容小觑。
启蒙时代英国哲学家培根有言:“知识就是力量。”民族能否复兴,中国梦能否实现,端看学术上能否赶上先进国家,而非GDP如何如何。百科全书可以反映一个国家或一种语种的学术水平。《大英百科全书》屹立于世两百多年,足以反映英国、美国等英语系国家的学术力量。如何将百度百科提升到维基百科水平,甚至《大英百科全书》的水平,应提升到战略高度对待。笔者不揣浅陋,特假本文为之出谋划策。
二 维基百科中文版的特点、优点及缺点
维基百科由韦尔斯(Jimmy Wales)和桑格(Larry Sanger)创建,2001年1月15日正式营运,由非营利组织“维基媒体基金会”持有,是一部人人可参与编辑的“自由的百科全书”,亦即一部奉行非盈利、无商业广告,但接受捐赠的网络百科全书。
维基百科的原文Wikipedia,由wiki(一种可供多人协同写作的网络系统)和encyclopedia(百科全书)结合而成。强调自由内容、协同编辑、多语文版本。所谓自由内容(free content),就是公共版权(copyleft,与copyright相对),文字可自由引用,图片亦可自由使用,或授权免费使用。协同编辑( collaborativeediting),是指使用者只要经过注册,即可成为编辑者,参与编写、增补或上传图片。所谓多语文版本,是指世界各地区皆可根据维基媒体基金会的系统,建立各自的语文版本。根据2014年4月25日资料,维基百科已有287种语文版本,其中条目超过10000条者有126种。
维基百科中文版于2002年10月24日成立,以“海纳百川,有容乃大”为号召。截至2014年6月18日,已有条目775252条。因为在中国大陆迭遭封锁,中文版的编辑者仍以台湾和香港人为主,根据2011年10月至2012年10月间编辑者的数量统计,台湾占37.0%、香港26.3%、中国大陆20.9%、美国5.4%、加拿大1.9%、马来西亚1.3%、澳洲1.2%、澳门1.1%。这也是中文版在各语文版本中,词条数少于越文(第11位)、日文(第12位),屈居第15位的原因。
维基百科中文版的条目,特别是科学条目,大多源自英文版(翻译、摘译或缩写),其他语文版本亦大致如此。英文版的条目数远远多于其他语文版本,可说是其他语文版本的母本。各版本的体例亦以英文版为宗。
关于维基百科的体例,不论英文版“维基百科”条的Content policies,或中文版“维基百科”条的“编辑方针”,开宗明义都说:维基百科是“百科全书”,而非辞典。百科全书的条目,率为学术界所公认的学术用语,而非一般字、词或成语、典故。维基百科中文版也常列入非学术用语,举例来说,中文版列有“草泥马”条,即与其所标举的宗旨不合。不过就笔者所经眼的网络百科全书,仍以维基最像百科全书。
百科全书条目的撰写,通常先下一定义,再从沿革(历史)人手,再分层说明,文末列有参考文献、参阅条目等。不论一个条目的内容多寡,都应该是一篇有头有尾的文章,而非条列式或辞典式。一些概括性的大条目,大多加注,有时注释多达数百条,以示所言信而有征,并非一己之见。
早在2005年,国际权威性科学期刊Nature曾刊出一篇特别报导,Giles就41个科学条目,比对《大英百科全书》和英文版维基百科,发现维基百科有162处错误,《大英百科全书》有123处错误。[Giles 2005]这则特别报导说明,维基百科的科学条目已有相当高的参考价值。
维基中文版的科学条目大多出自英文版,只要编写者读得懂原文,具有不错的中文表达能力,编写出来的内容就有一定的水平。如编写者未能深切了解原文,或中文表达能力不足,编写出的内容让人似懂非懂,使用者仍可参看英文版。在众多网络百科中,只有维基百科有英文版可供覆按,这是其他中文网络百科所不具备的一大优点。这也是笔者和同侪经常使用维基百科,而较少查阅其他网络百科的原因。
维基百科还有一项其他网络百科难以企及的优点,就是含有大量图片,包括公有领域(public domain)、维基共享资源(Wikimedia Commons)、GNU自由文件授权条款( GNU Free Documentation License,GFDL)等。公有领域部分,可自由(免费)使用,无需注明出处。维基共享资源部分,使用时需注明出处(如摄影者、绘者等)。GNU自由文件授权条款部分,需经授权始可自由使用。当此著作权日益绵密的今天,维基百科的免费图片,对著作者、出版者都无疑是一大福音。
维基百科的另一优点,就是重要条目含有大量注释,以中文版“维基百科”条为例,有286条注释,英文版“Wikipedia"条更有350条注释;文后还列有参考文献(英文版称further reading),包含期刊论文、专书等。因此,使用者想要深入某一命题,借助维基百科往往就能找到门径。传統百科全书当然也有这样的功能,但不能像网络百科般可以随意连结,使用起来远不如网络百科方便。
或日:维基中文版现有条目775252条,居各种版本的第15位。条目数不够多,是否是其美中不足之处?其实,百科全书的良窳,在质不在量。以《大英百科全书》为例,不过81600余条。2012年3月间,《大英百科全书》停止出版纸本,全面数字化,条目开始增多,至2014年,不过121102条,都远少于维基百科中文版!根据笔者的使用经验,就科学条目来说,维基百科中文版的讯息量已相当充分,即使相当冷僻的词汇也查得到。
如果说维基百科中文版有什么缺点,笔者认为,最大的缺点是:若干编写者对原文的理解不足,或中文表达能力欠佳,以致难读、难懂。事实上,维基百科英文版就不好读。奥尔洛夫斯基(Orlowski)在其评论文章中说,维基百科创始人韦尔斯也承认,维基百科存在严重瑕疵。奥尔洛夫斯基认为,瑕疵之一就是可读性,纵使某一条目百分之百正确,读来却像辗转翻译的拙劣译作。[Orlowski2005]这也说明,由协同编辑所著造的网络百科,不能和由专家学者执笔、专业编辑润饰、整理的传统百科全书相比。这是所有网络百科的通病,并非只有维基百科如此。
2012年10月,第21届计算器协会(ACM)国际信息与知识管理会议(CIKM)在夏威夷召开,会中杰托特(Jatowt)和田中(Tanaka)发表论文:比对《大英百科全书》与维基百科、维基百科简易英文版,发现《大英百科全书》较句式复杂、专业术语层出不穷的维基百科容易读[Jatowt&Tanaka 2012]。维基百科英文版尚且由于文字不佳而不容易读,中文版的编写者如知识不够全面、文字不够精练,其水平更无论矣。
就科学条目来说,维基百科中文版还有一项缺点,就是有些不该简略的条目却过于简略,可能由于摘译者或缩写者疏懒,或不能化繁为简、取精用宏所致。以“机器人”条为例,中文版含有:词源、当代应用机器人、宠物玩偶类机器人、动漫游戏等流行文化中的机器人、模拟和社交机器人、世界机器人博览会、阿西模夫机器人三定律等项,大多都很简略,“世界机器人博览会”甚至只列项目,没有解说文字。反观英文版,“Robot”条为一数万言皇皇巨制,这从附图23幅(中文版6幅)、注释157条(中文版2条)可见端倪。因此,笔者使用维基百科中文版时,如果某一条目语焉不详,或只有纲要,就查阅英文版,核对之下往往恍然大悟。相信这是许多使用者的共同经验。
三 百度百科的特点、优点及缺点
维基百科强调自由内容、协同编辑的运作方式,成为世界各种网络百科的张本。中国大陆最多人使用的百度百科,由李彦宏、徐勇创立,2006年4月20日推出,为商业机构“百度在线网络技术(北京)有限公司”持有。百度百科为百度公司的产品之一。截至2014年6月16日,已有词条8683985条,约为中文维基百科的11倍强、英文版维基百科的2倍弱。百度自称“全球最大的中文百科全书”,实际上可能也是全球最大的网络百科全书。
百科全书有其定义。笔者认为,百度百科称为“万有全书”百度百科之所以成就其“大”,不外下列因素:
其一,百度百科似无意与辞典相区隔,除了收列学术用语,成语、典故,可说是百科全书与辞典的综合体。或许更为相宜。也收列字、词、
其二,百度百科收列大量当代人物,中港台日韩演艺人员更是巨细靡遗,譬如韩国“时代少女”乐团,9名团员个个有传。笔者曾以所收到的大陆朋友名片测试,发现大多数百度百科有传。
其三,百度百科经常将新闻话题列为条目,例如2014年6月24日百度百科首页“热门词条榜”(每日选出10条),依次是:荷兰国家男子足球队、高考分数线、自住型商品房、徐佳宁、以房养老、今日头条、天河二号、刘丁宁、大熊猫心心、工士学位,显然都和时事或新闻有关。排序第四位“徐佳宁”,为李小冉男友,传22日与李小冉闪婚;排序第七位的“天河二号”,在23日公布的全球超级计算机500强榜单中,第三度获得冠军;排序第八位的“刘丁宁”,为2014年高考辽宁文科新科状元。以传统百科全书,甚至维基等网络百科的收词标准,大概只有“天河二号”会列为条目。
百度百科的条目往往直接取自新闻,例如2014年6月24日“热门词条榜”中的“大熊猫心心”,开篇竟是:“2014年6月22日,澳门民政总署召开紧急记者会,中央赠送澳门的大熊猫‘心心于晚上8时18分死亡,初步怀疑死因为急性肾衰竭出血性肠炎。”姑不论将“大熊猫心心”列为条目是否合理,撰写方式显然不合百科全书惯例。
其四,百度百科也不避讳商品,如魔法医生(乳液)、康师傅可乐、崂山矿泉水等等,都直接列为条目,内容与广告相彷佛。在传统百科全书,甚至维基百科等网络百科,若非有历史的国际名牌,一般商品不大可能列为条目。即使收列有历史的国际名牌,如Rolex、Benz等,也是以研究的态度介绍其历史沿革及发展,不致带有广告色彩。
其五,百度也收列青少年“次文化”用语(流行语),例如源自大陆的暖男、小资女,源自日本的宅男(女)、败犬族,源自台湾的白目、火星文,源自香港的古惑仔、无厘头等,皆列为条目。在传统百科全书中,只会以“流行用语”条涵括之,即使是维基百科,也不会一一收为条目。
总之,百度百科可说无所不包,且紧扣时事、新闻、娱乐、流行,最为贴近庶民生活。“百度”又是中国大陆最大的搜索引擎,难怪“百度一下”早已成为中国大陆广大“网民”生活中的一部分。对中国大陆网民来说,对百度的依赖,可能更甚于大陆以外地区人们对Google的依赖。百度相当于Google加上Wikipedia,百度在大陆的影响力可以想象。
由于百度百科无所不包,而且中国大陆当代人事物特别详尽,所以就科学条目而言,许多在维基百科查不到的条目,在百度百科都可以查到,这无疑是百度百科的一大优点。
举例来说,百度百科查得到“中国科普研究所”及该所出版的《科普研究》,维基百科则查不到;百度百科也可查到“中科院自然科学史研究所”,及该所出版的《自然科学史研究》、《中国科技史杂志》和《科学文化评论》等三份学术刊物,维基百科也查不到。
又如笔者今年初因写作一篇有关干细胞的科普文章,辗转获悉中国大陆有两位年轻学者——高绍荣和周琪——对“诱导性万能干细胞”(iPS)研究有贡献。百度百科有“高绍荣”条和“周琪”条,轻易取得所需的资料。又如笔者最近曾介绍大陆知名科普、科幻作家金涛先生,也是查阅百度百科的“金涛”条,取得相关资料。这些当代人物,维基百科大都查不到。又如笔者因撰写一篇有关基改食品(大陆称为转基因食品)的科普文章,从百度百科查到“农业转基因生物标识管理办法”条,得知大陆对基改食品的标示情形。维基百科也查不到这方面的信息。
又如笔者最近因审订一本科普书,查阅维基百科中文版“树蛙”条,内容只有“树蛙可以指:旧世界树蛙树蛙科( Rhacophoridae),分布于亚洲、非洲与马达加斯加;新世界树蛙雨蛙科( Hylidae):分布亚洲、欧洲、南北美洲和大洋洲。”树蛙科和雨蛙科另有条目,连结后发现,树蛙科竟然只列纲要!百度百科的“树蛙”条就详尽得多,而且以若干国产树为例,具有本土特色。百度百科优于维基百科中文版的条目甚多,不必一一枚举。
然而整体而言,百度百科似乎仍不能和维基百科相比。维基百科中文版有英文版做后盾,百度百科纵使赶上或超越维基百科中文版,也难以和英文版比肩。以维基百科作指标,至少有下列几处可供百度百科参考。
其一,维基百科大致维持百科全书体例,条目不论长短,都是篇有头有尾的文章;百度百科的若干条目,往往成为数据汇编,显然由不同协同编辑者迭次堆加而成。其二,维基百科拥有大量“公共版权”图片,除了具有解说功能,也可供用户自由(免费)使用;百度百科的图片较少,左下角标有“Baidu百科”水印,且不像维基百科般,注明图片来源及权限。其三,维基百科的关键条目都有大量注释,百度百科也有,但条数较少。举例来说,维基百科中文版的“维基百科”条,有注释286条,一一列于文末;百度百科的“百度百科”条,有注释85条,但不知何故,文末只列出10條。从注释多寡可以看出,百度百科较不注重出处,因而可信度较维基百科更受到质疑。
百度百科的问题,从“百度百科吧”的一副贴子最能看出端倪。贴主高云慧敏以“请问大家:如果你认为百度百科不好或不够好,不好在哪?”并拟具10个问题,征人投票,至2012年3月10日,共有561人参与投票,统计如下①:
太多黏贴抄袭,太少原创:48.8%
太多恶意编辑,包括广告:38.3%
乱写、乱改乱加开放分类:31.9%
乱放乱加乱摆图片和图册:24.2%
词条信息缺乏权威可信性:41.9%
太多没有价值的人名词条:27.3%
重影视娱乐,轻科技文化:25.1%
用户的总体编辑水平不够:26.9%
审核不足,失误内容泛滥:64.7%
官方追求数量,忽略质量:34.8%
其他意见,请跟贴补充:5.9%
根据百度百科官网:“百度百科吧是百度百科的官方贴吧,是为百度百科的用户交流经验、讨论问题以及收集对百度百科的意见和建议而创建的专门贴吧。”这里的“用户”,是指协同编辑者。换言之,这则贴吧的勾选者及参与讨论者,以协同编辑者为主。从“其他”项只占5.9%,可见高云慧敏所拟的10个问题,是绝大多数协同编辑者的共同心声,也是百度百科的问题所在,值得百度当事者重视。
四 为百度百科献曝
大陆广大网民已习惯百度百科无所不包的“万有全书”性质,勉强将之扭转成“百科全书”性质并不现实。窃思百度百科何不将内容析为封闭与开放两部分,前者由专家学者撰写、署名,后者一仍旧贯。试申述之。
百度为Alexa网站排名中国大陆第一,全世界第五。根据2014年富比士全球富豪排行榜,百度董事长兼CEO李彦宏先生居全球第91位,全中国第三位!全世界没有一家百科全书出版单位——不论是纸本还是网络,具有百度般的财力。以百度的雄厚财力,以及中国大陆和全球华人的学术力量,百度百科即使一时达不到《大英百科全书》的水平,起码应该和维基百科英文版相捋。
笔者认为,百度百科应该延请辞书学家和专家学者,通盘拟订各学科之重要条目(大条目),再延请专家学者撰文,并于文后署名,以示负责。如由协同编辑者所撰写的现有条目通过专家学者鉴定,可署名“某某审定”,与署名条目列为同一位阶。
百科全书的格式是否统一,文字是否简洁易读,关系百科全书的水平。《大英百科全书》约有100位编辑,负责润饰及统一格式。百度百科的管理员和内容稽核员主要由百度员工担任,如果管理员和稽核员不能兼理编辑工作,可另行招募高水平编辑,由编辑兼理管理员及稽核员的工作。凡是由专家学者撰写、署名,由专业编辑润饰、统一格式的条目,只允许原撰文者更改或更新,不对一般协同编辑者开放。
《大英百科全书》数字化之前,不过81600条目。属于分科百科全书的《中国大百科全书》,皇皇74卷不过77859条。笔者估计,各学科之重要条目,总数当不致超出2万条!只要将这2万条写好、编好,百度百科将从一般网络百科中脱颖而出,令其他网络百科刮目相看。
一俟学术性大条目与其他条目分流,一般协同编辑者对于学术性条目仍有广大驰骋空间。举例来说,如将“鳞翅目”及“凤蝶科”、“粉蝶科”等定为大条目,则各种蝶类、蛾类仍写不胜写。由专家学者所撰写的大条目譬如树干和大树枝,由协同编辑者所写的小条目譬如小树枝和树叶,前者可以提升百科全书的可信度,后者可以成就网络百科“大”与“广”的特色。
就笔者观察,百度以贴近生活与新闻的条目为大宗,且最受网民青睐,这从百度百科的每日“热门词条榜”可以看出端倪。既然这类条目关系网络流量,就继续由现有的方式产生吧。只要百度百科的学术条目受到社会肯定,多收些非学术条目又有何妨?将学术条目与非学术条目分流,并提升学术条目的水平,才是百度百科当务之急。笔者建议将学术条目分为封闭与开放两大类,或许可以提升学术条目的水平。刍荛之见,尚请博雅君子不吝赐教。
五 结语
做科学研究,是从小处着手,参考文献以科学期刊为主。研究者查取期刊中所做命题的前人屐痕,找出尚待解决或补充之处。科研所需的知识贵在专精,不在广博。
科普写作是从大处着手,所需要的知识贵在广博,不在专精,是以科普作家格外仰仗百科全书。自2001年元月维基百科开始营运,网络百科迅速取代传统百科全书。在中国大陆以外地区,人们最常查阅的网络百科是维基百科,中国大陆是百度百科。
中国大陆一向管制信息,至今不开放Face Book进入国门;世界最大的跨国搜索引擎Google被迫移师香港,但仍常遭封锁。世界最多人使用的网络百科维基百科也曾多次遭到封锁。
中国大陆人口众多,根据“中文网”中国互联网络信息中心(CNNIC)发布的消息,至2013年6月底,已有网民5.91亿人,估计现今已超过6亿。这样的规模,足以支撑任何信息产业。根据市场机制,既然Face Book不能进入中国大陆,于是出现类似功能的腾迅qq; Google和维基中文版的区位,则由百度和百度百科取而代之。
维基百科是全球最大的網络百科全书,维基百科中文版是中国大陆以外地区华人最常使用的网络百科。维基百科中文版缺失不少,但有英文版可供覆按,参考价值其他中文网络百科仍难以望其项背。中国大陆网民最常使用的百度百科,以“大”著称,以“让人类平等地认识世界”相号召。因为贴近生活和新闻,对普罗大众最为受用,但其学术功能仍有相当大的进步空间。
百科全书可以反映一个国家、地区或语种的学术水平,《大英百科全书》和维基百科足以反映以美国为首的英语系国家的学术力量。笔者认为,百度百科的学术水平,和中国大陆的学术力量并不相侔。中国大陆能够以自己的力量编出《中国大百科全书》,也应该有能力编出够水平的网络百科全书。笔者认为,百度百科之未臻完善,是不为也,非不能也。
近一二十年以来,中国大陆进步神速,往往越过某一阶段,跳到下一阶段,人称“跳跃式”进步。然而,中国大陆的网络百科全书却经常看到黏贴、抄袭,看不到令人惊喜的进步。在民智已开,但信息仍处于管制的背景下,中国大陆更需要有一部较完善的网络百科全书。
笔者不揣谫陋,特为百度百科出谋划策。百度无所不包的“万有全书”特色已难扭转。笔者建议,可将学术条目与非学术条目分流,学术条目应严肃对待。学术条目中的重要条目(具统摄性的大条目),应由辞书学家和专家学者拟定,由专家学者撰写,并具名,以示负责。这类条目不许用户(协同编辑者)增删损益。另聘请一批专任编辑,负责统一格式、润饰文字。至于一般学术条目,仍可由协同编辑编写,惟需经由专任编辑过目,或交付专家学者审核。如果做到这几点,百度百科将“跳跃”至另一层次,令其他网络百科刮目相看。
科普写作需要配图,科普刊物和科普书也需要配图。若以维基百科作指标,百度百科的图片亟待改进。比较同一条目,维基百科的图片往往较多,解说性也较强;百度百科则相对较少,解说性也较弱。查阅百度百科,入目的通常是一大片文字;而查阅维基百科,首先跃入眼帘的往往是醒目的图片。图片较少,无疑是百度的一大弱点。
再者,维基百科的图片大多分辨率较高,可以自由使用或经授权后使用;百度百科的图片大多分辨率较低,通常不注明来源和权限。维基百科的跨国性质,使得同一条目除了附有和英文版相同的图片,还经常附有自己的图片。各语文版本间互通有无,扩大了维基百科的图片数据库,造成强者愈强的局面。
因此,就图片来说,百度百科很难与维基百科争锋,但并非没有进步空间,端看主事者的态度如何。百度是闻名国际的大公司,若非以“全球最大的中文百科全书”自满,那就要想方设法,一点一滴地增强自己的图片数据库。唯有学术条目的水平大幅度提升,所附图片具有一定水平,百度百科才能让人尊敬。
参考文献
Giles, J. 2005. Internet Encyclopaedias Go Head to Head. Nature. 438.
Jatowt, A. & Tanaka, K. 2012. Is Wikipedia too difficult? comparative analysis of readability of Wikipedia, Simple Wikipedia and Britannica. In Proceedings of the 21st ACM international conference on Information and knowledge management. ACM.
Orlowski. A. 2005. Wikipedia founder admits to serious quality problerus. The Register. 18 0ct.