国际众包领域中外学者研究异同探究:基于核心作者的履历分析
2022-06-28杨中华李般若李亚鑫卫武
杨中华,李般若,李亚鑫,卫武
(1.武汉科技大学恒大管理学院,湖北武汉 430065;2.武汉科技大学服务科学与工程研究中心,湖北武汉 430065;3.湖北省产业政策与管理研究中心,湖北 武汉 430065;4.武汉大学 经济与管理学院,湖北 武汉 430072)
0 引言
众包作为一种将特定的工作任务以自由自愿的方式外包给非特定大众的形式,能够有效降低成本,促进跨界创新,因此吸引了国内外学者的广泛关注。众包概念在2006年被提出以后,国内外相关研究文献一直处于高速增长中。通过WoS(Web of Science)数据库的检索发现:国际众包领域的研究文献在2006年后快速增长,近十年来增长率虽有所下降,但文献数量仍然保持增长;同时,作为为数不多的国内外学者几乎同时起步的研究领域,国内学者在该领域的研究成果颇丰,相对领先于国外。目前,国内外关于学科发展现状的研究多采用文献计量方法对学科的文献发表情况进行考察,通过对该学科研究文献的分布描述,探究科学发现的内部机制和规律。相关研究多从科学文献计量入手,很少有学者从发表这些文献的作者角度,通过作者履历信息挖掘对该领域的研究现状进行分析,作者履历中所包含的独特丰富信息尚未得到充分挖掘。
个人履历信息(Curriculum Vita,CV)的精确性和丰富性,使其在分析某些文献计量数据不能很好覆盖的学科时显示出独特的数据价值。目前,履历分析法在职业成长、人才流动、科研合作、群体特征分析以及科研政策评估等领域得到广泛运用。通常,CV记录了一个研究人员的各种职业和非职业的个人经历,这种独特资料使得CV成为职业成长研究的重要数据来源。在研究科研人员职业成长的影响因素中,职称、性别、学科背景、产业经历、国外教育、博士后经历等因素最为人所关注。同时,通过CV所记录的教育经历、专业经历和访学经历等数据的分析,可以探索人才流动、科研合作规律。除个体层面外,CV数据也常常用来研究某一群体(如杰出科学家、女性科学家、诺贝尔奖获得者等)或某个学科科研群体的特征。我国学者关注的重点是一些高层次科技人才群体,不少学者通过获得一些长江学者、 “百人计划”研究员和杰出青年的CV数据来分析该群体的主要特征。CV数据也是科研项目与政策评估的重要数据源,Monica等基于CV数据对比分析了申请资助模式和研究中心资助模式两种研究资助形式对科研活动的影响。
履历分析法可以从大量非结构化作者履历信息中提取出有价值的信息,相关研究成果也表明了该方法的独特价值。然而,履历分析法也存在收集过程复杂、信息不完整等问题,可能会导致研究结果偏畸。针对该问题,本文提出将个人履历信息与科学文献信息融合进行数据挖掘的思路,以弥补单一数据来源可能造成研究偏差的缺陷。因此,本文以国际众包领域核心作者作为研究对象,基于扎根理论运用NVivo编码工具对核心作者的履历信息和相关文献进行编码和挖掘,通过作者学科背景、工作机构、研究技术、研究主题等类目分析,以探寻国际众包领域中外学者研究的异同,并希望从中汲取有价值的要素,促进国内众包研究的深入发展。
1 数据来源与预处理
1.1 研究对象
期刊论文是反映科研成果最直接的方式,它反映了某一领域科学研究的总体情况,也方便获取作者的相关数据。因此,本研究在WoS中以“crowdsourcing”作为主题词和篇名的共同检索词,在SCI和SSCI数据库中对2016—2020年数据进行检索,并对搜索结果选择文献类型为“article”精炼,获得1 085条文献信息;为了保证文献的相关性,作者以人工方式对1 085条文献的题目、摘要和关键词进行审阅,排除了启事、更正以及其他不相关文献后,共获得911条文献作为后续分析的数据源;将911条文献题录信息导出至CiteSpace,对文献作者发文频次进行统计,得到其最高发文量为14篇,根据普赖斯理论算得M约为3。因此,本文选择发文量在3篇及以上的128位中外核心作者作为履历分析的研究对象。
国际众包领域国内核心作者共70人,其中62人来自高校,3人来自科研院所,3人来自医院,2人信息未找到。具体信息见表1。
表1 国际众包领域的国内核心作者基本信息
国外核心作者共58人,分别来自于美国、澳大利亚、新加坡等8个国家;其中,47人来自高校,7人来自科研院所,3人来自公司,1人信息未找到。具体信息见表2。
表2 国际众包领域国外核心作者基本信息
对比国际众包领域中外作者所在机构发现,高校是众包领域核心作者的主要来源机构(图1),还有部分核心作者来自于科研院所;比较而言,国外核心作者的来源机构更加丰富,除高校、科研院所外,企业也是部分核心作者的重要来源机构。
图1 国内外众包领域核心作者来源机构
1.2 数据采集
本研究中的众包领域国内核心作者履历主要包含工作单位网站展示的个人信息,以及网页上相关信息;国外作者履历主要源自其个人网站主页,部分来自于领英网站上的档案信息,以及所在机构主页中的个人信息页面。在获取履历的过程中,发现有些履历中作者的研究兴趣及技能专长抽象且广泛,并不能体现与众包研究领域的直接联系,为了辅助分析这些核心作者在众包研究领域的具体研究方向、研究技术手段等信息,本研究还对核心作者发表的众包相关期刊文献进行收集,共获取到了国外53位作者的履历信息和211篇相关文献、国内56位作者的履历信息和190篇相关文献。
1.3 数据预处理
对获取到的国内外核心作者的109份履历和相关文献信息进行标记:国外作者53份履历信息标记为A1~A53,53个工作单位网页标记为B1~B53,211篇相关文献标记为C1~C211;国内作者56个工作单位网页中的学者简介信息标记为D1~D56,56份工作单位网页标记为E1~E56,190篇相关文献标记为F1~F190。采用人工编码方式,将国内国外核心作者的履历信息和相关文献信息分别进行编码。
2 基于NVivo的作者履历信息处理
在对核心作者履历信息分析之前,首先需要对其进行编码。基于扎根理论,本文利用NVivo 11对作者履历信息及相关文献的文本数据进行编码分析。编码是质性研究的核心步骤,通过将文本内容中字句、大意、观察到的特点进行全方位了解,分解成一个个独立的概念,再对这些分解出的概念节点按照某种范畴重新归类。编码过程主要分为开放式编码、主轴式编码和选择性编码三个阶段,提取出文本中在某些方面有意义的相同点,并将他们群组化。
2.1 开放式编码
首先将履历信息文本分为国内国外两部分,通过对文本的仔细反复阅读,查找关键信息,对较为模糊的概念,前后比对,反复斟酌,寻找更加贴切的概念对其命名,创建自由节点。最后,从56份国内作者履历信息中编码出48个自由节点,433个参考点;从53份国外作者履历信息中挖掘出53个自由节点,379个参考点(详见图2)。
图2 核心作者履历信息的开放式编码
2.2 主轴式编码
在进行编码时,通过对核心作者履历信息的53个自由节点进行整合,归纳出相同的6个树节点,分别为学术机构、国际交流、众包应用、众包机制设计、众包综述、研究方法,如图3所示。
图3 核心作者履历信息的主轴式编码
2.3 选择式编码
在经过前面两个编码步骤后,选择式编码阶段将比较不同的类属,梳理层次,分析产生更具统领性的核心类属,故本研究针对国内外作者履历信息最终归纳出三个核心类属:学科背景,研究方向,研究技术手段(图4)。
图4 国内外核心作者履历信息的选择式编码
3 研究结果分析
3.1 学科背景分析
学科背景方面,本文统计了中外学者在教育经历、国际交流、学术机构等三个方面的信息。
教育经历方面,统计了学者本科、硕士、博士三个阶段的学科背景。按照《授予博士、硕士学位和培养研究生的学科、专业目录》,将学者各个阶段的学科背景分为哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学13大门类。如履历D36,本科专业是数学专业则归为理学,硕士是运营研究则归为管理学,博士是运筹学则归为管理学。统计结果发现:众包领域国内核心作者大部分来自工学门类,少部分来自理学,其余零散分布于管理学、文学和哲学;国外核心作者学科分布更为广泛,工学、理学、经济学、管理学、医学和教育学等学科皆有涉及。就作者教育经历的学科变迁而言,国内众包核心作者跨学科较单一,主要是理学-工学、管理学-工学;而国外众包领域核心作者跨学科经济丰富多元,主要是理学-教育学、经济学-教育学、理学-管理学等。
国际交流方面(图5),众包领域国外学者更多具有海外教育的经历,他们中约有37%的学者有在海外接受学位教育的经历,相较而言国内核心作者接受海外教育的比例为21%。海外交流经历方面,国内学者中具有海外交流经历的比例远远高于国外学者,这也是近年来我国大力鼓励海外学术交流、海外访学等政策的结果。此外,无论是国外还是国内约有1/3的学者没有海外交流经历,但并没有影响这些学者在众包领域优异的研究产出,表明随着国内外学者间交流日益频繁,学术文献扩散自由,即使没有国外交流经历也能获得最新最前沿的研究动态并做出优异的研究产出。
图5 国内外核心作者国际交流情况
就该领域核心学者的来源机构而言,无论是国内核心作者还是国外核心作者,他们的来源学术机构分布基本相同(图6):核心作者大多数工作于计算机学院、软件学院;商学院也是国内外核心作者的重要来源机构;除了高校以外,国内外核心作者中有很大一部分学者来自科研院所、研究中心。
图6 国内外核心作者学术机构分布对比
3.2 研究技术手段
研究技术手段主要反映了众包领域国内外核心作者所使用的研究方法。通过编码统计发现,众包领域所采用的主要研究方法主要有算法设计、模型推理、模拟仿真等(图7)。
图7 国内外核心作者研究方法对比
对比发现,算法设计、模型推理是国内外核心作者最常用的研究法,其他如模拟仿真、现场实验法、案例研究等方法国内外核心作者各有偏好。国内核心作者发表的研究文献中,分别约有65%和28.8%采用算法设计和模型推理的方法展开研究,其他研究方法则较少有学者使用。如Tong等在研究众包中的任务分解机制时,提出了一种贪婪启发式算法,以及使用具有可证明的近似比率的最优优先级队列结构的高效近似框架,尝试分解大规模众包任务,以最低的成本实现所需的可靠性。而国外核心作者研究方法较为丰富,除了算法设计运用较多以外,还大量地运用了模型推理法、现场实验法、内容分析法等方法。如Zhang等提出了一种用于大数据特征学习的双投影深度计算模型,以通过替换常规的隐藏层来学习大数据的交互功能,证明了其在大数据特征学习中的潜力;如Zhao等进行了促进社区参与艾滋病治疗研究的众包竞赛研究,对促进者和参与障碍者定性评估,对31个相关研究对象深度访谈,使用归纳和演绎编码技术对数据进行录音,转录和主题分析。
3.3 研究主题分析
统计分析显示,国际众包领域的研究主题主要包括众包机制设计、众包应用、众包综述三个大类(图8)。
图8 国内外核心作者研究主题对比
3.3.1 众包机制设计
众包机制设计进一步可以分为众包框架设计、匹配机制设计、分发机制设计、众包激励设计、众包质量保证机制、众包成本控制、众包团队形成机制等细分研究主题(图9)。
图9 国内外众包机制设计领域研究主题分布
激励机制是提高众包质量的有效途径,匹配机制设计是为了提高任务分配的有效性,使得任务的发包方和接包方供需匹配,这也是众包的一个关键性问题。国内关于众包激励机制和匹配机制设计的研究相较于国外具有显著优势,国内学者更关注激励机制和匹配机制的算法设计研究,通过模型推理的方法进行研究,说明保证众包模式的活跃性和有效性是国内学者重点关注的议题;在众包质量保证机制、众包框架设计方面等其他方面国内外研究相差不大,基本持平,国外在众包成本控制上研究略多。
3.3.2 众包应用
目前,众包模式被广泛应用于数据可用性、物联网、隐私保护、地图与导航、语义集成、应急与救援、物流与供应链和医学众包等领域。隐私保护、地图与导航是国际众包领域国内外学者共同关注的重要问题,相关研究成果也较多集中在这两个领域。国内外学者在众包应用方面研究重点整体相差较大,可能与学者学科背景以及众包在各国的发展有关,国外在医学众包领域有较多的研究成果,而国内相关研究尚处于空白;而国内近年来在隐私保护、地图与导航以及应急与救援领域发展迅速,相应的众包应用研究较多,这也反映了众包模式在我国的重点应用领域(图10)。
图10 国内外众包应用领域研究主题分布
3.3.3 众包综述
国内外对众包领域的研究动态进行综述,其主题涉及空间众包、参与者动机、众包系统、众包技术、医学众包等主题(图11)。总体而言,国内外学者在众包领域的综述文献数量不是很多,原因可能在于某些主题的研究开展时间不长,尚未形成较为成熟的科学体系,相应的文献也不多见。相对而言,国外学者在参与者研究、空间众包、众包系统、医学众包、众包流程和众包市场等领域具有综述研究文献;国内学者仅在参与者研究、空间众包、众包技术和众包系统等主题上有少量的综述文献。综述类文献是对某个主题国内外研究的归纳和总结,可使读者快速全面地了解该领域的研究动态和发展方向。如Pavel Kucherbaev等针对众包流程化问题,对TurKit、AutoMan、Jabberwocky、CrowdComputer、CrowdLang等11款众包平台从语言定义、任务支持、流程控制、质量控制等7个维度进行了对比分析,为未来研究指明了新方向。
图11 国内外众包综述领域研究主题分布
4 结论与展望
针对履历分析法所存在的收集过程复杂、信息不完整的缺陷,本文提出将个人履历信息与科学文献信息融合进行数据挖掘的思路,选取众包领域核心作者作为研究对象,基于扎根理论利用NVivo软件从作者学科背景、研究技术手段、研究主题三个角度进行编码分析,揭示了国际众包领域中外核心作者研究的共性与差异。
(1)学科背景方面:国际外众包领域中外核心作者教育经历都较集中于工学和理学,国内学者跨学科经历较为单一;国内学者中具有海外教育经历的比例为21%,低于国外学者的37%,然而,国内学者中具有海外交流经历的比例远远高于国外学者;就核心作者供职学术机构而言,国内外核心作者的来源学术机构分布基本相同,大多数学者工作于计算机学院、软件学院,同时商学院也是国内外核心作者的重要来源机构。
(2)研究技术手段方面:在众包领域国内外学者主要使用算法设计、模型推理、模拟仿真、现场实验法、案例研究、实证研究、文献计量法和内容分析法等研究技术手段,算法设计、模型推理是国内外核心作者最常用的研究法。国内核心作者更集中于运用算法设计对众包问题进行研究,其他研究方法运用较少;而国外核心作者研究方法较为丰富,对众包的研究角度更多,研究更加深入。国内学者可以拓宽思维,采用多样的研究方法,如模型推理法、内容分析法等,并结合我国实际需求,加强我国众包应用方面研究。
(3)众包研究主题方面:国内外学者的研究重点主要集中于对众包机制设计和众包模式在各个领域的应用研究;国内学者更关注众包激励机制和匹配机制的算法研究,与国外相比更具优势,而在众包质量保证机制、众包框架设计等方面国内外研究相差不大,两者皆重点关注众包成本控制的研究;在众包应用方面,国内外研究侧重点不同,国外学者对医学领域的众包应用研究较多,而国内近年来在隐私保护、地图与导航以及应急与救援领域的研究发展迅速;此外,国内外学者对综述方面的研究都较少,在众包研究领域只有零散的分布。
通过对众包领域核心作者履历信息挖掘,本文认为未来应有更多不同学科背景的学者加入众包领域研究,加强跨学科知识交流;丰富研究方法和研究角度,推进众包研究的深入;结合我国实际需求,扩大众包应用领域。由于主客观因素的影响,还存在以下不足之处:首先,质性分析方法处理数据的能力有限,本文只对2016—2020年的文献数据开展研究,若能结合主题模型等其他文本挖掘方法对内容进行快速提取,研究结果的呈现也将更加丰富;另外,由于使用履历信息研究存在的履历收集过程复杂、信息不完整问题,将来研究可以考虑将个人履历信息与科学文献表征信息、公开网络信息等多源信息融合进行数据挖掘。