大数据时代的信息系统行为学研究
2018-03-29孙永强卢彩凤
孙永强 卢彩凤
(武汉大学信息管理学院,武汉,430072)
1 引言
近年来,随着互联网、物联网和云计算技术的迅猛发展,以及社交媒体和智能终端的普及,人类产生的数据量呈现爆发式增长。大数据的涌现,引起了社会各界的广泛关注,各国政府、组织机构和学术界等纷纷将注意力转向大数据的分析和利用上[1-2]。例如,2012年美国奥巴马政府宣布了“大数据研发计划”,将大数据作为国家战略大力发展;我国也在2015年“十三五”规划建议中提出推行国家大数据战略。组织层面上,企业也致力于研究大数据的处理和应用,以寻求以技术为基础的竞争优势[3]。 《Nature》*Nature 455 (7209) (2008) 1-136与 《Science》*Science 331 (6018) (2011) 639-806分别出版专刊,用于讨论大数据带来的机遇和挑战。全球知名咨询公司麦肯锡称大数据已经渗透到当今社会的每个行业和业务职能领域,成为重要的生产因素[4]。人们对于海量数据的挖掘和运用,预示着新一波生产力发展和消费增长浪潮的到来。因此,大数据时代已经到来,各行各业都承受着大数据变革的冲击[5]。
信息系统研究也不例外。因为大数据分析崇尚全样本数据,支持数据容错,并且强调数据现象的相关性*http://www.thebigdata.cn/html/c3/14416.html。在过去,由于全样本数据的获取非常困难,在数据收集时多采用抽样的方式从总体数据中抽取小规模的代表性样本,运用统计分析工具对抽样样本进行分析,再将基于小样本数据分析的结论推广至总体数据。然而,在大数据时代,人们有能力获取海量数据进行分析,从总体数据出发的分析思维逐渐凸显。此外,基于大数据的分析预测更关注数据之间的相关关系而非因果关系,强调数据驱动的知识发现而否定理论在知识发现过程中的指导作用,而这与信息系统行为学研究尊崇理论驱动而反对数据驱动的实证思维是背道而驰的。因此,在大数据的时代背景下,如何进行信息系统研究(特别是行为学研究)需要信息系统研究学者对研究思路与研究方法进行重新思考[6]。
信息系统研究领域的诸多学者也开始从不同角度探讨大数据。例如,Chen等人从大数据分析技术与商务分析的视角对大数据的相关研究主题及未来发展愿景进行了展望[7]。Agarwal等人讨论了信息系统研究中与大数据相关的机遇与挑战,并指出信息系统研究人员已经处于有利地位,应当充分把握机会[8]。Goes则将大数据环境下的信息系统研究机会总结为大数据基础设施建设、大数据分析和大数据变革与影响三个方面[3]。Mueller等人认为大数据分析(bigdataanalytics)作为一种新型的、互补的数据源和数据分析方法,可以充分应用于信息系统研究中并促进信息系统研究的发展[9]。Abbasi等人从信息价值链的角度探讨了大数据的破坏性给信息系统研究范式带来的机遇和挑战[6]。尽管这些编辑评论/特刊从不同角度分析了大数据时代信息系统研究所面临的挑战和机遇,目前的研究中仍然缺乏对大数据时代的行为学研究的全面了解。
本研究试图弥补该研究缺陷并实现如下两个研究目的。第一,本研究对近5年信息系统领域顶级期刊的发文情况进行系统深入的分析,以了解大数据时代的信息系统研究现状。第二,基于现状分析,本研究总结当前信息系统研究的演化趋势,同时给出相应的解决对策。具体而言,通过统计信息系统领域3大顶级期刊的发文情况,将研究范式和研究方法按照年份和期刊进行分析,发掘其中的演化趋势,进而给出相应的对策。
2 大数据时代的信息系统研究特征
2.1 大数据的特点
“大数据”这一术语诞生于2008年,但至今为止没有一个统一的定义。有学者认为,大数据是对传统数据处理软件难以处理的庞大而复杂的数据集的统称[10]。也有学者认为,大数据是从海量、复杂、多样的数据集合中发现大量隐藏价值的技术和方法[11]。咨询机构Gartner则认为“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式以达到更强的决策能力、洞察力与最优化的处理”[12]。与传统数据相比,大数据有五个显著特征,即:海量(Volume)、动态(Velocity)、多源(Variety)、价值(Value)和精确性(Veracity),简称“5V”[5]。
海量指的是数据体量大。IDC报告显示,目前全球数据存储总量的量级已经突破艾字节(EB),甚至泽字节(ZB)。预计到2020年,全球数据使用量将超过40ZB(相当于44万亿GB)*http://www.emc2.com/。数据的海量性要求信息系统行为学研究不应再局限于小样本数据,而应能够从大样本数据甚至全样本数据上对相关行为规律进行把握。
动态指的是由于数据集合的相互补充、以往存档数据的引入以及不同来源数据持续增加,数据内容是不断变化的,而非静态的[13]。例如,沃尔玛超市每小时收集2.5PB的客户交易数据;Twitter上每3天新增10亿篇推文,每天新增50亿次搜索记录[14-15]。如何及时地从动态变化的数据中挖掘出有效信息也具有极大挑战性,因为可能没有足够的资源在合理的时间内收集、存储和处理大数据[5-6]。数据的动态性要求信息系统行为学研究不应再局限于横断面的静态数据(如横断面问卷数据),而应能够从时序上把握行为的动态演化规律(如问卷调查的纵向设计)。
多源指的是不同来源的数据其类型多样,除了以文本为主的结构化数据、以网页数据为代表的半结构数据,也存在大量网络日志、音频、视频、图片、地理位置信息等非结构化数据。据Gartner预计,全球海量数据中有85%由各种非结构化数据组成*http://www.iresearch.com.cn/report/2065.html。如何有效利用不同类型的数据,既是机遇也是挑战[6]。数据的多源性要求信息系统行为学研究不应再局限于某种类型的数据(如问卷数据),而应通过多种渠道获得多种类型的数据(如眼动数据、脑电数据等)对行为规律进行深度把握。
数据价值是大数据最重要的方面,指的是从海量数据集合中挖掘信息价值的过程,侧重点在于大数据分析(BigDataAnalytics)[11]。大数据不具备自解释属性,如果不借助推理计算技术来识别隐含在海量数据中的价值,那么大数据只是一堆没有价值的噪音数据[9]。因而大数据具有价值高而价值密度低的特点。如何从海量数据中挖掘出有价值的信息,尤其是从文本中挖掘深层次的语义知识,仍然具有挑战性[6]。数据的价值性要求信息系统行为学研究不应仅仅看到数据表面的数值,更应深度挖掘数值背后所蕴含的深刻语义。
大数据的精确性指的是数据的准确性和可信度。大数据不是人为刻意收集的数据,而是客观记录的数据,其中绝大部分是非结构化的数据,传统数据库无法利用这些数据,且不同来源的数据其可信度也有差别,因此大数据的精确度较低[6]。数据的精确性问题要求在运用大数据进行行为分析之前必须进行严格的数据清理工作。
2.2 大数据与信息系统研究范式
信息系统研究中存在3大主流研究范式,即行为学范式、技术/设计科学范式、经济计量范式[6]。行为学范式侧重于运用问卷调查法、实验法与定性分析方法对信息技术相关的用户行为、管理机制、组织与社会影响等方面展开研究,目的在于发现信息技术与人交互过程的潜在运行规律;技术/设计科学范式侧重于信息系统的开发设计或者算法优化,目的在于生成新的信息技术人工制品(ITArtifact);经济计量范式则借鉴经济学或管理科学的相关方法,通过构建与推导数学模型或基于客观二手数据对信息系统相关问题进行分析。自信息系统学科诞生以来,行为学范式一直处于整个信息系统研究的主导地位,技术/设计科学范式与经济计量范式的相关研究占比相对较低。然而,大数据时代的来临使得信息系统研究的格局发生了显著变化。
关于大数据的研究主要包括两种类型的研究:一类研究将大数据作为一种新兴技术手段,侧重于探讨大数据的数据收集与数据分析方法,我们称之为技术驱动型研究;另一类研究将大数据作为一种新的思想或思维方式,侧重于通过各种数据之间的关联来探究客观运行规律,我们称之为数据驱动型研究。这两类大数据研究推动了信息系统研究中的技术/设计科学范式与经济计量范式的崛起。一方面,基于Hadoop或Spark的分布式存储数据库的出现[16]、内存数据库(in-memorydatabases)在企业中的应用等改变了传统的数据收集与分析模式[17],使得基于大数据的系统开发与商业数据分析(DataAnalytics)等技术/设计科学范式的相关研究日益增多。另一方面,经济计量范式擅长抓取海量客观数据,并对获得的多种数据之间的关联性进行分析,与数据驱动型的大数据研究相契合,因此在近年来呈现出非常迅猛的增长趋势。
然而,长期处于主导地位的行为学研究范式则因为无法完全适应大数据的特点而面临巨大挑战。表1列出了3种传统行为学研究方法与大数据特征之间的对应关系。由于已有文献中针对案例研究、扎根理论、行动研究等定性研究方法的文献较少,为简化起见,在讨论时均将其列为定性研究方法。在处理海量数据方面,定性研究的数据规模最小(一般只针对单个或多个案例),实验法较定性研究的数据量要大一些(一般每个实验组在20—30人左右,总样本量视实验设计而定),问卷调查方法相对于实验法和定性研究具有优势,其数据规模仍然处于中等水平(几百至几千人),相较于大数据分析中万级、百万级的数据规模仍相去甚远。在处理动态数据方面,定性研究一般只针对单次访谈展开研究(少数存在追踪访谈),实验法与部分问卷调查方法(如纵向设计)可以获得多个时间节点的动态数据。在处理多源数据方面,除了实验法可能会涉及多种数据来源外(如问卷、行为日志、眼动、脑电等),问卷调查法(集中于调查问卷)与定性研究(集中于访谈数据)的数据类型均较为单一。在处理语义数据方面,行为学研究方法相对于大数据分析具有显著优势,由于行为学研究通过问卷调查、实验测量或访谈等方式直接接触调查对象的心理感受,能够更准确地把握数据背后的语义;而大数据分析方法则主要是通过客观数据去表征某种潜在语义,数据与语义之间的联结是通过一定的假设前提来猜测的,这些假设前提是否成立却缺乏有力的支撑。在处理精确数据方面,除实验法可以达到较高的精度外,问卷调查法与定性研究因为数据主观性的问题可能会导致数据失真,如造成共同方法偏误(CommonMethodBias)的发生。综合来看,在大数据的5V特征上,传统行为学研究方法并不能很好地满足研究需求,亟待改良与优化。
表1 传统行为学研究方法与大数据特征之间的关系
3 大数据时代的信息系统研究现状
为更好地展示大数据时代下信息系统研究的演化趋势,本文以信息系统领域的三大顶级期刊MISQuarterly(MISQ)、InformationSystemsResearch(ISR)以及JournalofManagementInformationSystems(JMIS)为代表,统计了近5年来(2013—2017年)的发文情况。截至2017年第3期,3大顶级期刊共发文602篇,其中,综述、编辑评论、荟萃分析、纯理论或纯方法论的论文不包括在内。
为了更为细致地了解大数据时代背景下信息系统研究现状,本研究将从年份和期刊分布等不同视角来分析信息系统研究范式的分布情况和不同行为学研究方法的运用情况。
3.1 信息系统研究范式的演化趋势
3.1.1研究范式的频率分布
从研究范式的分布情况来看(如表2和图1所示),3大顶级期刊主要研究经济计量范式和行为学范式,二者所占比例均超过46%,其中经济计量范式研究所占的比例略高于行为学范式,技术范式研究比例为7.3%,含两种及以上范式的研究比重仅为0.3%。
表2 研究范式频率分布表
图1 研究范式分布图(百分比)
3.1.2研究范式按年份分布
从2013年至今,信息系统三大范式的分布情况如表3和图2所示。依照年份分布,行为学研究呈现波动式下降趋势,研究百分比由50.37%(2013年)下降至44.94%(2017年)。经济计量范式则相反,近年来其研究比重持续上涨,由43.70%(2013年)上涨至49.44%(2017年),尤其在2014年以后,经济计量研究的比重逐渐超过行为学研究,在信息系统研究中占据主导地位。虽然近年来发表在IS3大顶级期刊的技术范式研究并不多,但是随着年份变化,其比重呈现逐年上涨的趋势。混合范式研究仅有两篇,在分析研究范式按年份分布的情况时不具备参考价值,故将其剔除。
表3 3大研究范式随时间变化情况(2013—2017年)
图2 三大研究范式随时间变化情况(百分比)
3.1.3研究范式按期刊分布
3大研究范式在3大顶级期刊中的分布如表4和图3所示。从图3可以直观地发现,行为学范式和经济计量范式在MISQ、ISR和JMIS三大期刊中占比较高。行为学范式和经济计量范式在MISQ期刊上所占的比例相当,说明这两类范式的研究在MISQ中较为普遍。在ISR期刊中,经济计量范式占比高达56.04%,行为学范式占比32.85%,说明经济计量范式在ISR中占据主导地位。与ISR期刊相反,JMIS中行为学范式占据主导地位,其比重为58.06%,经济计量范式次之,占38.17%。技术/设计科学范式在3大期刊中所占的比重则普遍偏低,分别为6.76%(MISQ)、11.11%(ISR)和3.76%(JMIS)。
表4 研究范式按期刊分布
图3 研究范式在期刊中的分布(百分比)
3.1.4研究范式在三大期刊中的演化趋势
如表5和图4所示,近5年来MISQ期刊的研究范式发生了较大变化。首先是行为学研究论文在2013—2014年间由76.19%骤降至41.30%,2015年虽回弹至50%,此后继续下降,维持在40%左右。总体而言,行为学研究在MISQ期刊中的比重波动下降,不再占据主导地位。其次是经济计量研究论文的比重在2013—2014年间迅速提升,由19.05%上升至52.17%,此后比重保持在50%左右。自2014年以后,经济计量研究论文数量逐渐超过行为学研究论文数量。最后,技术研究虽然在MISQ中占据较小的比例,但是近年来其比重波动上涨。
表5 研究范式在MISQ中的演化趋势(2013—2017年)
图4 研究范式在MISQ中的演化趋势(百分比)
在ISR期刊中,三大研究范式的分布一直相对稳定(如表6和图5所示)。经济计量研究论文的比重长期保持在60%左右,占据主导地位。行为学研究和技术研究论文的比重相较经济计量研究而言,波动幅度较大,但是仍然分别保持比重在30%左右和10%左右。
表6 研究范式在ISR中的演化趋势(2013—2017年)
图5 研究范式在ISR中的演化趋势(百分比)
在JMIS期刊中,行为学研究依然占据主导地位,且其论文数量逐年上涨(如表7所示)。经济计量研究比重在2013年时与行为学研究比重接近,此后持续下降并保持在33.33%左右(如图6所示)。技术研究在JMIS中表现为上升态势,但其始终在3大研究范式中处于劣势。
表7 研究范式在JMIS中的演化趋势(2013—2017年)
图6 研究范式在JMIS中的演化趋势(百分比)
3.2 行为学研究方法的演化趋势
3.2.1研究方法的总体分布
在信息系统研究的3大顶级期刊发表的602篇论文中,行为学研究论文有277篇,不同研究方法的分布情况如表8和图7所示。总体而言,问卷调查法是行为学研究中最常使用的方法,在所有方法中占据40.4%的比例;
表8 行为学研究方法分布情况
其次是实验法,占27.8%;定性研究方法紧随其后,占25.63%;同时使用两种及以上方法的混合方法占比为6.14%。
图7 行为学研究中不同研究方法的分布情况(百分比)
3.2.2研究方法按年份分布
按照年份分布,问卷法在行为学研究中所占比重一直较大,但是2015年之后呈现明显下降趋势(如表9和图8所示)。实验方法和定性研究方法的比重随着时间迁移波动上升,混合方法所占比重则是逐年上升,说明在行为学研究中引入多种方法逐渐成为一种趋势。
表9 行为学研究方法按年份分布
图8 行为学研究方法按年份分布(百分比)
3.2.3研究方法按期刊分布
在MISQ期刊中,基于定性研究方法的论文数量最多,已经超过了基于问卷的论文数量(如表10所示)。而在ISR和JMIS中,问卷法仍然是最主要的研究方法,实验方法次之,定性分析和混合方法的比重较低(如图9所示)。
表10 行为学研究方法按期刊分布
图9 行为学研究方法按期刊分布
3.2.4研究方法在3大期刊中的演化趋势
将3大期刊中的研究方法分别按照年份进行分析,如图10、图11和图12所示,可以发现在3大期刊中,基于混合方法的论文比重持续上涨,其他研究方法则因期刊不同而呈现多样的变化趋势。在MISQ期刊中,基于实验方法的论文比重在2016—2017年间急剧增加至60%,基于问卷的论文比重则在2015—2017年间骤降至20.00%左右(如图10所示)。此外,基于实验和定性分析的论文比重在ISR期刊中呈现波动下降趋势(如图11所示)。而在JMIS期刊中,基于问卷的论文比重波动上升,基于实验法的研究比重持续下降(如图12所示)。
图10 研究方法在MISQ中的演化趋势(百分比)
图11 研究方法在ISR中的演化趋势(百分比)
图12 研究方法在JMIS中的演化趋势(百分比)
4 大数据时代的信息系统研究趋势
通过对近5年来信息系统3大顶级期刊上所发表论文的研究范式和研究方法的统计分析,结合对代表性论文的阅读,将大数据时代的信息系统研究趋势总结如下。
4.1 经济计量范式逐步崛起
在信息系统领域3大研究范式中,基于经济计量范式的研究逐渐得到重视。在MISQ期刊中,基于经济计量范式的研究比重在2013—2014年间由19.05%急速跃升至52.17%,此后保持在50%左右。在ISR期刊中,基于经济计量范式的研究相对稳定,其所占比重长期维持在60%左右。而在JMIS期刊中,近年来基于经济计量范式的研究比重维持在34%左右。
正如前文中所分析的,由于经济计量范式善于处理来自不同数据源的海量数据,与大数据时代的研究需求相契合,在信息系统三大顶级期刊中的发文量与日剧增。此外,由于MISQ和ISR的近两届主编(如MISQ的上任主编PauloB.Goes,ISR的上任主编RituAgarwal和现任主编AlokGupta)均大力倡导经济计量学研究,在其引领下期刊亦在收稿时向经济计量范式有所倾斜。
4.2 定性分析异军突起
一个有趣的发现是:尽管行为学范式的相关研究近年来呈萎缩趋势,而在行为学研究内部,以往所占比例较少的定性分析却有扩张趋势。特别需要指出的是,在MISQ期刊中,基于定性分析的论文数量竟然超越基于问卷的论文数量,成为MISQ上行为学研究中使用最多的研究方法。定性分析是通过运用访谈、观察或案例等方法收集资料,并依据主观理解进行归纳和演绎、分析与综合的过程。虽然主观性较强,但是定性分析对于语义的深度把握是其他研究方法不可比拟的。在大数据时代下,绝大部分数据是非结构化数据,尤其是语义数据。要充分挖掘语义数据的价值,揭示其内在规律,需要通过定性分析进行深入细致的研究。因此定性分析在大数据时代的行为学研究中的重要性日渐凸显。
4.3 问卷调查法的式微与改良
问卷调查法是通过设计调查问卷收集数据的研究方法。它通常面临两个核心问题:一是样本的代表性/全面性问题;二是数据的客观性/可靠性问题。前者的顾虑在于问卷是否通过随机抽样调查,即抽样的数据是否能代表样本总体;后者则在于问卷调查通常采用自述式,有一定主观性,即收集来的数据是否客观、是否可靠。为了解决这两个问题,需要对问卷调查法进行改良。针对第一个问题,可以通过扩大样本量和增强样本选取的代表性来解决。通过近年来的文献分析可以看出,单独通过问卷调查进行的研究中样本量呈上升趋势(从以往的200左右提升至1000左右),在进行抽样时,对于抽样过程的阐述亦更加详尽。
针对第二个问题,可以通过引入日志数据更为客观地衡量用户行为,或通过设置精确的研究情境(Scenario)来增强受试者的临场感,以使其问卷的填答更为准确。例如,Hong等人在研究在线购物环境下产品匹配不确定性的影响因素及结果时,在问卷调查的基础上引入日志数据来衡量图片数量、产品类别等离散变量[18]。一方面,弥补了问卷数据对离散变量测量的局限性;另一方面,日志数据也能交叉验证问卷数据,确保问卷数据的有效性。再如,基于情境的问卷调研方法在道德伦理问题的研究中较为常见[19-21]。调查情境是对研究问题的说明,能包含不道德行为决策中的重要细节,以增强决策情境的现实性,同时确保所有受试者在同一情境下进行调研[22-23]。此外,设置情境时以假设的术语来描述他人的行为,受试者比较愿意在情境中报告自己的意图,从而达到间接衡量受试者的不道德行为意图[24-25]。Vance等人在研究私立学校员工的政策偏离行为时就是通过设置情景来收集问卷数据[26]。
4.4 混合方法逐步兴起
整体而言,基于混合方法的论文在行为学研究中的比重仅为6.14%(如图7所示),但是从3大期刊研究方法随年份的演化趋势来看,基于混合方法的研究比重逐年上涨,并且在ISR中混合方法的使用一度超越问卷和定性分析方法,成为ISR2016年度应用最多的两大研究方法之一。在具体应用中,又存在多种混合方式,具体总结如下。
4.4.1问卷与日志数据的结合
问卷常用于收集用户的态度及行为意愿数据。因其标准化程度高,能在短时间内获取大量数据并进行定量分析,是行为学研究中常用的方法。但是问卷调查法具有一定的主观性,一方面,被调查者可能因为种种原因(如自我防卫、理解问题或者记忆错误等)对问卷问题做出虚假或错误的回答;另一方面,问卷调查难以衡量“工作绩效”等量化数据,因此问卷数据的客观性和准确性难以保证,使得客观数据的引入显得尤为重要。日志数据是在不干扰用户的情况下对用户行为的客观记录,这些客观数据的使用能有效避免用户做出虚假或错误的回答。日志数据与问卷数据的结合,可以弥补问卷调查法的不足。
Kim等人在研究知识管理系统(KMS)的使用对部门绩效的影响时,就是采用日志数据和问卷结合的方式,其中自变量(管理者的KMS使用)和因变量(部门绩效)通过日志数据来量化衡量,调节变量(社交知识来源、物理知识来源等)则是通过问卷形式进行收集[27]。Hann等人在研究开源软件服务参与度与经济回报之间的关系时,通过日志数据获取开发者的参与度排名和开发经验,通过问卷获取开发者在不同时期的工作岗位和薪酬待遇等数据[28]。采用日志数据和问卷相结合的方法,为探究开发者兴趣和经济产出之间的因果关系提供了有力证据。部门绩效和开发者排名这一类客观变量很难在问卷中进行充分描述,而且用户在衡量过程中也带着一定的主观色彩。系统日志数据的引入,通过数据量化衡量这些变量,能更好地保证数据的客观性和准确性。
4.4.2实验和问卷相结合
实验与问卷相结合的方式又分为实验主导型与问卷主导型的研究设计。实验主导型设计的核心目的在于检验实验设计的效果,而在效果评价时采用了问卷调查作为一种主观评价方式。在Wang等人的研究中,为了比较不同人机交互模式下的在线决策辅助效果,他采用以实验为主导的实验和问卷相结合的方法[29]。在他的研究中,待测量变量既有客观指标,又有概念性构件(PerceptualConstructs),于是他设计了两组实验用于观察受试者在不同人机交互模式和不同决策策略下的决策行为,从而利用实验数据衡量客观指标,概念性构件的测量则是采用用户自述式的问卷进行收集。
问卷主导型的研究设计的核心目的仍然在于探究通过问卷测量的各个心理变量之间的因果关系,设计实验的目的在于使受试者获得临场感从而增强变量测量的准确性。Ho等人在其研究中也采用实验和问卷相结合的方法,与Wang等人的不同之处在于,他的研究是以问卷为主导[30]。他通过实验设计模拟用户购书环境,以探究网站个性化推荐对于用户态度和行为的影响。在实验中,受试者的所有行为均被记录下来,受试者对个性化推荐的态度则是通过基于情境的问卷进行测量。此外,作者还进行了田野实验(fieldstudy),通过提供一个真实的购物环境,让受试者自然地选择自己喜欢的产品,进而收集用户数据。田野实验的研究结果与实验结果一致,验证了实验结果的外部有效性。
4.4.3定量分析与定性分析的结合
定量(如问卷法、实验法)与定性分析的结合也有两种形式:一种为先定量分析再定性分析,定性分析的目的在于对定量分析结果的深度解析与交叉验证;一种为先定性分析再定量分析,定性分析的目的在于对研究现象进行初步的探索,确定研究框架,然后再用定量分析进行验证。
例如,Zhang在研究知识管理系统的使用对员工工作绩效的影响时,采用问卷方法收集数据进行模型的假设检验,随后利用半结构化访谈方法对问卷研究结果做交叉验证[31]。问卷方法的使用,从定量分析角度对研究模型进行检验,访谈法则是从定性角度对定量分析结果做后验分析,不仅交叉验证研究结论,还能通过定性分析对于语义的深度把握,来解释模型中假设不成立的原因。
Tan等人在研究跨文化环境下个人通信技术对商业绩效的影响时,采用问卷、实验和定性分析相结合的方法[32]。作者首先采用焦点小组对两种常用的个人通信技术(短信和邮件)进行评估,这些评估揭示了短信和邮件在不同文化国家(中国vs. 瑞士)的交流形式上具有不同象征意义, 验证了研究所选通信技术的合理性;其次作者通过田野实验研究不同国家的用户在不同通信工具上收到商品折扣券时的反应;最后作者通过问卷调查来深化田野实验的结果,并解释为什么文化差异会导致用户对不同通信技术持不一样的态度。在这篇文章中,定性分析作为探索性分析,为研究技术的选取作出了合理化解释。田野实验与问卷调查相结合的研究,则从定量分析角度揭示个人通信技术如何影响商业绩效。
4.4.4建模与问卷/实验相结合
建模与问卷/实验方法的结合则体现了多种研究范式之间的对话,也正在成为新的研究趋势。例如,Bichler等人在研究递增组合拍卖(ascendingcombinatorialauctions)行为的协调问题时,首先利用计算机建模方法来模拟各种价值模式在拍卖中的作用,然后将同样的模式应用于实验研究中,探究受试者在实验中的拍卖行为是否与建模方法得到的研究结论相符[33]。建模和实验研究结果表明,在价值模式中引入拍卖商的信息反馈机制以后,拍卖和竞标轮数大大减少,并且拍卖效率的提升在实验研究中更明显。在该研究中,建模是对拍卖行为的计算模拟,其结论在现实世界中是否适用,则通过实验方法客观地验证。
4.5 一文多研(Multiple Studies)成为潮流
信息系统领域的研究,以往多是单一主题研究,即一篇文章中仅使用一种方法研究一个问题,然而,近年来的论文开始出现一文多研(即一篇论文中包含多项研究)的现象。一文多研的现象虽然在心理学与营销学中较为普遍,但在以往的信息系统研究中却较少出现。
有的研究针对不同研究问题使用不同研究方法。如Bockstedt等人在研究定制捆绑策略对数字化产品消费多样性的影响时,作者认为定制捆绑策略导致用户的设计成本和折中效应增加,从而使用户更倾向于购买热门产品,总体而言群体的购物多样性减少[34]。为了验证这些假设,论文中同时利用三个实验和一个经济计量分析方法来验证假设。实验一用于验证定制捆绑策略对用户设计成本的影响,实验二用于验证设计成本的增加导致用户更倾向于购买热门产品,实验三用于验证定制捆绑策略的引入对用户折中效应以及消费多样性的影响。随后作者还利用二手数据进行经济计量分析,再次强调定制捆绑策略对于消费多样性的影响。
也有的研究针对同一研究问题采用多种不同研究方法,如Serrano等人的研究[35]。为了验证用户能力(usercapabilities)和技术能力(technologycapabilities)在远程医疗咨询服务中的作用,该研究首先以临床医生为对象,通过问卷数据来验证研究假设,然后以医学生为对象,通过控制实验再次验证研究假设。
还有一部分研究在不同时期对不同对象关于同一问题重复调研。Venkatesh等人的研究设置了三个问卷研究,这三个问卷研究都是针对同一研究主题,即工作产出(workoutcomes)对IT员工的个人-组织匹配(person-organizationfit)和个人-岗位匹配(person-jobfit)程度的影响[36]。但是为了排除经济环境的影响,该研究以应届毕业生为调研对象,分别在经济萧条时期和经济复苏时期(二者间隔六年)进行了问卷调查。同样在经济复苏时期,该研究还以工作满三年的员工为对象进行了问卷调查,来验证模型的普适性。此外,在这三次问卷调查过程中,作者都分了两个阶段去收集受试者的数据,一个阶段是还未进入组织工作前(Pre-organizationalentry),另一个阶段是在组织工作满6个月后(Post-organizationalentry)。作者采用未进入组织工作前的问卷数据来验证模型假设和普适性,而工作满6个月后的问卷数据则用来验证模型的健壮性。三次问卷调查,两个时间段以及每个时间段内分工作前后两个阶段收集数据,很好地解决了时间跨度对研究结果的影响。
4.6 认知神经方法引入实验
近年来,行为学研究中开始在实验研究中引入认知神经方法如核磁共振(fMRI)、眼动追踪(EyeTracking)以及脑电图(EEG)等。认知神经方法是研究人类大脑认知机制的常用方法,可以测量隐藏在人类大脑的认知心理过程。认知神经方法在信息系统领域的应用,为重新审视和解决现有信息系统问题提供了全新的方法论视角,有助于更好地理解现有信息系统理论,甚至能拓展现有理论[37-38]。
Jenkins等人在其实验研究中引入了核磁共振方法,通过核磁共振成像技术来研究双任务干扰机制(dual-taskinterference)如何影响用户对中断信息(interruptivemessage)的反应[39]。Meservy等人则是在田野实验中引入眼动仪,通过眼球追踪方法来记录用户眼球的关注区域和时长,从而获得用户评价内容质量的时长,并将其运用于之后的数据分析中[40]。Minas等人则在研究中同时引入脑电图、皮肤导电和面部肌导电三种认知神经方法,通过记录受试者脑电波变化、皮肤电流变化和面部肌肉变化来解释团队成员在决策过程中如何处理其他成员分享的文本信息[41]。
4.7 数据分析新方法的涌现
传统的信息系统行为学研究在数据分析时多采用结构方程模型(适用于问卷调查法)或方差分析(适用于实验法),而近年来,一些新的数据分析方法开始涌现,最有代表性的方法是定性比较分析(QualitativeComparativeAnalysis,简称QCA)。QCA是一种基于布尔代数和集合论的研究方法,适用于研究小型数据集合内变量的组合关系与结果之间的相互关系[42-43]。QCA相较于传统分析方法(如结构方程模型)的优势在于,其平衡了定量分析与定性分析,关注于多个变量的联合作用机制而非独立作用机制,提供了多种可行结论而非单一结论[44]。Tan等人认为,当样本量足够大时,卡方检验的结果总是成立的,但是这种检验无法解释变量之间的关联强度[45]。为了弥补这一缺陷,该研究将基于精确集合的定性比较分析方法(Crisp-SetQualitativeComparativeAnalysis,简称csQCA)作为卡方检验的补充方法,通过比较案例的相似性和差异性,解释自变量(电商服务的失败)和因变量(消费者不确定性期望)之间的关联关系。Stanko则利用基于模糊集合的定性比较分析(Fuzzysetqualitativecomparativeanalysis,简称fsQCA)作为回归分析的补充说明,验证了大部分回归分析的结果,同时也通过分析得出了回归结果产生的条件,在回归分析的基础上深化对研究结论的理解[46]。
5 大数据时代的信息系统行为学研究对策
通过对大数据时代的信息系统研究现状和演化趋势的分析,可以发现当前行为学研究在信息系统研究中的比重正在下降,其使用的方法也在不断调整变化。为使行为学研究能更好地发展,本文给出以下解决思路。
5.1 把握行为学研究的理论优势
在大数据时代,一切都是数据,一切都可以进行量化分析。人们不再热衷于了解现象背后的原因,而是希望让数据“说话”。通过对大数据的分析,事物之间隐蔽的相关关系被发掘出来,进而将这些新认知运用于预测分析,辅助决策。预测分析作为理论构建的第一步,对挖掘事物之间的关联性有重要的意义[47]。正因如此,热衷于数据驱动型研究的学者声称“相关关系”取代“因果关系”,在大数据分析中忽视理论甚至抛弃理论的做法非常普遍。然而,信息系统行为学研究的根本宗旨在于理论驱动、实证检验,无论在怎样的研究环境下,信息系统行为学研究的这一基本准则不应该变。作为信息系统行为学的研究学者应该充分利用自己的理论优势,寻求与大数据分析的结合点。之所以恪守理论驱动的准则,是因为数据驱动的相关性分析只能使我们“知其然”,并不能“知其所以然”。预测发现的关联关系是偶然的而不是必然,仍然需要经过严格的测试验证,解释其中的因果关系,才能发展为具有普适性和延展性的理论[8]。相关关系只是事物的表象,因果关系才能揭示事物的本质。实际上,在当前的经济学或管理科学研究中,如何通过双重差分法(Difference-in-difference)、工具变量等方法判定变量间是否具有因果关系正是前沿的研究话题。因此,在大数据时代,信息系统行为学的研究学者们不仅不应该随波逐流、放弃理论驱动的思维方式,而且应该充分发挥自身的理论优势,推动多种方法的融合。
需要指出的是,肯定理论驱动的意义并非是对数据驱动型研究的否定,正如后文所言,数据驱动型研究在新问题的发现与规律提炼时是具有重要价值的。这里强调的是,研究工作应该具有可累积性、普适性,而这种普适性源于对客观运行规律(即理论)的总结,而理论必须是能够被验证和重复的。换言之,数据驱动型研究是探索性研究的一种重要手段,而验证性研究必须是从理论出发,为理论所驱动的。
5.2 丰富数据获取来源
在以往研究中,数据获取仅通过单一研究方法,有明显的局限性。如使用问卷法可以快速获取用户感知数据,但数据可能存在样本代表性和可靠性问题;使用实验方法,可以客观记录用户数据,但是其样本量是有限的,且实验通常是在各种控制条件下进行的,与真实环境也有一定差距,研究结论不具备广泛的普适性;定性分析方法则依赖于专家能力,虽然能深度把握数据的语义含义,但是具有很强的主观性。此外,在大数据时代下,不同来源和不同类型的数据可以轻易获取,仍然使用单一的数据源,其结论的适用性是有限的。因此需要将多种研究方法进行结合,丰富数据获取来源,以弥补不同来源的数据在研究中的局限性,帮助学者更好地解释用户行为,增加结果的真实性和普适性[6]。此外,多种数据源结合的方法,也能通过比较不同数据集中的相同元素,对数据进行交叉验证[48]。
5.3 多元聚焦全方位审视研究问题
针对“一文多研”的趋势,在大数据驱动背景下,为了更全面地了解用户行为,需要从多元聚焦的角度全方位审视研究问题。整个研究工作可以分为预调研、正式调研和后验分析三个研究阶段,在每个研究阶段可以采用不同的研究方法、展开不同的研究,从而对同一研究问题或扩展问题给出系统性的解决方案。在进行正式研究前,可以通过访谈法、经济计量分析等方法对研究进行预调研,访谈法有助于梳理理论框架,而经济计量分析等数据驱动型手段则有助于发现潜在的新规律。在正式研究过程中,可以综合运用问卷调查法、实验法、经济计量分析等实证分析手段对理论假设进行验证。在正式研究之后,为了保证研究结论的稳健性,可以进一步通过定性分析等多种方法对研究结论进行交叉验证,有时可能会发现意想不到的结论,从而为新一轮的研究提供研究思路。
5.4 优化数据分析方法
行为学研究的目的之一是捕捉因果条件的复杂属性[49]。但是以变量为导向的研究(如多元线性回归和结构方程模型)认为自变量之间是独立的,通常是单独分析每个自变量对因变量的影响,是一种“净效应”,没有很好地揭示因果关系的复杂属性[50]。而基于集合论的QCA方法擅长解决多重因果关系或者关联因果关系[51]。因此有必要引入QCA方法以优化数据的分析结果。以csQCA为例,基于不同变量之间的条件组合方式,建立自变量组合条件与结果之间的逻辑联系,有助于总结所有可能的条件组合与结果之间的关系,从而揭示复杂的因果关系[50-52]。
除此之外,认知神经方法以人类大脑为研究对象,通过测量大脑皮层活动来研究大脑中的神经活动与心理活动的相关性。与传统行为学研究方法相比,认知神经方法的衡量和应用更为直接[38]。引入认知神经方法也有助于进一步了解人类的认知和情绪处理机制,为人类如何处理环境中的信息提供新见解[41]。这些新见解不仅能为行为实验的设计提供参考,验证行为实验的结论,同时也能激励行为研究朝向更多元化的交叉学科方向发展。
6 结语
大数据时代的来临既为信息系统研究(特别是行为学研究)提供了新的机遇,也带来了诸多考验。本文通过对信息系统领域3大顶级期刊上发文情况的梳理,提炼了信息系统研究的发展趋势,特别指出了混合性研究方法、一文多研等新的研究趋势,并据此为信息系统行为学研究提供了研究对策与思路。本文将有助于信息系统行为学研究学者把握趋势、明确方向、掌握方法,推动大数据时代的信息系统行为学研究。
[1]ThomsonR,LebiereC,BennatiS.Human,modelandmachine:Acomplementaryapproachtobigdata[C]//WorkshoponHumanCenteredBigDataResarch,NewYork,USA.ACM,2014:27-31.
[2]CuzzocreaA.Privacyandsecurityofbigdata:Currentchallengesandfutureresearchperspectives[C]//ProceedingsoftheFirstInternationalWorkshoponPrivacyandSecuirtyofBigData,Shanghai,China.ACM,2014:45-47.
[3]GoesPB.BigdataandISresearch[J].MISQuarterly,2014,38(3): ⅲ-ⅷ.
[4]ManyikaJ,ChuiM,BrownB,etal.Bigdata:Thenextfrontierforinnovation,competition,andproductivity[EB/OL]. [2017-12-10].https://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-data-the-next-frontier-for-innovation.
[5]JinX,WahBW,ChengX,etal.Significanceandchallengesofbigdataresearch[J].BigDataResearch,2015,2(2):59-64.
[6]AbbasiA,SarkerS,ChiangRHL.Bigdataresearchininformationsystems:Towardaninclusiveresearchagenda[J].JournalofTheAssociationforInformationSystems,2016,17(2):1-32.
[7]ChenH,ChiangRHL,StoreyVC.Businessintellengenceanalytics:Frombigdatatobigimpact[J].MISQuarterly,2012,36(4):1165-1188.
[8]AgarwalR,DharV.Bigdata,datascience,andanalytics:Theopportunityandchallengeforisresearch[J].InformationSystemsResearch,2014,25(3):443-448.
[9]MuellerO,JunglasI,VomBrockeJ,etal.Utilizingbigdataanalyticsforinformationsystemsresearch:Challenges,promisesandguidelines[J].EuropeanJournalofInformationSystems,2016,25(4):289-302.
[10]ChenCLP,ZhangC-Y.Data-intensiveapplications,challenges,techniquesandtechnologies:Asurveyonbigdata[J].InformationSciences,2014,275(11):314-347.
[11]HashemIAT,YaqoobI,AnuarNB,etal.Theriseof“bigdata”oncloudcomputing:Reviewandopenresearchissues[J].InformationSystems,2015,47(C):98-115.
[12]BeyerMA,LaneyD.Theimportanceof‘bigdata’:Adefinition[R].GartnerPublications,2012:1-9.
[13]BermanJJ.Principlesofbigdata[M].Elsevier,2013:78-79.
[14]AbbasiA,AdjerohD.Socialmediaanalyticsforsmarthealth[J].IEEEIntelligentSystems,2014,29(2):60-80.
[15]McafeeA,BrynjolfssonE.Bigdata:Themanagementrevolution[J].HarvardBusinessReview,2012,90(10):60-66.
[16]DeanJ,GhemawatS.Mapreduce:Simplifieddataprocessingonlargeclusters[C]//ConferenceonSymposiumonOpeartingSystemsDesign&Implementation,SanFrancisco,USA.ACM,2008:10.
[17]HeudeckerN.Hypecycleforbigdata,2013[EB/OL]. [2017-12-10].https://www.gartner.com/doc/2574616/hype-cycle-big-data.
[18]HongYK,PavlouPA.Productfituncertaintyinonlinemarkets:Nature,effects,andantecedents[J].InformationSystemsResearch,2014,25(2):328-344.
[19]D'arcyJ,HovavA,GallettaD.Userawarenessofsecuritycountermeasuresanditsimpactoninformationsystemsmisuse:Adeterrenceapproach[J].InformationSystemsResearch,2009,20(1):79-98.
[20]SiponenM,VanceA.Neutralization:Newinsightsintotheproblemofemployeeinformationsystemssecuritypolicyviolations[J].MISQuarterly,2010,34(3):487-502.
[21]HuQ,DinevT,HartP,etal.Managingemployeecompliancewithinformationsecuritypolicies:Thecriticalroleoftopmanagementandorganizationalculture[J].DecisionSciences,2012,43(4):615-660.
[22]AlexanderCS,BeckerHJ.Theuseofvignettesinsurveyresearch[J].PublicOpinionQuarterly,1978,42(1):93-104.
[23]KlepperS,NaginD.Thedeterrenteffectofperceivedcertaintyandseverityofpunishmentrevisited[J].Criminology,1989,27(4):721-746.
[24]HarringtonSJ.Theeffectofcodesofethicsandpersonaldenialofresponsibilityoncomputerabusejudgmentsandintentions[J].MISQuarterly,1996,20(3):257-278.
[25]TrevinoLK.Experimentalapproachestostudyingethical-unethicalbehaviorinorganizations[J].BusinessEthicsQuarterly,1992,2(2):121-136.
[26]VanceA,LowryPB,EggettD.Increasingaccountabilitythroughuser-interfacedesignartifacts:Anewapproachtoaddressingtheproblemofaccess-policyviolations[J].MISQuarterly,2015,39(2):345-402.
[27]KimSH,MukhopadhyayT,KrautRE.Whendoesrepositorykmsuseliftperformance?Theroleofalternativeknowledgesourcesandtaskenvironments[J].MISQuarterly,2016,40(1):133-156.
[28]HannI-H,RobertsJA,SlaughterSA.Allarenotequal:Anexaminationoftheeconomicreturnstodifferentformsofparticipationinopensourcesoftwarecommunities[J].InformationSystemsResearch,2013,24(3):520-538.
[29]WangW,BenbasatI.Acontingencyapproachtoinvestigatingtheeffectsofuser-systeminteractionmodesofonlinedecisionaids[J].InformationSystemsResearch,2013,24(3):861-876.
[30]HoSY,BodoffD.Theeffectsofwebpersonalizationonuserattitudeandbehavior:Anintegrationoftheelaborationlikelihoodmodelandconsumersearchtheory[J].MISQuarterly,2014,38(2):497-520.
[31]ZhangX.Knowledgemanagementsystemuseandjobperformance:Amultilevelcontingencymodel[J].MISQuarterly,2017,41(3):811-840.
[32]TanC-H,SutantoJ,PhangCW,etal.Usingpersonalcommunicationtechnologiesforcommercialcommunications:Across-countryinvestigationofemailandsms[J].InformationSystemsResearch,2014,25(2):307-327.
[33]BichlerM,HaoZ,AdomaviciusG.Coalition-basedpricinginascendingcombinatorialauctions[J].InformationSystemsResearch,2017,28(1):159-179.
[34]BockstedtJC,GohKH.Customizedbundlingandconsumptionvarietyofdigitalinformationgoods[J].JournalofManagementInformationSystems,2014,31(2):105-132.
[35]SerranoC,KarahannaE.Thecompensatoryinteractionbetweenusercapabilitiesandtechnologycapabilitiesininfluencingtaskperformance:Anempiricalassessmentintelemedicineconsultationsbychristineserranoandelenakarahanna[J].MISQuarterly,2016,40(3):597-622.
[36]VenkateshV,WindelerJB,BartolKM,etal.Person-organizationandperson-jobperceptionsofnewitemployees:Workoutcomesandgenderdifferences[J].MISQuarterly,2017,41(2):525-558.
[37]DimokaA,PavlouPA,DavisFD.Neurois:Thepotentialofcognitiveneuroscienceforinformationsystemsresearch[J].InformationSystemsResearch,2011,22(4):687-702.
[38]RiedlR,BankerRD,BenbasatI,etal.Onthefoundationsofneurois:Reflectionsonthegmundenretreat2009[J].CommunicationsoftheAssociationforInformationSystems,2010,27(1):15.
[39]JenkinsJL,AndersonBB,VanceA,etal.Moreharmthangood?Howmessagesthatinterruptcanmakeusvulnerable[J].InformationSystemsResearch,2016,27(4):880-896.
[40]MeservyTO,JensenML,FadelKJ.Evaluationofcompetingcandidatesolutionsinelectronicnetworksofpractice[J].InformationSystemsResearch,2014,25(1):15-34.
[41]MinasRK,PotterRF,DenisAR,etal.Puttingonthethinkingcap:Usingneuroistounderstandinformationprocessingbiasesinvirtualteams[J].JournalofManagementInformationSystems,2014,30(4):49-82.
[42]KanAKS,AdegbiteE,OmariSE,etal.Ontheuseofqualitativecomparativeanalysisinmanagement[J].JournalofBusinessResearch,2016,69(4):1458-1463.
[43]FerreiraFAF,JalaliMS,FerreiraJJM.Integratingqualitativecomparativeanalysis(qca)andfuzzycognitivemaps(fcm)toenhancetheselectionofindependentvariables[J].JournalofBusinessResearch,2016,69(4):1471-1478.
[44]MeurGD,RihouxB,YamasakiS,etal.L’analysequali-quantitativecomparée(aqqc-qca):Approche,techniquesetapplicationsenscienceshumaines[M].Academia-Bruylan,2002:176.
[45]TanC-W,BenbasatI,CenfetelliRT.Anexploratorystudyoftheformationandimpactofelectronicservicefailures[J].MISQuarterly,2016,40(1):1-31.
[46]StankoMA.Towardatheoryofremixinginonlineinnovationcommunities[J].InformationSystemsResearch,2016,27(3):773-791.
[47]DharV.Datascienceandprediction[J].CommunicationsofTheAcm,2013,56(12):64-73.
[48]BaesensB,BapnaR,MarsdenJR,etal.Transformationalissuesofbigdataandanalyticsinnetworkedbusiness[J].MISQuarterly,2016,40(2):807-818.
[49]WoodsideAG.Bridgingthechasmbetweensurveyandcasestudyresearch:Researchmethodsforachievinggeneralization,accuracy,andcomplexity[J].IndustrialMarketingManagement,2010,39(1):64-75.
[50]Roig-TiernoN,HuarngKH,Ribeiro-SorianoD.Qualitativecomparativeanalysis:Crispandfuzzysetsinbusinessandmanagement[J].JournalofBusinessResearch,2016,69(4):1261-1264.
[51]StokkeOS.Qualitativecomparativeanalysis,shaming,andinternationalregimeeffectiveness[J].JournalofBusinessResearch,2007,60(5):501-511.
[52]MendelJM,KorjaniMM.Theoreticalaspectsoffuzzysetqualitativecomparativeanalysis(fsqca)[J].InformationSciences,2013,237(13):137-161.