开放式创新社区领先用户识别方法研究
2023-08-25谢赣红陆思豪
谢赣红 陆思豪
(1.青海民族大学经济与管理学院,青海 西宁 810007;2.广西师范大学经济管理学院,广西 桂林 541006)
开放创新概念的提出对学术界和企业创新发展都产生了深刻影响。开放创新指企业不能仅依靠其内部创新,即很多大企业所依赖的垂直整合体系[1]或传统营销认为的企业创造价值然后传递给用户[2],而是企业需要突破组织边界,从外部吸纳更多创新想法与解决方案,让用户成为与企业一起创造价值的群体,最终推动企业创新发展,实现创新成功[3]。对产品创新时,企业研发团队会受实际生活中使用产品经验影响,形成固定思维方式,阻碍创新[4]。因此企业让更多外来者参与企业创新,有利于吸收适合的想法和方案[5]。
开放式用户社区是企业实现开放创新机制的一种重要方式,在社区中志同道合的用户之间相互交流各自的经验、技术和知识等,增加了社区用户提出创新想法的可能性。但社区中如果该类用户创新过多,就会出现信息过载反而阻碍企业发展,企业绩效会因此下滑[6],这是因为企业如果处理过多创新信息,成本会大幅提高,过多创新信息对企业接纳用户创新的能力形成巨大挑战。所以为能够更加快速、准确获得最好的用户创新想法或方案,必须识别出用户社区中具有某一特征的人群,而最具这一特征的人群就是领先用户。
领先用户的概念于1986年Von Hippel首先提出[7],之后这一人群具有的特征从领先于市场趋势和高预期收益这两个主要特点延伸到社区资源分享、具有相关产品知识和产品体验以及作为意见领袖等。也正是基于这些特征,该用户群体既是用户创新的重要组成部分,同时也能帮助企业开发更多具有商业吸引力的创新产品。领先用户的创新优势,还能帮助企业提高接纳用户创新信息与知识的能力。但领先用户是稀缺的,需要在大规模的人口中筛选,在开放式用户社区也不例外。所以,如何识别领先用户成了关键问题。
1 传统领先用户识别方法
传统领先用户识别方法包括大规模筛选法、广播法、众包法和金字塔法等。这里着重讨论大规模筛选法以及金字塔法这两种方法,因为这两种方法影响广泛且都出现在互联网时代前,是企业识别线下领先用户的主要方法。他们并不一定适用于线上开放式用户社区,但作为最基本的方法,在无法掌握先进计算机方法的情况下,仍可作为备选的重要方法,所以需分析和掌握。
1.1 大规模筛选法
大规模筛选法是常见的,传统的领先用户识别方法,应用在许多实证研究中,通常是通过问卷调查、访谈等统计调查方式收集数据,对人群逐个调查访问,从而筛选出领先用户。
该方法优点是易于实施,使用广泛,也较为成熟,所以操作简单方便,研究者不用经过专业培训。因此实施大规模筛选法的研究者可以迅速筛选和找到领先用户。如果在线上开放式用户社区中实施,则需与网站管理人员沟通,获得许可后,在网站张贴问卷进行调查,之后再对问卷分析,筛选出领先用户。但该方法具有过程琐碎、成本高、效率低、难以执行等缺点。首先由于领先用户的稀缺性,需要对足够多的人群进行筛选;其次随着待筛选人数越来越多,发放问卷与访谈工作会琐碎繁杂,需要投入的人力物力也愈多,筛选成本随之增加,筛选效率愈加低下[8],因此该方法难以实现有效执行,这是该方法矛盾之处。在一项实证研究中,待筛选的2 043人中最终筛选出的领先用户仅22人,样本效率低至1.1%[9],意味着样本效率有很大提升空间。因此该方法无法适用于人数较多的线上开放式用户社区。
1.2 金字塔法
金字塔法源自滚雪球法,滚雪球法是从少数具有稀有特性的人开始,指认自己可能认识的具有相似罕见特性的人,所以获得的人群越来越多,雪球越滚越大。金字塔法则是基于少数具有稀有特性的人群,寻找到具有更多相似稀有特性的人,是从金字塔底部爬向顶部的过程[10]。
金字塔法效率高,工作量少。金字塔法的实证研究结果表明金字塔法的识别效率高,且如果在更加宽松的条件下,金字塔法工作量会继续大幅减少,意味着金字塔法相较大规模筛选法在效率方面有了很大提升[11]。这是因为金字塔法是串联的访谈或问卷调查过程,前面的调查结果串联着之后的调查结果,即可以将前一次或前几次的访谈或问卷获得结果都用于下一次或之后所有访谈或问卷调查[12]。这种连续行为就是“爬山策略”,通过该策略,研究者最终可以达到最高点,即找到最具稀有特性的人群[13]。
但金字塔法从人群中通过“爬山策略”寻找领先用户的特点,使其只能在样本较小的情况下使用,如一些较为微观的环境中或人数较少的某个组织或者群体中筛选。但考虑到领先用户的稀缺性,在识别领先用户时需筛选较多人数。而在线上开放式用户社区中,因为金字塔法也是问卷调查或者访谈,所以很有可能漏掉领先用户,或也受到研究者主观偏差的影响,即研究者认为自己找到了最具稀有特性的人或者人群,但是实际上并非如此。所以使用金字塔法在线上开放式用户社区中难以找到特定的具有稀有特性的人群。
2 网络志法
互联网的迅速发展,推动了在线社区、博客等社交媒体的出现和发展,且这些社交媒体逐渐成为领先用户重要来源。而在线社区领先用户不仅提出创新想法,还与社区其他用户交流和分享知识[14],因此基于网络志法识别领先用户成为研究热点。网络志法是将原本的民族志和互联网混合而形成的新方法概念,可以在在线社区等网络社交媒介系统中收集数据并分析[15]。
2.1 网络志法优点
首先,网络志法收集到的数据客观性强。网络志法收集数据的方式与大规模筛选法、金字塔法通过问卷调查或者访谈获得数据有一定区别,因为社区中用户会就创新问题互相交流和分享,还会互相帮助,促进了集体创造力在社区中的实现,也为研究者观察社区中用户自然行为提供了条件。研究者在不影响用户活动的前提下,被动接收用户活动和对话[16],保证了数据的客观和真实。此外,由于社区内用户志同道合的特征,社区内用户间比熟人社交具有更高认同感,以及由此产生用户间的信任感,导致用户间的交流反馈也是独一无二的[17],因此相比于问卷调查和访谈,网络志法可以获得更多有价值的信息数据。最后,网络志法相比传统民族志在过程和复杂程度上更低,与其他传统的领先用户识别方法相比,效率更高、成本更低。在实证研究中,研究者使用网络志法在德国可持续消费网站的食品板块识别领先用户[16],结果表明网络志法有着更高的筛选效率,以及更低的筛选成本。
综上,通过网络志法,对用户社区内部的公开数据进行分析这一过程,与当今的网络技术发展相契合,值得推广。有研究者对德国识别领先用户的公司案例和项目使用的领先用户识别方法进行研究[18],发现所有项目中有近一半都使用网络志法,表明网络志法在国外识别领先用户领域的普遍性。
2.2 网络志法缺点
首先,网络志法获得的数据来源狭隘。该方法只对在线用户社区进行关注,这种较窄的关注范围会对未来创新的推广造成一定限制。其次,网络志法对研究者的要求较高。需要研究者有着敏锐的观察力、丰富的经验和较高的技能,因为分析网络志的数据在很大程度上受到人主观性的支配,不同的研究者面对同一个情景可能会有不同的观察结果,只有通过准确的观察,才能发现隐藏的领先用户[15],否则可能会错过。最后,网络志法需要人工收集和分析数据,依然需要花费数周的时间[16],时间成本、人力成本高。
上述网络志法的优点和缺点的分析表明网络志法相比传统识别方法更适用于线上领先用户识别,但依然要花费大量时间和人力,需要更智能的方法分担人力工作和减少工作时间,因此下面讨论基于网络志法的人工智能识别方法。
3 进化计算法
近年来,研究者发现使用计算机技术识别领先用户也是很好的办法,进化计算法就是其中的一个。该方法使用了计算机爬虫技术爬取研究数据,之后使用多种优化算法模型识别领先用户,所以被称为进化计算法。这个方法基于网络志法,同样是对在线社区内的内容进行收集分析,但是在收集数据方面更加自动化和智能化,识别领先用户则更加精准。
3.1 进化计算法优势
首先,进化计算法使用爬虫技术收集数据,更加自动化、智能化。相比于人工进行数据收集,进化计算法使用了计算机爬虫技术,这样可以自动收集数据,节省了很多人力、时间等成本。其次,进化计算法分析数据的算法更加优化,识别领先用户更加精准。数据分析使用了计算机的优化判别方法,这个方法除节省成本和提高识别效率外还解决了由领先用户特点导致的零膨胀问题。由于领先用户的稀有性,在大样本中非领先用户的比例会很高,这就会产生零膨胀现象,最终导致有参数估计的偏差[19],而优化判别方法可以通过优化分类判别解决该问题。在实证研究中,研究者使用模拟退火算法、遗传算法和粒子群优化算法进行领先用户识别,然后进行比较分析[20],结果表明遗传算法和粒子优化算法的结果更优,这两种算法进一步优化了分类判别,表明使用优化判别方法必要性。
3.2 进化计算法缺点
进化计算法无法自我学习,不够智能化和自动化。优化判别方法虽然属人工智能,但是相比支持向量机、随机森林等机器学习方法,该方法依然不够智能化、自动化,无法实现机器的自我学习,只在收集数据方面实现了自动化、在分类算法上有了改进和优化。
4 FLUID法
FLUID是快速识别领先用户方法(Fast Lead User Identification)的英文缩写,是在网络志法的基础上,为了提高识别效率,降低识别成本,使用更加先进的计算机技术(主要包括数据挖掘、机器学习和深度学习等),自动收集数据并识别领先用户的方法[21]。
4.1 FLUID法优势
首先,FLUID法精确度高。在以Twitter为媒介搜集数据的实证研究中,研究者分别通过随机森林算法和序列最小化算法(SMO)生成分类模型,结果表明随机森林算法支持的分类器结果明显更好。同时,在验证集总准确度达到了80%,而经过专家确认的验证集精度达到了0.579,说明了FLUID法具有很好的精确性[21]。其次,FLUID法效率更高、成本更低。另一个在Twitter社交平台使用FLUID法识别领先用户的实证研究中,研究者使用决策树C4.5算法对用户进行分类,同时通过问卷调查收集被调查者数据作为训练集[22]。最终结果表明,包括领先用户在内的训练集准确率为98%,而精确率则达到了90%,召回率则达到了100%,由此证实了决策树C4.5算法支持的分类器有效性,同时验证了FLUID法相比于问卷调查法,效率更高、成本更低。最后,FLUID法更加智能化、自动化。上述两个实证研究都实现了机器的自我学习,收集和分析数据更加智能化和自动化,代替了人工重复性工作,减少了研究人员工作负担。
以上的分析表明了FLUID法相较之前的领先用户识别方法具有精确度更高、效率更高、成本更低和智能化、自动化程度更高的优势,因此FLUID法可以帮助企业降低识别领先用户的时间及其他资源成本,并大幅提高了领先用户的识别效率。
4.2 FLUID法缺点
首先,使用FLUID法的研究者需要进行跨学科专业培训。FLUID法的困难之处在于该方法的应用是跨学科的。对于管理学的研究者来说,研究者需要对数据挖掘、机器学习等人工智能知识有着较为充分且深入的了解,并且掌握实际的数据分析操作,因此研究者需要通过较为专业的训练,成为跨学科的实践者。
其次,算法需要进一步比较优化。实证研究表明不同算法支持的分类器最终分类效果不同。在上述的实证研究中,研究者们使用了随机森林算法、序列最小化算法以及决策树算法,其中随机森林算法和决策树算法都表现出了较好的效果。这也表明需要对不同智能化算法继续探究,使FLUID法在实际中能进一步推广与应用。基于此,需要进一步探究使用FLUID法的具体内容,从而确保通过FLUID方法,采用不同算法,实现领先用户识别。
5 领先用户识别方法比较和可能性方案
5.1 领先用户识别方法比较
领先用户识别方法的发展历程及趋势如图1所示。在互联网兴起前,大规模筛选法运用广泛且相对成熟,且实行人员不需要经过专业培训,但同时该方法筛选效率低下,成本高;相比于大规模筛选法,金字塔法效率更高、成本也低,但只适用于样本量较小的情况,很难在样本量较大的用户社区中进行识别。而随着互联网的兴起,融合民族志与线上用户社区的网络志法的出现,推动了领先用户识别方法向着高效率筛选的方向发展,且网络志法获得数据更加的客观,价值更高,获取数据方式也变得愈加智能化,但是也提高了对实行人员的技术性要求;而不久之后人工智能的兴起推动了领先用户识别方法向着更加智能化和精确化的方向发展,进化计算法减少了识别误差,提高了识别的精确性;而FLUID法则更加智能化、自动化,可以实现机器的自我学习,筛选效率也更高,但是对实行人员的跨学科应用水平提出了更高的要求,同时需要对算法进一步对比分析和优化。
图1 领先用户识别方法的发展历程与趋势
相比之下,FLUID法更加适合目前人工智能背景下的线上开放式用户社区中的领先用户识别,且效率更高、成本更低,虽然实行人员需要进行跨学科专业培训,但是这也符合现在复合型人才培养趋势。
5.2 领先用户识别方法的可能性方案
5.2.1 可能性方案流程
FLUID法的流程主要总结为以下4个步骤:第一步确定识别的目标范围,第二步选定领先用户识别的地点,第三步自动识别领先用户,第四步领先用户参与到企业的创新过程中[22]。具体参考过往FLUID法流程,设定领先用户识别流程:第一步确定识别的产品或品牌;第二步确定有关产品或品牌的用户社区,可以具体到社区中的板块;第三步选取领先用户特征;第四步搜索并自动爬取社区中领先用户特征数据,然后进行数据清洗;第五步通过机器学习模型进行数据分析,具体包括构建模型、划分训练集和测试集等;第六步检验识别方法的可靠性,通过网络志法人工分类领先用户和非领先用户,与机器学习结果组建混淆矩阵;第七步确定领先用户。其中第一、第二步选择建立有线上开放式用户社区的产品和品牌,即以品牌为中心的用户社区或独立社区,要求选取的社区中用户的内容信息和行为数据源都是充分的,足以用来研究,如果选取的社区中数据不充分,那么需要从第二步返回到第一步重新选择需要识别的产品或品牌;第四步搜索和爬取领先用户特征数据,包括内容信息和行为数据两个方面;第五步可以通过机器学习中不同的学习方式,包括监督性学习和半监督性学习,以及深度学习等,对比分析结果;第六步将使用网络志法的人工分类结果与其对比,形成混淆矩阵是必要的,但如果在同一个社区中可靠性检验多次有效,那么就可以不再花费更多的时间和精力在人工分类上。
5.2.2 可能性方案提取的领先用户特征
选取领先用户特征是领先用户识别方法的重要环节,影响着最终是否能够正确识别出领先用户。在过往的网络志法中经常使用的领先用户的特征包括:领先于市场的趋势、对现有产品的不满、拥有更多的与产品相关的知识、有相关产品的使用经验、更高的用户社区参与度以及是用户社区中的意见领袖[23-24],而这些用户特征也应用在其他领先用户识别方法中。此外在FLUID法中经常使用的领先用户特征有:中心性、活动性、相关性和情绪性[21]。因此可以将领先用户特征进一步归类为用户集体性、用户相关性、用户情绪性、用户专家性和用户领先性。
6 结论与讨论
首先,未来随着人工智能技术的发展,特别是自然语言处理方向的进一步突破,将为在互联网时代,需要更多从在线社区用户发布文本内容中提取信息的FLUID法,提供更加强有力的支撑,同时也促进了对文本内容分析方法的多样化,从而使研究者可以在海量的文本数据中更好更快地识别出领先用户,而不仅仅是行为数据。其次,培养研究领先用户的管理学者跨学科能力刻不容缓,需要进一步学习人工智能的不同方法,特别是自然语言处理、机器学习和大数据等,与管理学的研究方法深度融合,增强领先用户研究的创新性,探索学科融合的前沿。