APP下载

基于语义主体模型的众筹项目成功性预测及推荐系统设计

2020-10-30苏靖淇刘煜豪

中国管理信息化 2020年16期
关键词:众筹

苏靖淇 刘煜豪

[摘 要]互联网技术的高速发展加速了网络与金融行业的融合,诞生了众筹等网络金融形式。很多具有想法但缺乏资金的人可以通过众筹平台吸引投资者进行投资。对众筹项目的成功性评估及给投资者推荐合适的投资项目对发展众筹行业具有重要意义。结合我国众筹行业的实际情况,文章设计了一种基于语义主体模型的众筹项目成功性预测及推荐系统,以帮助发起人更好地筹集资金,同时为投资者预测项目成功性提供更好的推荐服务。

[关键词]众筹;成功性预测;项目推荐;语义LDA

doi:10.3969/j.issn.1673 - 0194.2020.16.068

[中图分类号]F830;TP391.3[文献标识码]A[文章编号]1673-0194(2020)16-0-04

0     引 言

2009年,美国成立了世界上第一个众筹网站——Kickstarter,

自此,“众筹”的概念正式产生。众筹指项目发起人通过互联网平台向社会公众展示自己的想法,以实现筹集资金目标的网络金融形式。随着互联网技术的高速发展,越来越多的企业和个人参与到由众筹平台开展的众筹项目中。据Massolution发布的《众筹行业报告》显示,2018年全球的众筹行业共筹集57亿美元,涉及全球超过100万个商业活动。结合我国众筹行业实际情况,本文提出了基于语义主体模型的众筹项目成功性预测及推荐系统,该系统旨在挖掘文本背后的信息对众筹项目成功率的影响,以提高发起人项目成功的可能性,并通过推荐系统为投资者提供较好的服务,提升其用戶体验,进而提升我国众筹市场的质量,促进我国众筹行业发展。

1     研究背景

1.1   中国众筹行业的发展历程及现状

1.1.1   中国众筹行业发展历程

我国众筹行业起步较晚,但是发展速度快,具体可以总结为3个阶段:由2011年7月“点名时间”上线拉开帷幕的萌芽期(2011-2013年);众筹行业发展迅速的崛起期(2014-2015年);行业监管日趋严格,全国正常运营平台数量骤减的行业洗牌阶段(2016年至今)。

1.1.2   中国众筹行业现状

边海宁等人认为众筹分为4种形式:产品众筹、公益众筹、债权众筹和股权众筹。不同形式的众筹使投资人获得的回报也各不相同。侯洁等人根据筹资人与出资者的交换关系,将众筹划分为基于回报、基于借贷、基于捐赠和股权众筹4种类型。据前瞻产业研究院整理,我国众筹行业具体包括股权型、权益型、物权型、公益型以及综合型5种类型的平台。从相关数据了解到,2016年我国众筹行业达到发展高峰,当年行业内运营平台数高达532个,2017年出现平台数目减少的现象,但成功项目数及融资金额稳步提升。同时,我国股权型及权益型平台占比高达行业内的50%以上,行业内各类型平台发展不均衡。图1是2011-2018 年我国众筹平台年增量走势。

1.2   众筹项目成功率预测

王娜研究了发起人特征信息如受教育程度等对项目成功性的影响。杨智斌等人从参与众筹项目的三方行为主体即发起人、投资方以及平台方面分别考虑对项目成功性的影响。一些学者还考虑了项目当前已筹集金额等问题,如梁睿等人以淘宝众筹为例,通过构建已筹金额预测模型,得出点赞数目、项目支持人数等与能筹集到的资金正相关的结论。

1.3   众筹项目推荐

推荐指通过对用户浏览网站的历史信息或者网站的特点对用户偏好进行分析,从而向用户建议符合其偏好的业务等。推荐是为了在用户没有明确需求时,为他们提供精准、快速的业务信息。目前,我国推荐系统已发展成熟,如淘宝根据用户的购买历史、收藏信息等提供给用户希望购买的商品。当前最常用的推荐算法有基于内容的推荐、基于协同过滤的推荐和基于社交网络的推荐。而在实际应用中,推荐系统大多使用混合推荐方法,混合推荐是通过加权、变换和层叠等方式将多个算法技术进行融合推荐,以弥补单一算法的缺陷,从而获得更优的推荐效果。推荐对用户具有重要意义,用户可以通过推荐以最短的时间选择自己感兴趣的信息。在不同领域的推荐可以带来不同的价值,在电商行业,用户不仅需要商品,还需要足够合理的建议。精确的推荐可以增加用户的消费频率,增加网站的销售额,提高用户黏性。在众筹领域中,给投资者提供可靠严谨的项目推荐,可以节省投资者浏览项目的时间,增强投资者对众筹平台的信赖。

2     系统设计

2.1   基于文本信息的项目成功率预测

假设已知项目主页的项目描述可以通过文字对用户产生吸引力,提高预测项目成功率的准确性。本文提出利用一种改进的潜在狄利克雷分布(Latent Diriclet Allocation)提取项目描述的具体信息,通过话题聚类,得到“文档-话题”概率,该概率分布表示项目描述在不同话题下的概率值,表示该项目描述想要表达的主要内容。LDA求解的过程是无监督的,因此,本文提出利用一种SLDA(Semantic-LDA)拟在模型在词语分配话题的过程中加入词与词之间的“必连”关系作为先验知识,如果两个词之间存在“必连”关系,则相应提高两个词语在同一个话题下出现的概率。在得到“文档-话题”的概率后,将传统的数值型信息作为特征向量,使用机器学习的方法对已完成的项目(两种结果:成功与失败)进行分类实验,并得到分类模型,以预测未来项目的发布成功率,具体流程如图2所示。

2.1.1   数据获取与预处理

在选定研究网站后,使用爬虫软件爬取网站中的项目信息,具体包括:直接在网站中显示的数字型信息,如项目的目标筹集金额;通过简单统计工作统计信息,如允许投资的金额级数以及项目描述等文本型信息,并进行相应的预处理。

2.1.2   建立SLDA模型

传统的LDA并没有在采样过程中给词语间的联系增加更多的限制,因此,本文提出了基于语义的LDA模型。在采样过程中引入了词语间的“必连”关系,即如果两个词语之间有联系,那么这两个词语之间就具有“必连”关系。“必连”关系的引入实际上是为LDA的训练过程加入了相应的先验知识,标准的LDA的前提是假设存在一个固定分布,然而分布计算依靠无监督的吉布斯采样,加入“必连”先验知识可以指导吉布斯采样,可以辅助话题生成与概率分布计算。

2.1.3   特征选择

设定合适的主题个数,并推断出训练集及测试集中文档对主题的分布,在输入预测模型之前,需要用特征选择选取最具有代表性的特征,以获取更好的预测结果。一个典型的特征选择过程包括4个步骤,如图3所示。

2.1.4   建立预测模型

众筹平台项目成功率预测实际上是一个分类模型,针对已经结束的项目,使用分类模型对其进行训练。在本文中,模型的本质就是用来分类项目的成功或者失败两种情况,成功的案例被标注为1,失败的案例被标注为-1,使用SVM进行训练。本文选取SVM作为主模型进行,使用的SVM类型包括c-SVC和v-SVC,并采用3种常用的核函数。①线性(Linear)核函数:K(x,xi)=xTxi;②径向基(RBF)核函数:K(x,xi)=exp(-γ||x-xi||2),γ>0;③两层感知器(Sigmoid)核函数:K(x,xi)=tanh(γxTxi+r)。

同回歸模型不同的是,由于二分类模型具有两种情况,为了保证模型的合理性,两种分类的训练个数要保持1∶1的比例。同时,为了保持模型的一致性与有效性,在模型训练完成之后,需要由测试集验证模型,同时使用交叉验证避免数据集的偶然性。本文提出的语义主体模型是为了验证文本描述有利于预测项目成功率,只使用了数字型信息的预测模型作为基准实验,并调用神经网络及决策树等分类模型验证主模型的有效性及高效性。

2.2   基于预测结果与描述相似度的项目推荐

在众筹领域,用户浏览一个项目的主页被默认为倾向于投资此项目,对用户提供合适且准确的项目推荐,可以提高项目的有效浏览率,减少用户在首页筛选项目的时间,并提高项目的投资额。基于SLDA的众筹项目成功率的预测结果,结合SLDA得到的项目描述的话题分布率计算项目文案相似度,进而为用户提供与当前浏览项目类似的高质量项目。基于对文献的阅读,本文选定了成功率及项目间的相似度作为推荐指标。基于预测结果与项目描述相似度的推荐研究框架如图4所示。

2.2.1   项目结果概率值获取

通过使用选定的数字型信息及文本型信息输入主模型SVM进行分类,可以得到对项目最终结果的预测。在众筹领域使用SVM对结果进行预测时,投资者仅需知道未结束项目是否成功的概率即可,这种不确定性成为软输出。大多数研究使用S型函数(Sigmoid)将SVM的硬判断输出f(x)映射到概率范围[0,1]内。

(1)

其中,A和B通过最小化训练样本的负向最大似然函数获得。

(2)

公式(2)中,。

对于二分类问题,在众筹领域,该概率表示了众筹项目得到最终预测结果的概率值,如果使用SVM计算项目A和项目B会成功,A项目成功概率值为0.90,B项目成功概率值仅为0.55,它们结果相同,但两者并不能被看作价值完全相同,网站应该给用户推荐其认为具有更大可能性成功率的项目,即优先给用户推荐项目A。同样,如果两个项目C和D失败的概率分别为0.60和0.95,那么在两者之间选择时,必然是选择更不容易失败的C项目,这样可以避免一些不必要的投资行动,同时也可以增加用户对该众筹网站推荐的信任感。

2.2.2   项目间相似度获取

当用户点开一个项目主页时,代表用户对这个项目更加感兴趣。假设用户对项目的认知来自最详尽介绍项目内容的项目文案。当问题从项目的相似度归结为项目文案——文档相似度时,主题模型是一个解决此类问题的工具。前面的SLDA可以得到主题对文档的概率分布,文档的相似度常使用两个文档概率分布之间的KL距离(Kullback-Leibler)衡量。

(3)

KL距离越大,表示两个文档之间的相似度越低,如果两个文档完全相似,那么该KL距离为0。但是需要注意两个文档之间的距离并不是对称的,即文档A和B的距离与B和A的距离并不相同。所以为了保持其对称性,可以改变KL距离。

Dλ(p,q)=λDKL(p,λp+(1-λ)q)+(1-λ)DKL(q,λp+(1-λ)q)(4)

设λ=1/2,那么对称的KL距离则成为JS(Jensen-Shannon)距离。

(5)

使用JS距离可以衡量文档之间的相似度,且具有对称性。

2.2.3   项目推荐

本系统采用加权平均的方式处理两个指标,假设两个指标的权重分别为w1和w2。在当前项目固定的情况下,成功概率越大且某项目介绍与当前项目文案的距离越小,该项目越应该被推荐。本文认为两个因素对推荐是同等重要的,然而在用户从当前项目页面点开网站为其推荐的项目页面时,对该项目的第一印象来自该推荐项目与之前的项目是否相似,而之后才会考虑项目成功率大小,所以可以得出,成功率权重应比相似度权重小。

由于JS距离考虑的是项目之间的距离,距离越小表示越相似,那么取JS距离的倒数表示项目之间的相似度。

(6)

考虑到两个指标的基准数并不相同,需要对两个指标进行归一化处理,将数值控制在0~1范围。通过加权平均两个指标得到最终的项目评分,以项目分数最高的项目作为当前项目的推荐。

Score(p,q)=w1·nProb+w2·nDocSim(7)

该推荐方式结合了项目之间的相似度,考虑了用户对项目的兴趣度,同时推荐给用户成功率较高的项目,使用户可以投资高质量的项目。

3     本系统的存在价值

发起人可以了解到项目主页上的不同信息对成功率的影响,通过与成功率较高的项目进行对比,改进自身项目主页的相应信息,提高项目成功的可能性;对项目进行成功性预测,可有效降低投资者的机会成本,提升投资者用户体验;可增加成功项目数量,提高公众参与度,进一步推进平台建设,促进我国众筹行业发展。

4     结 语

中国众筹行业发展前景广阔,将成为推动社会经济发展的新生力量。本文结合我国众筹行业现状,提出了基于语义主体模型(SLDA)的众筹项目成功性预测及推荐系统,为项目发起人及投资者提供相应参考,提高众筹市场质量。如今我国众筹行业在发展过程中面临一系列挑战与风险,国家应尽快出台更多与之相关的完备法律,并结合国情,鼓励大众积极参与,使众筹平台在有效的监督与管理下发展得更好。

主要参考文献

[1]秦诗云.我国众筹平台发展的现状、问题与对策探究[J].现代商业,2018(31):178-179.

[2]边海宁,张春辉,贾敏,等.产品众筹的发展研究——以京东金融众筹为例[J].中国商论,2019(24):221-222.

[3]侯洁.众筹过程中发起人在线互动行为的影响机理研究[J].中国集体经济,2018(26):72-73.

[4]王娜.发起人特征对创意众筹成功的影响研究——以追梦网为例[J].财会通讯,2016(29):47-50,129.

[5]杨智斌,赵嵩正.产品众筹项目融资成功率影响因素实证研究[J].东岳论丛,2019(8):74-83.

[6]梁睿,金玮佳.基于大数据的众筹项目成功影响因素分析——以淘宝众筹为例[J].产业与科技论坛,2019(23):71-72.

[7]周万珍,曹迪,许云峰,等.推荐系统研究综述[J].河北科技大学学报,2020(1):76-87.

[8]闫子琪.以微博为例浅析社交网站中的视频推荐算法[J].科技传播,2018(23):148-149.

[9]张志威.个性化推荐算法研究综述[J].信息與电脑:理论版,2018

(17):27-29

[10]赵一格.个性化推荐技术在电商网站中的应用[J].科技传播,2019(15):136-137.

猜你喜欢

众筹
众筹
众筹实务与法律风险防范
新闻众筹初探
Tern为Vektron电动自行车完成Kickstarter众筹
中国式众筹升级记
朋友圈“众筹”,你买单吗
“众筹”牵手“三农”:前景可期
电子竞技系列赛的成功给体育众筹带来的启示
定增相当于股权众筹
试水“众筹+新三板”