基于舆情分析视角的网络借贷问题平台甄别模型研究

2021-07-22涂艳刘蕊

北京邮电大学学报（社会科学版） 2021年3期

涂艳,刘蕊

(1.中央财经大学信息学院，北京 100081；2.中国银行银行卡中心，北京 100032)

一、引言

网络借贷作为互联网金融领域最为活跃的板块之一，备受关注。然而，网络借贷业务的蓬勃发展也带来巨大的风险隐患，从2015年开始集中出现平台跑路和提现困难等问题，司法部门经侦介入问题平台，发现问题原因多为平台经营者不负责任或恶意违规。零壹财经统计数据显示，2018年6月和7月，问题平台数量显著增加，出现新一轮网络借贷平台“爆雷潮”，特别是2018年7月间，问题平台数量高达181个，远超此前任何月份，问题平台环比增长66.1%[1]。面对这一发展现状，国家先后出台《网络借贷信息中介机构备案登记管理指引》《网络借贷资金存管业务指引》《网络借贷信息中介机构业务活动信息披露指引》《商业银行互联网贷款管理暂行办法(征求意见稿)》等一系列行业监管政策，并明确指出加快金融体制改革、规范发展互联网金融、改革金融监管框架的重要性。网络借贷整治工作开展以来，截至2020年6月，16个地区官宣取缔网络借贷业务[2]，累计近5 000家机构退出[3]，机构数量、借贷规模及参与人数连续下降。

导致网络借贷问题平台增多这一现实问题的原因是：一方面，行业监管加强，网络借贷问题平台数量显著增加的时期恰好与监管部门要求的平台备案期时间上重合，网络借贷问题平台与政府监管部门间的博弈存在周期行为模式；另一方面，整个市场与行业的担忧或恐慌情绪较为强烈，引发行业动荡，使得网络借贷平台运营问题集中显现，网络借贷相关话题讨论热度激增。由此可见，网络借贷问题平台的出现是行业监管、平台运营和公众舆论情绪共同作用的结果，即网络借贷问题平台数量的增多，将引发公众对网络借贷业务的持续担忧、关注与讨论；反之，公众对网络借贷讨论热度的激增，乃至负面舆情的爆发，亦将导致更多网络借贷问题平台的出现。

目前，合规和备案已成为行业监管的重要落脚点，而及时发现问题平台就成为引导问题平台有序退出市场、规范网络借贷市场合法合规运营的关键举措。然而，目前对于网络借贷平台的监管工作仍然存在一定滞后性，往往是在平台暴露出资金困难、跑路等问题后，监管部门才开始介入。虽然目前较多机构已推出平台评级机制，在一定程度上为监管部门及时发现问题平台提供了参考依据，但这些评级系统往往建立在客观数据或事件(比如平台收益率、资金流量、信息披露、风险提示等)基础上，已有评级机制更多地围绕交易展开，针对交易过程产生的相关数据予以计算分析，忽视了广大投资者的直接感受与评论信息的作用；另外，评级机制无法对平台的风险情况给予及时、直观、清晰的状态呈现，评级靠前的网络借贷平台仍可能存在潜在的风险问题。对于监管部门而言，上述情况会导致目前已有的评级机制缺乏全面、实时、精准的参考价值。

投资者在微博上讨论网贷热点事件、在网贷之家论坛交流投资经验、在百度贴吧畅谈交易感想、在今日头条跟踪转发平台合规性和服务质量相关新闻等，会形成大量舆情信息。对于网络借贷平台而言，这些海量且分散的舆情数据能够反映投资人对网络借贷平台的直观感受，蕴含着大量嗅探平台问题的一手信息，因此，网络舆情对于网络借贷问题平台的实时甄别作用不容小觑。应分析网络借贷平台相关外部新闻报道舆情和网民评论舆情信息，结合内部网络借贷平台信息，构建全面的网络借贷问题平台甄别模型，以预测其演化为问题平台的概率，及早识别平台风险，全面实时有效地折射出网络借贷平台的运营现状，为监管部门多维度掌握平台实时发展动向及提前甄别出问题平台提供决策参考依据。

二、文献回顾

网络舆情作为公众线上舆论表达的集合体，通过信息扩散过程影响参与主体的情感与决策。对网络借贷行业而言，金融舆情的扩散，特别是负面舆情的传播对互联网金融市场和网络借贷行业均会产生不同程度的影响，促使投资者调整投资决策，继而引发网络借贷行业震荡，网络借贷平台运营风险增加。因此，金融舆情对网络借贷平台风险的识别发挥着至关重要的作用。

(一)金融舆情

舆情在金融领域的应用起源于其对股市的影响，早期的研究聚焦于分析报纸、杂志等纸媒的新闻类舆情信息。Manela等[4]分别对1890—2009年间《华尔街日报》的新闻报道数据进行分析后，发现新闻报道类舆情信息对股票市场活动及股价波动存在显著影响。史青春等[5]以中国沪深两市上市公司为研究对象，指出负面新闻类舆情本身对股市价格波动存在显著影响。Zou等[6]指出，在中国股票市场中，公司的媒体关注度与其未来股票收益率显著相关。周开国等[7]发现，中国市场上媒体报道的监督效应与上市公司违规频率显著相关。由此可见，新闻类金融舆情不仅对金融市场活动存在显著影响，同时还对违规公司甄别具有重要作用。

此后，随着社交媒体的普及，折射投资者情绪的评论类金融舆情信息为度量投资者对金融市场的信心提供了直接、客观的新渠道，而评论类舆情信息中蕴含的投资者情绪作为引发金融业务系统性风险的重要因素，也逐渐引发了学者的广泛关注。文凤华等[8-9]发现，投资者情绪显著正向影响股票市场上的IPO数量。程萧潇[10]实证检验了舆情信息的衍生影响，并指出源自财经新闻的情绪效应和源自投资者网络舆情的场景效应对中国股市行情存在显著影响。Frugier等[11-12]的研究指出，消费者信心指数以及投资者情绪显著影响股票市场收益，并与系统性风险密切相关。而陈荣达等[13]实证研究发现，投资者情绪与新增平台数量间的关系，在互联网金融市场与传统金融市场中的情况不尽相同。

然而，现有绝大多数金融舆情研究并未系统深入地观察与检验这种差异，学者们仍将金融舆情作用的主要研究视角聚焦于股票等传统证券市场，并纷纷指出舆情数量或扩散范围[14]、舆情情绪或情感倾向[15-16]、舆情内容或评论意见[17-18]、社交网络地位或角色[19]、投资者关注度[20-21]等对股市交易量或股价的波动存在影响。

相较于股市等传统金融市场而言，互联网理财产品市场因具有门槛低、无投资规模等特征，日趋成为投资者小额闲散资金的主要投资方向[13]。其中网络借贷这一互联网金融业态的蓬勃发展，更是为个人及小微企业贷款提供了极大便利，同时带来诸如信用风险、道德风险等隐患[22]以及系统性风险[23]。而信用体系不健全、信息技术引发投资决策“合成谬误”[24]、行业监督管理滞后、相关监管机制与法律法规尚不完善[25]等问题的存在，迫切需要监管部门找到强化网络借贷风险监管力度的可行措施。与此同时，舆情信息中蕴含的互联网金融投资者情绪通过影响投资者行为，继而造成互联网理财产品的价格波动，并诱发金融风险。因此，有必要结合金融舆情对股票市场影响的思想镜鉴，挖掘出互联网金融网络舆情对网络借贷平台风险的识别作用及问题平台的甄别机制。

(二)网络借贷平台风险

网络借贷平台风险主要分为内部风险和外部风险。

第一，内部风险主要来源于项目及平台自身。就项目而言,内部风险主要来源于以下方面：其一，从贷款人信息角度而言，贷款人的性别、年龄、学历水平[26]、文化背景[27]、地理位置[28]、财务状况[29]、照片[30]、社交网络关系[31]等信息均会对贷款成功率产生影响;其二，从投资人角度而言，信息不对称问题导致投资人难以判断贷款人的偿还能力，继而诱发非理性投资行为，并倾向于高风险项目[32]，或存在羊群效应，并倾向于从众投资项目[33]。而就平台而言，内部风险主要来源于以下方面：其一，平台的违规违法行为。网络借贷平台作为信息中介，不存在担保义务，也不直接参与资金业务，但仍有部分平台存在自融、诈骗、关联担保、自担保等违法违规现象[34]。Serranocinca等[35]认为，诈骗等恶劣违法行为对网络借贷行业声誉造成了严重不良影响。例如，银通贷、里外贷、盛融在线等平台存在自融现象，待收金额巨大，为投资者带来巨额损失。全支宝、润通财富等诈骗平台，通过伪造信息包装自身，采用返利、高收益等手段推广宣传，坑害大量投资者，引发投资者大面积恐慌和挤兑行为。其二，信用风险。由于征信体系尚不完善，平台难以准确判断贷款者的偿债能力[36-37]，会引发违约风险。其三，风险防控体系。网络借贷平台风险防控体系的完备程度对平台风险存在重要制约及影响，然而，许多网络借贷平台存在风控体系有疏漏、工作人员风险意识不强等问题。

第二，外部风险来源主要涉及政策、市场、舆情及技术层面，而外部因素的变化将为平台带来不确定性风险。其一，就政策风险而言，在网络借贷金融业务发展期间，各地的监管速度滞后于业务发展速度。张学良[38]指出，早期因缺乏明确的准入机制，大量风控能力较弱的企业涌入市场，随着监管力度的加强，早期不规范平台的生存空间逐渐被压缩，继而最终被淘汰。李展儒[39]指出，互联网金融法律法规缺乏针对性，且不同地区的法规存在差异，政策协调性不足，继而容易导致监管套利行为。其二，就市场风险而言，网络借贷是互联网金融的代表性业务模式之一，其发展受到市场经济环境的影响。当经济发展形势向好时，人们更倾向于将资金用于投资，并从中赚取一定收益；而当经济不景气时，投资者的投资决策相对谨慎，更注重资金安全。另外，对企业而言，经济下行增加了企业的生存压力，同时导致贷款违约率攀升。其三，就舆情风险而言，舆情信息是平台风险的晴雨表，能及时反映平台的问题走向与风险程度。丁晓蔚等[40]依据正反馈螺旋作用理论，发现舆情对网络借贷风险存在推进作用。舆情风险和平台风险之间存在正反馈关系，负面舆情引发恐慌情绪的蔓延，对平台造成资金挤兑压力。王书斌等[41]基于传染病模型发现违约舆情的传播将导致羊群效应，并进一步加剧违约舆情危机，继而对投资者信心造成负面影响。其四，就技术风险而言，王莉等[37]131指出，由于网络借贷主要依赖于互联网完成交易，技术风险也是威胁网络借贷行业发展的重要因素。例如，部分黑客针对网站运营发动攻击：2014年，网贷之家曾遭遇拒绝服务攻击；人人贷、e速贷等众多平台曾因黑客攻击，系统难以正常运转。另外，金融行业数据安全性也至关重要，平台需注重防控隐私数据泄露风险。张亚丽[42]指出,黑客通过技术漏洞进行数据窃取、篡改或删除等操作，直接威胁到平台的正常运营。

上述风险构成了网络借贷平台面临的主要风险，均有可能导致网络借贷问题平台数量的增加。

(三)研究述评

综上所述，舆情信息数据对预测和有效甄别网络借贷问题平台具有重要价值，不仅能够辅助尽早发现网络借贷平台潜在的违规操作或运营问题，而且有助于监管部门及时介入问题侦察处置、规范有序引导目标平台发展、科学整治网络借贷行业乱象。因此，舆情数据将成为发现网络借贷问题平台的有效信息。然而，将舆情数据纳入网络借贷问题平台甄别领域的研究目前仍存在一定局限性，不同舆情数据如何影响网络借贷问题平台的甄别效度与精度仍有待深入探讨。基于此，提出以下研究问题：

第一，应该将何种舆情数据纳入网络借贷问题平台甄别模型。现有研究主要依托于网络借贷平台运营模式、主体行为、主体特征等平台内部数据洞察网络借贷平台风险，继而发现问题平台，较少重视外部舆情数据的预测作用。然而，外部舆情数据种类繁多，无论是来自不同媒体的新闻报道或专栏文章，还是各大社交平台或论坛的网民评论，都将在不同程度上折射出问题平台冰山底层涌动的风险暗流。因此，本研究将在平台内部数据基础上，增加有效的平台外部舆情数据，构建全面的网络借贷问题平台甄别模型。

第二，面对海量的舆情数据，按照何种标准进行分类处理。现有有关网络借贷舆情的研究文献，主要围绕特定事件收集相关舆情信息，通过计算舆情数量研究舆情热度对其产生的影响。然而，舆情文本内容蕴含的大量隐藏信息未被充分挖掘。因此，本研究将基于文本特征集，扩充舆情文本信息指标，并对不同来源的舆情信息进行分类处理，以期充分挖掘舆情数据的甄别作用。

第三，选择何种方式进行网络借贷问题平台的甄别及预警效果最佳。目前，诸多研究者针对网络借贷行业热点事件舆情，采用计量方法或神经网络方法构建预警体系，较少围绕网络借贷问题平台进行精细化分析。考虑到近年来大数据技术及深度学习方法在文本分析领域的应用，本研究拟多角度采集平台相关数据，采用神经网络、支持向量机、随机森林和逻辑回归方法，构建并调参得到最佳的网络借贷问题平台甄别模型。

三、数据和方法

(一)数据来源

本研究基于爬虫技术，在今日头条和网贷之家爬取与网络借贷平台相关的新闻报道及公众评论。选取上述两部分舆情数据的主要原因在于：其一，互补性的信息覆盖面。新闻报道关注网络借贷平台发生的重大事件，其来源或是主流媒体，或是自媒体等；公众评论则聚焦个体投资者或借款人对平台交易体验的直观感受。这两类舆情信息关注的视角有所不同，更能综合传递出与平台宏微观层面相关的问题或风险信息。其二，专业性与全面性的融合。网贷之家是网络借贷行业的专业性门户网站，拥有与网络借贷平台全方位相关的海量数据，既包含网络借贷平台档案及相关资讯、网络借贷行业的国家政策及发展动态、网贷之家对不同网络借贷平台的评级与分析报告等，又包含大量与网络借贷相关的各类公众评论信息。而今日头条则全面集成了多领域、多平台的重要资讯，新闻资讯整合来源广泛，已成为接触终端受众最多、信息最全面的重要新闻类应用。其三，公众评论的相关性与客观性。微博、百度贴吧、知乎等平台上专业投资者占比及识别精度较低，与网络借贷相关的公众评论信息存在稀疏性较强和有效性不足等问题，而网贷之家平台的评论多来自于有一定投融资经验或专业知识的公众。因此，采集网贷之家平台上的公众评论信息。本研究将数据采集时间窗口设置为2013年8月至2018年12月，从网贷之家采集了6 449家网络借贷平台的基础信息和舆情数据，从今日头条以平台名称作为关键字搜索出阈值对应的新闻数据，其中，问题平台总数为5 432家，正常平台总数1 017家，新闻总量415 771条，公众评论总量82 359条。这些数据覆盖平台基础信息、新闻类舆情信息及评论类舆情信息。平台基础信息共含99列，包括平台名称、平台ID、网址、公司背景、法人等；新闻舆情信息共含7列，包括平台名称、新闻标题、新闻内容、发布人、发布时间等；评论类舆情信息共含15列，包括平台名称、评论内容、评论时间、评论人等数据。

(二)舆情信息处理

考虑到不同舆情数据具有不同特点，对两类舆情信息采用不同的处理方式。针对新闻类舆情，采用主题提取方式，将新闻舆情转化为离散型指标；针对评论类舆情，采用情感分类方式，将评论类舆情转化为连续型指标。由于新闻类舆情与评论类舆情均为文本信息，本研究将基于文本表示技术、分词技术、主题模型和深度学习模型对舆情信息进行处理。

第一，对采集的舆情数据进行分词预处理。本研究从分词的准确度、速度以及代码开源度角度综合考虑，采用jieba分词工具进行中文分词，利用Python的jieba工具实现。一是维护自定义词典。为防止平台名称的错误拆分，将所有网络借贷平台的名称加入自定义词典；为明确界定并全面覆盖网络借贷平台不同问题，将与网络借贷行业及平台相关的风险及问题术语加入词典，例如“爆雷”“债转”等；为准确衡量评论数据折射的公众情绪，将评论数据中偏口语化或网络化等非正式用语加入词典，例如“坑爹”“给力”等。二是去停用词。停用词是文档中出现频率较高但缺乏实际含义的词语，本研究通过构建停用词表去除上述词语。根据网络借贷问题平台的研究重点，在已有停用词表基础上进行人工调整，并在jieba分词中载入停用词表。

第二，对新闻类舆情数据进行处理。考虑到相似性事实，即若不同媒体对两家网络借贷平台报道内容的侧重点相似，则这两家网络借贷平台的状态也相似，将基于LDA(latent dirichlet allocation)主题模型[43]，采用Python中Gensim库建立模型，通过提取新闻文本中的关键词发现相似问题平台。一是向量转化。基于上述词典，使词语集合转化为稀疏向量，并将向量放入列表，形成稀疏向量集。二是确定最佳主题数量。设置主题数，构造LDA主题模型，模型构造完成后，计算输出所有主题、每个主题权重靠前的词语以及文本所属主题数。通过设置不同的主题数，对实验结果进行比较，发现主题数为5时，每个主题的可解释性最好，每个主题选取7个词语，并根据这些词语推断所属主题。这些主题表达了网络借贷平台相关新闻关注的不同角度，每个平台在不同主题上的新闻评论数量将作为后续问题平台甄别模型的部分输入数据。

第三，对评论类舆情数据进行处理。针对评论类舆情篇幅短、观点主观性强、口语化倾向导致难以提取一致性主题等特点，采用情感分类方法分析其蕴含的评论者情感倾向，同时考虑到基于深度学习的情感分析方法允许在接近零背景的情况下建立高精度的分类模型，采用LSTM(long short-term memory)模型进行评论类舆情情感分类。一是进行情感类型划分。尽管目前已有研究进行了多类别情感分析(如分析情感中的喜、怒、哀、乐等)，但考虑到网络借贷平台的评论类舆情不同于公共事件的评论舆情，公众在评论中倾向于直观表达对网络借贷平台看好或不看好的态度。因此，将情感类型划分为积极情绪与消极情绪两种类型。二是建立模型。通过网络收集积极评论10 679条，消极评论10 428条，并对评论进行分词，将所有词语转换为词典映射。其中，80%的数据用于训练，20%的数据用于测试，以便建立和训练LSTM模型。对模型调参、编译和拟合后，选择准确率最高的模型，该模型对积极情感的预测准确率为96.12%，对消极情感的预测准确率为97.27%。LSTM模型在验证集上的损失函数和准确率函数曲线如图1和图2所示。

0.450.400.350.300.250.200.150.100.050123456789<;6?@45;图1 验证集损失函数曲线0.980.960.940.920.900.880.860.8401234567896?@45;D95图2 验证集准确率函数曲线

(三)网络借贷问题平台甄别指标体系

网络借贷问题平台甄别指标体系的相关性、普适性、易得性、真实性、差异性及可计算性直接影响甄别模型的准确率。本研究结合企业风险评价[28,37]和网络借贷平台舆情分析[40,44]的相关研究成果，依据指标筛选原则，从采集的原始数据中选取部分有效指标，整合网络借贷平台内外部信息，从平台基本信息、平台运营信息和平台舆情信息视角，构建含有3个一级指标与25个二级指标的平台问题甄别指标体系。

1.平台基本信息指标

平台基本信息涵盖与平台相关的企业基本情况信息，该类信息通常不随时间推移而发生频繁变化。平台基本信息主要包含以下6项指标：(1)注册资本(x1)，表示平台在工商部门注册时的资本总额。注册资本的多寡反映了企业资本是否雄厚。(2)地理位置(x2)，表示平台所在的省级行政单位。由于不同地区的经济发展情况和监管力度不尽相同，问题平台集中爆发区域近期内再次出现问题平台的概率更高。(3)平台融资(x3)，表示平台的融资记录。网络借贷平台获得融资，说明投资者总体看好平台的发展前景。(4)监管协会(x4)，表示平台是否曾加入互联网金融协会。互联网金融协会由央行、银监会、证监会等多机构联合创办，加入该协会的平台保障力度更强。(5)ICP认证(x5)，表示平台是否具有ICP许可证。具有ICP许可证的平台更为规范，且符合国家监管要求。(6)平台背景(x6)，表示平台背景分类，主要包括国资系、银行系、上市系、风投系和民营系五类。

2.平台运营信息指标

平台运营信息涵盖与平台经营过程相关的信息，该信息在不同时期存在变化。平台运营信息主要包含以下6项指标：(1)债权转让(x7)，表示平台债权转让期限，主要包括不支持转让、随时转让、1个月、3个月、大于3个月。债权转让可以提高资金流动性。(2)自动投标(x8)，表示平台是否支持自动投标模式。自动投标可提高投资效率，减少资金闲置时间;然而，也存在信息和资金走向不透明等问题。(3)银行存管(x9)，表示平台是否具有银行存管机构。银行存管通过银行进行资金管理、平台进行业务交易的方式实现业务与资金的独立。(4)保障模式(x10)，表示平台是否具有担保机制。通常而言，若平台拥有自有资金或银行等机构的保障，则用户资金安全性更高。(5)参考收益(x11)，表示平台近30日的参考收益率均值，可反映平台总体项目的收益情况。通常，参考收益越高，项目周期越长，承担的风险则越大。过高的收益也可能存在诈骗嫌疑。(6)投资期限(x12)，表示平台投资期限时间的均值。投资期限越长，收益越高。这也意味着投资者资金被占用的时间越长，面临的风险越大。

3.平台舆情信息指标

平台舆情信息涵盖与网络借贷平台相关的新闻信息及评论信息，该信息的内涵随时间推移而发生变化。平台舆情信息主要包含以下13项指标：(1)网贷之家评级(x13)，反映网贷之家网站对平台的统一评价。(2)提现评分(x14)，表示用户对平台提现速度的评分。该评分越高，说明平台提现速度越快。(3)站岗评分(x15)，表示用户对平台站岗速度的评分。该评分越高，说明平台周转速度越快。(4)体验评分(x16)，表示用户对平台网站的体验评分。该评分越高，说明用户对平台网站的满意度越高。(5)服务评分(x17)，表示用户对平台客服的服务评分。该评分越高，说明用户对平台客服的满意度越高。(6)综合评分(x18)，表示用户对平台的总体评价分值。该评分越高，说明用户对平台整体感受越好。(7)评论总数(x19)，表示时间窗口内平台评论的总数，本研究的时间窗口数据均选取为月度数据。评论总数越高，表明评论者对当前时间窗口下平台的讨论热情与关注度越高。(8)积极评论数(x20)，表示平台相关评论中积极评论的总数。该数值越高，表明评论者在当前时间窗口下越看好平台发展态势。(9)积极评论变化率(x21)，表示当前时间窗口下平台积极评论的数量相较于上一时间窗口的变化率。该变化率上升，说明评价者积极看好平台的发展趋势。(10)消极评论数(x22)，表明平台评论中消极评论的数量。该数值越高，表明评论者在当前时间窗口下对平台的意见越大或不满情绪越多。(11)消极评论变化率(x23)，表示当前时间窗口下平台消极评论的数量较上一时间窗口的变化率。该变化率上升，表明更多评论者对平台有意见或表示不满。(12)新闻总数(x24)，表示平台相关的新闻数量。(13)新闻主题分布(x25)，表示平台新闻在不同主题下的分布情况。

(四)指标计算方法

采集到的信息存在多元异构特征，但对模型输入而言，需要有统一的数字化表达形式；因此，本研究对数值型指标、离散型指标及文本型指标分别采用不同方法进行处理。

第一，数值型指标的处理。对于数值型指标，采用线性归一化方式，将数据统一缩放至[0,1]区间，即方法1。

第二，离散型指标的处理。鉴于离散型指标不存在序列化特征，无法比较大小，本研究采用One-Hot编码方法。一是针对取值较少的指标直接采用One-Hot编码，即方法2。二是针对取值较多的离散型指标，考虑到直接采用One-Hot编码会产生过多属性，且该指标的类别差异对预测结果无显著影响，本研究将结合地区指标进行特征重塑后再使用One-Hot编码，即方法3。具体而言，从问题平台分布的地理区域数据观察，问题平台较多的省份分别是浙江、广东、山东、上海、北京、江苏，因此，将地区指标的类型划分为浙江、广东、山东、上海、北京、江苏和其他，One-Hot编码后生成7个新指标。

第三，文本型指标的处理。文本型数据包括新闻类舆情数据与评论类舆情数据，该类数据无法直接作为模型输入，需将其转换为数值型指标或离散型指标。一是针对新闻类舆情数据采用如前所述的LDA主题提取方式，将新闻数据蕴含的信息转化为各平台在不同主题分布下的新闻数量，即方法4。二是针对评论类舆情数据采用基于LSTM模型的情感分类方法，将评论蕴含的情绪信息转化为各平台不同情感倾向的评论数量，即方法5。

综上所述，本研究对应的全部指标类型及计算方法如表1所示。

表1 指标计算方法说明

四、网络借贷问题平台甄别模型

本研究旨在通过利用各项指标数据甄别网络借贷问题平台，继而识别网络借贷平台是否存在无法继续正常运营的风险。

(一)模型描述

网络借贷问题平台甄别模型本质上属于有监督二分类问题，即采用历史平台数据进行模型训练，对当前平台状态进行评分判断，分析平台正常运营的可能性。通过学习一个分类器Y=f(X)，以便甄别问题平台，其中X表示每个平台的输入数据，Y表示评估结果。

假设平台特征集为X，平台标签为L∈{0,1}，1表示正常运营平台，0表示问题平台。平台风险量化模型的目标是将特征集合X作为输入，输出风险评分为F，F的取值范围为[0,1]，F的取值越接近1，表示该平台为正常平台的概率越高。因此，网络借贷问题平台甄别模型为

F=f(X)

(1)

风险评分F应满足以下性质：(1)选定某个合适的阈值β，F值大于β的平台应该尽可能为正常平台，小于β的平台应该更接近于问题平台。(2)正常运营平台的F值应尽可能高且接近于1，而问题平台的F值应尽可能低且接近于0。(3)将所有平台按F值从高到低排列后，排名越靠前的平台，存在问题的可能性应越小。

(二)实验设计

为充分挖掘并验证舆情数据对提升网络借贷问题平台甄别准确率的作用，本研究设置了如表2所示的3项实验。实验仅在输入指标选取上存在差异，指标计算处理方式及实验训练模型一致。实验1选取平台基础信息、经营信息以及部分直接通过打分方式得到的舆情信息作为模型输入，实验2仅选取全部舆情文本信息指标作为模型输入，实验3选取全部平台基础信息、经营信息以及舆情信息作为模型输入。对比3项实验的模型训练结果，挖掘舆情信息蕴含的问题平台甄别价值。

表2 不同实验指标对比

(三)模型构建与评价

本研究采用神经网络、支持向量机、随机森林、逻辑回归方法进行模型构建及训练，并选取最优训练结果进行实验比较分析。建立分类模型之后，需要对模型的运行结果进行评估，而评估准则是判断模型的预测值能否较好匹配实际数据值的关键点。本研究采用准确率(accuracy，ACC)和AUC(area under ROC curve)两个指标对模型分类性能进行评估。其中，准确率ACC反映了模型分类正确的比例，即模型结果与真实结果相同数量的占比；AUC为ROC(receiver operating characteristic)曲线下方与坐标轴围成区域的面积，AUC趋近于1，表明分类效果趋于完美[注]限于篇幅，文中省略了神经网络、支持向量机、随机森林、逻辑回归模型的具体调参过程描述。如有需要，劳烦与作者联系。。

五、实验结果

选取不同输入值，采用神经网络、支持向量机、随机森林和逻辑回归4种方法进行对比，实验结果如表3所示。

表3 实验结果对比

(一)3项实验结果对比分析

首先，观察神经网络、支持向量机与随机森林模型的结果。无论是ACC值还是AUC值，实验结果的优劣排序均为：实验3>实验1>实验2，即包含平台基础信息、经营信息和舆情信息的模型结果更好。第一，实验1的结果比实验2的结果好。这说明仅将舆情信息数据作为输入指标，不足以精确甄别网络借贷问题平台，而包含平台基础数据、运营数据和部分舆情信息的模型输入指标，能够更加全面准确地折射出平台问题。在实际情况中：(1)平台基础信息通常是相对稳定的，例如平台的注册资本、地区、背景等，不会随时间推移频繁变更，而这些信息能够较为准确地传递出有关平台运营能力的关键信息。如前所述，地区指标就是一个较好的特征“指示器”，经济发达地区问题平台的检出概率较高。一方面，这些地区的平台更新迭代速度快，新成立的平台和问题平台数量均偏多；另一方面，经济的快速发展也孕育着更多的贷款需求，会引发更多无力偿还或违约等问题，致使许多小平台因资金压力过重而无以为继。另外，平台背景指标也是发现问题平台的关键“风向标”，平台背景在一定程度上反映了平台的实力。一般而言，平台实力越强，其持续运营的可能性越高。然而，大部分产生经营风险的问题平台依托于民营系背景，而民营系平台的运营实力相对偏弱，但平台数量庞大，问题检出率相对偏高。(2)平台运营信息可能随着时间推移而产生变化，其反映过去一段时期平台的运营状况，而这些信息也将对预测平台未来运营状况起到参考作用。第二，实验2的结果不够理想。实验2中仅包含平台相关的外部舆情信息指标，指标维度较为单一，且外部不确定性较大；因此，尽管实验2从整体的舆论视角也可以反映部分平台运营情况，但实验结果相较于实验1而言较差。第三，实验3的结果比实验1的结果更好。这说明引入外部舆情信息，并整合平台内部信息后，模型的输入指标更为全面系统，能够有效提升问题平台甄别模型的效果。如此前行业数据所示，在现实环境中，舆情环境对于网络借贷平台运营存在直接影响，尤其是负面舆情的爆发，将直接影响投资者对网络借贷行业的整体信心，诱发投资者情绪恐慌，继而影响投资决策。在市场行情欠佳的时候，容易发生投资者挤兑事件或互联网金融产品市场化违约事件，大量投资者资金的退出将加剧平台资金压力，导致实力偏弱的平台出现停业、提现困难等问题。因此，加入舆情信息指标能在平台内部信息的基础上合并外部信息，完善问题平台甄别模型。

然后，观察逻辑回归模型的结果。逻辑回归模型结果与其他3种模型的结果略有不同，对应的实验结果优劣程度为：实验1>实验3>实验2，即舆情信息指标削弱了模型结果。下面结合逻辑回归模型的原理对这一现象予以解释：一方面，逻辑回归方法对数据的分类采用线性分类方式，而对非线性数据的表现较差；另一方面，采用全部数据进行模型训练时，该方法对异常值的反应更为敏感。因此，对舆情信息指标而言，线性分类并不适用。与预期效果不同，引入逻辑回归反而降低了模型性能。

综合上述4种方法的实验结果观察，尽管逻辑回归与另外3种模型的结果有所不同(这种情况是由方法自身的计算原理及其与数据的匹配性造成的)，但结合另外3种模型的结果，笔者认为，外部舆情信息的引入能有效提升问题平台甄别模型的效果，即采用平台基础信息、运营信息和外部舆情信息，可以建立更为全面且精准的甄别模型。

(二)4种模型效果对比分析

依据上述不同输入指标在不同模型结果上的表现，本研究采取择优匹配方案：根据实验3的设计，对神经网络、支持向量机和随机森林模型采用全部指标；根据实验1的设计，对逻辑回归模型采用不含舆情文本信息的指标作为输入，对不同模型方法进行结果间比较。4种模型的效果在ACC及AUC上的表现如图3和图4所示。

从ACC值观察：随机森林和神经网络模型的准确率较高，且相差无几，均超过0.89；其次是支持向量机模型，其准确率为0.879 2;而逻辑回归模型的准确率最低，仅为0.865 1。从AUC值观察：神经网络模型的AUC值最高，为0.917 2；其次是随机森林模型，其AUC值为0.914 2，与神经网络模型效果相近；而支持向量机与逻辑回归模型的AUC值均偏低，均不足0.85。综上，神经网络模型效果最佳，随机森林模型与神经网络模型效果相当，而支持向量机模型与逻辑回归模型整体表现较差。

就逻辑回归而言，由于舆情文本信息的加入将降低逻辑回归模型的预测性能，逻辑回归模型根据实验1输入的指标中未包含舆情文本信息。然而，从现实应用视角分析，这一指标设计会使问题平台的甄别操作缺乏外部信息的支持。同时，由于数据输入信息的限制以及模型本身适用于线性可分，进一步提升模型表现的空间较小。因此，逻辑回归模型的表现最差。

支持向量机、神经网络和随机森林模型对于非线性分类问题表现更好。当然，支持向量机模型的结果逊色于神经网络和随机森林两种模型的结果，原因可能在于：支持向量机模型在训练时只考虑采用支持向量，即与分类最相关的点进行学习，而忽略了异常值。在预测过程中，如果异常值较多，就会导致拟合效果较差、模型泛化能力偏弱等问题。例如，不同平台之间的评论数量存在较大差异，某些平台在数据采集期间几乎无人评论，导致数据取值接近于0，而与备受关注的平台相关的评论的数量可能很大。神经网络模型可以学习数据的潜在关联，并且可以有效应对缺失值。随机森林模型作为一种集成模型，以决策树为基类学习器，抗干扰能力好，泛化能力强。因此，神经网络模型和随机森林模型在网络借贷问题平台甄别上的表现更佳。

综上所述，笔者认为，利用平台基本信息、运营信息和舆情信息，并采用神经网络方法构建网络借贷问题平台甄别模型的效果最好。

六、结论

随着互联网金融的快速发展，国家监管制度日臻完善。此时，监管部门要对网络借贷平台进行科学治理，必须尽早发现问题平台、及时介入管制，并作出精细化管理决策。笔者从整合网络借贷平台内外部信息视角出发，根据相关、普遍、易得、真实、差异和可计算性原则进行指标选取，构建两层指标体系；采集网站数据并对非结构化数据进行预处理，针对不同指标数据类型对连续型、离散型和文本型数据采用不同处理方式；通过实验设计改变模型输入指标，采用神经网络、支持向量机、随机森林和逻辑回归模型验证舆情文本信息指标的引入对网络借贷问题平台甄别效果的提升作用。研究发现，采用神经网络模型，并将平台内部基础及运营数据与外部舆情数据同时作为模型输入时，网络借贷问题平台甄别模型的表现最佳。

本研究的结论对监管部门科学治理及维系金融安全具有实践意义。

第一，有助于推动普惠金融教育，科学引导投资者作出理性投资决策。根据舆情数据特点，分而治之处理不同类型舆情数据，可以帮助投资者直观了解网络借贷行业相关舆情数据含义，掌握网络借贷行业舆情走势与分析视角，逐步理解网络借贷业务的主要优势与潜在风险，形成对网络借贷业务及借款标的的理性预期，截断非理性情绪传染渠道，规避盲目跟风投资，辅助投资者制定合理投资决策。

第二，有助于完善网络借贷平台治理体系。网络借贷迅速发展，其已成为普惠金融的重要业务形态；然而，行业低迷导致整体舆情环境恶化，用户负面舆情的扩散以及恐慌情绪的蔓延诱发金融业务的系统性风险，引发恶性循环。因此，需要为网络借贷业务的快车道加载合理的控制器。利用大数据优势收集网络借贷平台内外部数据，充分利用舆情信息蕴含的潜在价值构建全面、完善的平台治理评价指标体系，可以为问题平台甄别模型的建立奠定基础，帮助平台规范业务经营，有序规避问题风险。

第三，有助于提升政府监管部门的精准治理能力，完善监管制度。网络借贷业务的渗透场景多元，存在监管机制无法全面覆盖的角落，而充分利用数据优势对多元数据进行量化，构建科学精准的问题平台甄别模型，有助于监管者采取针对性、精细化、差异化的问题平台监管与引导策略，可以帮助监管部门找到强化网络借贷风险监管力度的可行措施，并在确保激发网络借贷金融业务发挥“鲶鱼效应”的同时，全面及时地洞察各类风险，完善网络借贷行业的监管治理体系。

本研究也存在一定的不足与局限性。其一，数据采集的时间窗口问题。模型中的参考收益、投资期限等相关指标为预测节点前30日的数据，考虑到舆情信息的数量问题，以及舆情信息相较于平台运营信息的影响周期更长的客观事实，未来可进一步追踪长周期历史参考收益率等运营指标。其二，变量的领先及滞后效应问题。研究中的某些变量自身可能存在一定程度的滞后或领先效应[45-46]，未来将对各变量当期及滞后期指标及逆行主成分进行分析，并构建指标时间序列，进一步拆分并交叉组合验证不同指标对网络借贷问题平台的甄别效果。其三，还需深入分析新闻类舆情来源的媒体效应对问题平台的诱发机制。由于媒体通过提供信息和调整新闻主题影响公众的注意力及投资者的行为，而负面新闻类舆情对投资者行为产生的焦虑情绪会在多大程度上导致撤资继而诱发平台风险问题，也是值得进一步研究的问题。其四，还需融合横向网络借贷行业分析视角与纵向网络借贷企业分析视角进行系统分析。可从行业视角甄别出的问题平台，基于单一问题平台，根据平台及借贷主体软硬信息等综合数据分析，精细化分析平台主要问题，从行业视角及企业视角综合提出问题平台的引导处置措施及治理制度安排，以供政府监管部门及网络借贷平台运营企业决策参考。