基于主题动态模型的法律因果关系研究
2017-02-20张瑞祥王东波
张瑞祥 王东波
(1.江苏省司法厅研究室,江苏 南京 210024;2.南京农业大学信息科学技术学院,江苏 南京 210095)
基于主题动态模型的法律因果关系研究
张瑞祥1王东波2
(1.江苏省司法厅研究室,江苏 南京 210024;2.南京农业大学信息科学技术学院,江苏 南京 210095)
主题动态模型为探究学科研究趋势和主题演化形式提供了新的思路,使用该模型对法律因果关系进行分析可有效验证模型的有效性并为推广模型提供经验,并且针对学科研究内容的分析也为学科整体发展提供了有益的支持。通过对2009-2013年的5494篇因果关系相关文献的主题动态分析,所取得的结果验证了主题动态模型在应用于因果关系学科上的有效性,同时基于主题动态模型的分析结论,对学科研究历史的变迁进行了总结和评述。由于主题动态模型是一种新提出的研究方法,并且缺乏在人文社会科学上的应用,从而导致本研究缺乏对其他学科进行横向性能的比较。
主题动态模型 因果关系 流行性 连续性
一、导论
学科研究主题的变迁、研究群体规模的变动、研究兴趣的转移以及知识扩散和流动的方向一直是情报科学关注的主题。以共词网络[1]P599-605、主题网络[2]P79-82、作者合作网络[3]P121-126、共引网络[4]P93-98和共被引网络[5] P80-8为主的科学知识网络是认知科学领域结构的主要手段(Yan等,2012)[6]P140-153。这些基于网络的思想被应用到论文、作者、期刊、主题、机构等不同的学术实体层次,辅之以知识挖掘技术和复杂网络技术,取得了丰硕的研究成果[7]P98-110。最初的基于网络的方法集中于讨论给定时间区间的科学知识网络,难以反映学科主题的动态变化和知识的流动。随着静态方法的逐渐成熟,基于时间窗口的动态方法的研究逐渐成为研究的热点。Radicchi(2009)以相同数量的引文为间隔,对科技论文的作者顺序和成果分配进行了分析[8]P56-64。Sugimoto(2011)使用LDA方法对北美图情论文进行了主题分析,按照相同数量的发文为间隔,研究了学科发展的主题变迁[9]P185-204。Barabási(2002)以作者共发文情况构建的复杂网络为基础,使用累积间隔法对作者合作情况进行了描述[10]P590-614。对研究主题的探究不仅有助于研究者从宏观的角度上把握某一个学科或者某一研究领域的整体演化情况而且有益于揭示该学科或该领域的研究热点和研究趋势。
基于主题内容的动态演进的描述方法、时间间隔的选取和相关理论已经得到应用,但对于主题本身的动态性质的研究还较为缺乏。Erjia(2014)[11]P70-86提出了一种测量研究主题连续性和流行性的范式,并以10年的图情领域文献为测试数据,验证了该范式的合理性和统计特征。但该文同时也指出,图情领域的文献上验证的规律并不能必然推断整个科学领域的规律。本文以Erjia的研究范式为基础,以法律中重要的“因果关系”为数据对象,对该研究领域中主要主题的流行性、研究趋势进行了分析和判断。
因果关系是一个归属概念,意在使已然存在的特定结果被认可为作为问题的特定行为的具体实现。因果关系因其对行为主客观面性质的影响而成为法学理论几百年来不可回避的话题[12]P44-56。近年来,医疗、食品安全和交通等领域的现实问题对因果关系的研究提出了新的机遇和挑战[13]P1423-1434,研究分支扩散和融合的趋势渐现。同时,传统的自然科学式的研究方式虽然在应对日益复杂的社会需求独木难支,但仍然占据着主要地位。因此,本文选择法律因果关系作为学科动态的研究对象,其复杂并处于快速演进阶段的学科特质有助于验证主题动态模型的性能和效果,同时,主题动态模型对于主题连续性和流行性的描绘也有利于厘清因果关系在不同的社会领域的研究热点、学科发展趋势和脉络。
二、数据来源
本文以中国知网数据库近5年收录的涉及法律因果关系的全部文献为数据来源。检索时设定期刊所属学科为“社会科学Ⅰ辑”中的“法理、法史”、“宪法”、“行政法及地方法制”、“民商法”、“刑法”、“经济法”、“诉讼法与司法制度”和“国际法”。检索式为“SU='因果关系'”,时间窗口为2009至2013年(含),所获取论文信息经人工校对后,共保留5494篇。统计数据如表1所示。
从表1可以看出,近五年来法律因果关系的论文从整体上呈现出上升的趋势,从2011年起年均总量达到了千篇以上,其中2012年的增幅最大,比2009年增加了524篇。法律因果关系目前论文的总量为通过主题动态模型分析因果关系确保了数据的充分性和有效性。
表1 法律因果关系论文数量表(2009-2013)
论文数据包括论文标题、发表年份、文章摘要和关键词信息,部分数据示例如表2。5494篇法律因果关系的论文全部进行了数据清洗,在清洗的过程中,对于标题和摘要当中出现的乱码、不规则的字符、缺失的文字均逐一进行了删除、更改和补充。从主题动态模型对信息多维度处理能力的角度考虑,在分析因果关系的过程中不仅使用了标题和关键词单一维度的特征知识而且使用了摘要当中多维度的特征知识。
表2 论文数据示例表
三、研究方法
(一)主题提取
从自然语言处理的角度来看,主题可以被表示成词项概率分布的空间向量模型[14]P65-72。在主体模型中,核心问题在于求得两个分布:各主题下的词项分布和各文档的主题概率分布。例如,在本文的论文语料基础上得出的流行性最高的主题为“因果关系的行为客观面”,该主题由345个词项组成,其中273个词项的概率小于0.01%。该主题的空间向量模型可以表示为{因果关系:0.32;犯罪构成:0.25;交通事故:0.13;死亡:0.08道路交通事故:0.05;刑法:0.02 ……}。文档中的词项根据这两个概率分布可以变换为主题概率分布,从而大大缩减文档向量表示的维度。
LDA(latent dirichlet allocation)及其扩展模型被广泛应用于主题提取领域。本文使用LDA模型进行主题提取。Blei等人于2003年提出了LDA模型,该模型在识别大规模文档集中潜藏的主题信息效果良好,可较好的识别出语义上存在隐含分布倾向的非高频词汇,数据结构为一个生成性的3层贝叶斯网络[15]p993-1022。LDA利用Dirichlet分布的共轭性质,后验函数可以轻易转换为先验函数,加强了算法的实时性和运算速度。LDA的算法如下:
设文献集合共有m个文档,共包含v项词汇,k个可能生成的隐含主题,则每个主题在词汇集合上服从多项式分布θz,每个主题在文档集合上服从多项式分布φd。主题模型通过定义α和β模型的超参数,使得k个主题中词项分布概率θz服从基于超参数α的Dirichlet分布,文档d的概率分布φd服从基于超参数β的Dirichlet分布。在实际计算中,常用Gibbs Sampling采样方法基于公式(1)(2),利用超参数反向求解主题在词汇m上的先验分布φm和主题在文档d上的先验分布θd,并用主题-词汇分布矩阵V和主题-文档分布矩阵D表示对应计算结果。迭代计算中参数含义详见表3。
(公式1)
(公式2)
在公式(1)和(2)的基础上,对于公式当中所涉及的不同的参数,结合法律因果关系,本文进行了逐一的对应和解释,具体见表3。
表3 LDA模型的Gibbs Sampling方法变量及其含义
(二)主要算法
1.主题差异度计算
法学的因果关系是一个正处于快速演进中的话题,因此使用主题差异度计算是跟踪因果关系的主题在不同时间区间内演进的必要手段,本文使用Jensen-Shannon divergence(JSD)方法作为测定主题差异度的算法指标。JSD可以评价不同概率分布下的信息熵差异,被广泛应用于文本挖掘领域。作为信息增益算法(Kullback-Leibler divergence)的改进版本,JSD弥补了KL距离的非对称性问题,并且参数更为平滑。Lee(2001)指出,JSD方法比基于几何距离的度量方法更有效[14]。主题P和Q的JSD值如下:
JSD(P‖Q)=1/2D(P‖M)+1/2D(Q‖M)
(公式3)
其中M=1/2D(P+Q),D(P‖M)是P和M的KL距离,当P和M是离散变量时,D(P‖M)=∑iP(i)lnp(i)/M(i),当P和M是连续变量时,D(P‖M)=∫P(x)lnp(x)/M(x)dx。JSD值越大,表示两个主题之间的相似度越小。
2.主题流行系数
主题流行系数指在一定的时间区间内,所有的文档中对指定主题的总支持量,可以用来测度主题在时间区间内的热度。对于具有一定历时时间跨度的法律因果文献来说,基于这一指标对法律因果关系进行主题流行系数的探究具有特定的意义和价值。θm,k表示m文档生成k主题的概率,主题k的流行系数为:popularity(k)=∑mθm,k。
3.动态主题识别算法
主题识别算法是面向每一个时间区间内的所有文献分别进行的,因此不同时间区间提取出的主题必然有所区别,动态主题识别算法将相邻的两个时间段的主题进行按其JSD值进行连接。设i是前时间段中一个主题,N是后时间段的主题集合,ε是预设的JSD差异度阈值,大于该值表示不接受主题相似假设,求N中与i对应的主题算法如下所示。本文设定的阈值ε为0.3。具体计算由如下三步组成:1.对于N中的每一个主题j,求得主题j和i的差异度JSD(i,j);2.搜索与主题i差异度最小的主题k,k=αrgmaxjJSD(i,j)3.如果JSD(i,k)小于预设阈值ε,则k为i的对应主题,否则N中不存在i的对应主题。
(三)主题流行性和连续性
1.主题流行性
Erjia指出,当某个主题连续5个时间段中均能被连续识别,则可以根据其流行系数拟合的一元线性方程的斜率变化确定其流行性状态。而本文选取的文献发表时间范围为5年,因此设定连续的3个时间段为筛选标准。主题流行性状态分为三种:稳定态,上升态和下降态。波动态:-0.5<=slope<=0.5,表示主题的流行系数在一定范围内波动,从具体研究主题上看,波动态主要体现出该领域在研究内容、研究方法和理论探究上主题的多样性和变化性。上升态:slope>0.5,表示主题的流行系数随时间段上升,根据学科具体的研究,上升态的研究主要表明相应的主题在一定的时间区间内受到了持续和高强度的关注。下降态:slope <-0.5,表示主题的流行系数逐时间段下降,表明某一时间区间内的研究主题随着社会的变化、时代的变迁,受关注的程度逐步在下降。其中,slope表示流行性系数的斜率,是衡量主题稳定态、上升态和下降态的核心指标。
2.主题连续性
依据主题在连续时间段中JSD变化的趋势,主题的连续性状态分为以下几种。突现主题:在之前的时间段内未出现过,但在某一个时间段突然出现并持续两个或两个以上时间段,在学术主题上则表现出相应的研究受到了广泛而高度的关注。转换主题:两个或两个以上主题在下一个时间段合并转换至一个主题之内,在具体的研究上表现出已有的研究在研究方法、研究策略或理论探究模式上融入了其他的研究主题当中。稳定主题:主题在至少三个连续的时间区间内均表现出较小的差异度,从研究上表现出这一类的研究受到了持久性的关注,并且是某一研究当中的基本和核心的探究问题。消亡主题:在某一个时间段内出现,但在之后的时间段内不再出现,主要表现出所研究和关注的问题,无论在研究方法还是在研究问题上基本上淡出了研究的序列。
四、实验结果和分析
(一)提取主题概览
本研究对2009-2013年法律因果关系相关的5494篇论文首先进行了总体的主题提取,共获取主题127个,表4给出了流行系数排名前10的主题。由于篇幅关系,本文所有的主题词示例均只列出贡献最大的前几个主题词,在选取的时候,根据具体的代表性,选取了每一个主题下的六个主题词。
从所选取的从流行系数看,排名前十的总流行系数总和为0.395,表示覆盖的总体文章内容接近总数的40%,表明因果关系的主要研究范畴相对集中,从一定程度上说明便于从这些研究范畴当中对法律因果关系进行探究。流行系数降序排列时,降幅逐渐变缓,这表示研究越分散的主题规模相差越小,体现了研究主题的关联性。
表4 流行系数排名前10的主题表
从主题内容来看,流行性较高的主题确实反映了因果关系研究的热点和主要话题。在流行性最高的,流行系数大于0.05的主题中,最高的流行系数为0.113,通过所获取到的“犯罪构成,交通事故,死亡”等主题词,表述了因果关系在行为的客观面认定中的核心意义,这正是部门法学研究的基础问题。次高的流行系数为0.073,具体通过“受害人、当事人、举证责任”等主题词体现了因果关系内涵由单纯的事实判断向事实与规范双重判断的发展趋势,是最近几年各部门法学的发展方向。在流行性系数为0.02至0.05的一般流行主题中,主要描述了社会热点话题,比如医疗纠纷和侵权责任等。在流行性较低的主题中,因果关系的基础理论和范式研究占据了主要地位。从总体上看,热门主题体现了单纯的事实判断已经不能满足复杂的社会现实需要,可以认为,传统的因果关系理论藉由现实完成了自我价值的升华,而归责思想下的因果关系理论方兴未艾、大有可为,因此,本文对主题的提取不仅回应了规范治理范式的需要,而且与理论研究的现状完美融合。根据所获取到的主题的分布,从流行系数的角度说明了基于主题动态模型对法律因果分析的可行性及针对性。
(二)主题流行性分析
对于每一年的研究论文分别进行主题提取,并根据动态主题识别算法匹配相邻时间段的主题,得到的统计结果如表5所示。和表1对比可以发现,主题的数量和该年的发文总数量成正比,在设定差异度阈值ε为0.3时,与下一年可以匹配到的主题占比比较稳定,大约在60%至75%之间,而在Eirc的研究中,取得同样的匹配主题率时差异度阈值ε为0.2。
表5 主题匹配统计表
从表5可以看出,主题数目最多的是2012年,相应的这一年的论文数量也是最多,达到了1390篇,平均16篇文献一个主题。而从下一年主题匹配的数量的角度看,也呈现出了随着论文数量的增长匹配数量逐步增加的态势,最多的58个仍然与论文总数量最多的2012年的年份密切关联在一起。对于连续三年和三年以上得到匹配的主题的流行系数为因变量,以时间为自变量进行一元线性回归,本研究共获取到波动态主题23个,上升态主题17个,下降态主题12个。表6列出了三种状态中系数特征相对明显的前三位主题,主题词是对该主题所有时间段匹配主题的合并和筛选。
表6 主题前三位流行性表
法学是极具实践性的学科之一,与整个社会所关注的内容是密切关联在一起的。法学的实践性体现为理论演绎结果的普遍可接受性。因此,法学理论在特定领域的研究往往呈现出体系性,这一体系又是与社会的热点问题紧密关联在一起的。上升态的主要主题集中于不同的因果关系的具体判断,医患关系、网络舆情和环境治理都是社会关注的热点问题,也是法学因果关系探讨的前沿,充分体现了法学的实践性。从具体上升态的主题上看,医患关系是当前社会最为关注的话题之一,其在社会上的影响之大、波及之广是非常具有代表性的,从上升态所选取的三个主题上看,其所得到的斜率最大,达到了0.82也充分说明了这一主题所被关注的程度。同时,这一主题所获取到的主题词充分说明了其斜率之所以大的原因,比如:患者、医院、非法行医、医患关系等。在上升态这一大的主题中,斜率为0.75的是与互联网相关的子主题,在21世纪对社会各个层面影响最大的莫过于互联网,而在法律因果关系中这一主题也得到了充分的体现,在这一子主题当中所涉及到的主题词“网络实名、网络犯罪、隐私权保护、网络世界”也充分说明了这一点。波动态集中于普通民事行为、故意伤害和过失犯罪,这些尽管是一些老生常谈的问题,但是在风险遍布各个角落的当下,这些话题被赋予了新的生命力,这一点从波动态这一主题当中所涉及到的主题词就可以有所观察,比如“运输合同、信赖原则和监督过失”。从所选取的波动态这一大的主题可以看出,构成这一主题的小的主题之间在斜率的值上上下浮动就非常的大,绝对值相差0.41,这一具体的值也说明了这一类主题的特点。下降态集中于危害结果、经验法则、刑罚基础理论,这些主题对于法学基础研究不可谓不重要,但在国内外法学研究界已基本取得共识,构成了研究基础,处于下降状态也就在意料之中了,从斜率值上也可以看出下降类这一大的主题之间的小主题之间斜率值差距较小。
(三)主题连续性分析
主题连续性可以分为突现主题、稳定主题、转换主题和消亡主题四种。对主题连续性的整体状况进行分析可以看出法律因果关系在研究主题上的整体变化状况,有助于该领域的研究者把握新兴的研究主题、跟踪转换的研究主题、熟知稳定的主题和了解消亡的主题。在概念界定的基础上,根据相应主题词的分布,本研究对这四种主题进行了提取。获取到突现主题134个,稳定主题32个,转换主题52个,消亡主题120个。根据定义,突现主题、转换主题和消亡主题在第一年不存在,消亡主题在最后一年也不存在。基于5494篇学术文献所获取到的主题连续性分布情况可以看出,在法律因果关系的探究上,突现出题和消亡主题的数量最多,一个为134,另一个为120,这从一定角度上说明了所获取到的连续研究主题充分体现了这五年内法律因果关系的研究演化情况,从一定程度说明了该领域的研究是非常活跃的。从主题数量上可以发现,突现主题和消亡主题的数量远高于其他两种,这说明因果关系是一个非常活跃的研究领域,新主题的诞生和旧主题的消亡频繁发生。转换主题的数量为52个,这彰显出法学理论对因果关系研究的趋同性与整合性。稳定主题的数量最少,经过对数据的观察,发现稳定主题主要是流行系数排行前20的主题,这说明在因果关系研究领域,近五年来的主体话题变化不大。表7给出了四个主题中特征最为明显的数据样例。
表7 主题前三位连续性表
四个主题的代表性样例大致符合法学研究的基本规律。法学理论对特定领域的研究与现实社会中出现的案例有关,因此,稳定主题中的医疗、环境、交通领域的因果关系就恒常的成为研究的重中之重,因为这些领域在近五年内受到了持续和广泛的关注,在可预见的将来几个领域的主题研究仍然是稳定的。对于某一特定领域的研究必须以既定的理论体系为主导,在扫清研究对象关联领域之后,再完成对核心问题点的研究,因此,消亡主题中作为法律责任构成要件的行为人、危害结果等等因素逐渐被冷落也是可以被理解的。法学理论对特定范畴的研究一开始无法摆脱哲学思想的控制,在研究深入后,则发展出体现自身学科特色的内容,因此,必然因果关系、偶然因果关系等理论的合并与整合成为因果关系研究过程中不可避免的趋势,转化主题的趋势也正验证了这一点。此外,渎职犯罪因果关系的研究成为突现主题既合理又有些疑问。如所周知,渎职犯罪中的职关联到所有的社会管理领域,故而,出现某一特定领域研究结论与渎职犯罪因果关系的勾连并不令人诧异,然而,现实情况则是多学科领域内的因果关系研究已然与渎职犯罪因果关系密不可分,而且这种研究呈现出建基本学科并超脱本学科进而在宏观上解读渎职因果关系的趋势。这一趋势是否能够成为新的研究范式值得观察。
五、总结和展望
随着静态方法的逐渐成熟,研究学科内知识主题的动态分布和演变范式逐渐吸引了研究者的关注,然而,主题动态模型的理论还没有在多个学科、广泛的学术文献库和复杂多变的知识结构中得到广泛的验证。本文基于Erjia的主题动态模型,搜集了CNKI收录的近五年法学“因果关系”研究相关的5494篇文献并进行了主题提取,对得到的127个主题进行了流行性和连续性动态分析。
从研究方法来看,主题动态模型基本可以适应“因果关系”这类处于快速演进阶段的人文社科研究的动态分析需要,但部分参数和结果仍然值得推敲和深入研究。LDA方法对于主题的提取具有较强的可理解性,主题动态模型对于主题流行性和主题连续性的研究结果也基本符合法学研究者对于学科的一般认知。但也有一部分数据的结果值得推敲,例如,突现主题中的“渎职犯罪”并不能解读渎职因果关系的研究趋势。同时,模型的部分参数也和Erjia的研究略有不同,这是由于不同学科主题性质的影响。
从因果关系的研究内容来看,法学是一门极具实践性的学科,医患关系、网络舆情和环境治理都是社会关注的热点问题,其主题流行性正逐年上升。既定的理论体系的研究逐渐完善,法律责任构成要件的行为人、危害结果等等因素逐渐被冷落,必然因果关系、偶然因果关系等理论的合并与整合成为因果关系研究过程中不可避免的趋势。
在下一步研究过程中,研究者将探索主题动态模型在不同类型的学科中的应用,统计其参数设置和分析效果的经验性因素。同时,通过对不同学科主题动态的变化分析这些学科的研究现状和发展方向,为学科发展提供有益的支持。
[1] 王晓光.科学知识网络的形成与演化(Ⅰ):共词网络方法的提出[J].情报学报,2009,4.
[2] 叶春蕾,冷伏海.基于共词分析的学科主题演化方法改进研究[J].情报理论与实践,2012,3.
[3] 皇甫青红,刘艳华,丁军艳.国际社会网络分析领域作者共被引网络结构研究[J].情报杂志,2013,5.
[4] 王超,吕俊生,吴新年.学术网络研究进展[J].情报杂志,2013,10.
[5] 苑彬成,方曙,刘合艳. 作者共被引分析方法进展研究[J].图书情报工作,2009,22.
[6] Yan, E., Ding, Y., Milojevic, S., & Sugimoto, C. R. Topics in dynamic research communities: An exploratory study for the field of information retrieval. Journal of Informetrics, 2012,6(1):140-153.
[7] ErjiaYan. Research dynamics: Measuring the continuity and popularity of research topics[J].Journal ofInformetrics, 2014(8):98-110.
[8] Radicchi, F., Fortunato, S., Markines, B., &Vespignani, A. Diffusion of scientificcredits and the ranking of scientists[J]. Physical Review E, 2009,80(5),56-64.
[9] Sugimoto, C. R., Li, D., Russell, T. G., Finlay, C., & Ding, Y.The shifting sands of disciplinary development: Analyzing North American Library and Information Science (LIS) dissertations using Latent Dirichlet Allocation (LDA)[J]. Journal of the American Society for Information Science & Technology,2011,62(1):185-204.
[10] Barabási, A. L., Jeong, H.,Neda, Z., Ravasz, E., Schubert, A., &Vicsek, T. Evolution of the social network of scientific collaborations[J]. Physica A: Statistical Mechanics and its Applications, 2002,311(3-4),590-614.
[11] 陈兴良. 从归因到归责:客观归责理论研究[J].法学研究,2006,2.
[12] 肖本山.食品监管渎职罪的若干疑难问题解析[J].法律科学(西北政法大学学报),2012,3.
[13] 徐戈,王厚峰.自然语言处理中主体模型的发展[J].计算机学报,2011,8.
[14] Lee, L. On the effectiveness of the skew divergence for statistical language analysis. Artificial Intelligence and Statistics, 2001,53(2):65-72.
[15] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3:993-1022.
(责任编辑:黄春燕)
Dynamic Analysis of Law Causality Based on Dynamic Topic Model
ZhangRui-xiang1WangDong-bo2
(1.Policy Research Office of Jiangsu Judicial Department, Nanjing Jiangsu 210024;2.College of Information Science and Technology, Nanjing Agricultural University, Nanjing Jiangsu 210095)
Dynamic topic model (DTC) provides new solutions for tracing topic transformation history and predicting research trends. Analyzing the research content of law causality with DTC will verify the availability and generalization performance of the model. Also, the analysis of research content will offer a quantitate view for further subject development. This research implements DTC on 5494 papers published within 2009-2013 related to law causality, and the papers are selected from CNKI. By analyzing the dynamic topic model of 5494 papers published within 2009-2013 related to law causality, the result of the research verifies the availability of DCT on law causality. Meanwhile, and the analysis provides a landscape of subject history. DTC is a new paradigm with less empirical study on different research area and the application in humanistic and social science is lacking. As a result, this paper fails to make comparison with other subjects.DTC is to the point for dynamic analysis on the Chinese social subject under quick development.
dynamic topic model; causality; popularity; continuity
1002—6274(2017)01—155—07
张瑞祥( 1980-),男,山东临沂人,江苏省司法厅研究室研究员,研究方向为法律信息学、司法矫正;王东波(1981-),男,山东菏泽人,信息资源管理博士,南京农业大学信息科学技术学院副教授,研究方向为法律信息学。
DF0-05
A