APP下载

基于网络大数据的不动产统一登记制度实施状况分析

2022-06-07原相杰刘燕萍张富刚

自然资源情报 2022年4期
关键词:词频新浪天涯

王 昊,马 睿,原相杰,肖 攀,刘燕萍,张富刚,高 然

(1.中央财经大学管理科学与工程学院,北京 100081;2.自然资源部不动产登记中心,北京 100034)

不动产登记作为一项重要的法律制度,对明确不动产产权关系,保护不动产权利人的利益,保障不动产交易安全,维护不动产市场秩序具有重要的作用。由于不动产登记事关社会大众的切身利益,2015年3月起正式实施的不动产统一登记制度在社会各界引起了广泛关注。自该制度在全国范围逐步实施,至今已逾6年的发展历程,亟待对其实施状况进行整体、客观的认识与分析,以及时发现制度实施中的问题并提出改进建议。

目前国内学者在不动产登记领域的研究主要围绕制度制定和政策实施两个方面。在制度制定方面,学者一致认为不动产统一登记制度的构建是完善和发展中国特色社会主义制度,推进国家治理体系和治理能力现代化的重要体现[1],但当前还存在法律效力模糊[2]、历史遗留难题繁杂[3]、相关配套制度体系缺乏[1]等问题。在政策实施方面,武琪惠从产权明晰、政府职责完善、不动产人合法财产保护、房地产市场规范等角度分析不动产登记带来的积极影响[4];张德平等基于不动产统一登记制度实施过程中出现的突出问题进行剖析,并提出针对性改进对策[5]。

近年来,随着大数据技术的发展,机器学习的思想被运用到越来越多的学科和行业中,其中文本分析在定量科学研究中得到广泛应用,尤其是在舆情监控与群众引导层面起到显著作用。例如,马续补等基于统计分析法和情感分析法对突发公共卫生事件科研信息报道的网络舆情特征展开实证研究,并据此提出群众预期应对策略[6]。张琛等基于《人民日报》疫情通报的微博评论,对新冠肺炎疫情下的网络舆情演变进行探究[7]。洪巍等对情感词典方法和机器学习方法等文本情感分析方法的相关文献进行评述,并据此指出未来的研究重点和研究方向[8]。钟佳娃等通过对国内外文本情感分析研究成果进行梳理,并从时间、主题等维度详细阐述了文本情感分析的主要模型方法和应用场景[9]。

现有研究鲜有对不动产登记相关文本内容展开定量分析,且制度实施以来未有学者系统性分析其实施状况。基于此,本研究拟基于天涯论坛、新浪微博和北大法宝的网络大数据,运用数据挖掘和文本分析方法,对有关不动产登记的网络文本进行特征词提取及量化分析,挖掘其中隐藏的有价值信息,实现对我国不动产统一登记制度实施状况的客观、定量分析,为不动产统一登记制度的有效落地提出可行性改进建议。

1 数据来源与研究方法

1.1 数据来源

本文文本数据来源于天涯论坛和新浪微博的相关发文以及北大法宝网络数据库的相关案例。其中,天涯论坛和新浪微博文本采用网络数据爬取方法获取,检索词为“不动产登记”;北大法宝文本在其网络数据库中获取,当事人为“不动产登记机构”,案由为“不动产登记纠纷相关事项”。考虑到文本数据的时效性,故将三个平台的文本获取时间均限定为自《不动产登记暂行条例》施行之日至今。

为保证数据的有效性和真实性,需要对获取的全样本数据进行进一步筛选。具体过程为:删除重复的内容;删除题文不符的内容,删除内容过少(10字以内)的内容。天涯论坛共获取符合条件的文本750条,经筛选后得到591条有效文本数据;新浪微博共获取符合条件的文本11383条,经筛选后得到8717条有效文本数据;北大法宝的文本均为有效文本,共计11373条。

1.2 研究方法

本研究基于Python展开,具体过程包括数据清洗和文本分析。

1.2.1 数据清洗

本研究首先利用Python第三方库,对每一条文本数据进行切分,划分为单一词[10]。其次在文本处理过程中,为节省存储空间和提高检索效率,自动去除停用词,主要包括英文字符、数字、数学字符,以及使用频率较高的单汉字。最后删除标点符号和乱码。

1.2.2 文本分析

文本分析是对文本的表示及其特征项的提取,通过对文本中抽取的特征词进行量化来表示文本信息,是文本挖掘和信息检索的重要工具[11-13]。

2 不动产登记中的社会热点及群众感知

2.1 群众关注热点分析

2.1.1 总体情况

图1展示了天涯论坛文本和新浪微博文本Top30高频关键词词云图,两个数据源的热点关键词存在一定差异,原因分析如下:天涯论坛作为早期综合性的虚拟社区和大型网络社交论坛,相关文本多聚焦于不动产登记办理群众的交流互动,频次较高的关键词包括“信息”“机构”“部门”和“平台”,主要集中于不动产登记相关制度信息及主体机构部门(图1a)。新浪微博作为当前最热门的实时信息共享和传播平台,相关文本除群众发文外,还包括各类媒体、政府官微等,覆盖范围更广,频次较高的关键词包括“业务”“证书”“窗口”和“房屋”,侧重于不动产登记办理的具体业务流程及营商环境,多关注于具体的政策落地实施状况(图1b)。

图1 高频关键词词云图

在此基础上,为进一步分析两平台文本数据在“不动产登记”关注点上的关联性,依次筛选出在两平台中均出现的高频关键词,并以天涯论坛中的词频由高到低顺序排列(表1)。

表1 天涯论坛和新浪微博Top15高频关键词

天涯论坛和新浪微博文本数据在“不动产登记”层面上反映出群众的共同关注点主要包括:一是制度体系层面上的广泛关注,既涉及信息的查询,又包括对权证的统一;二是政策落地实施层面上的密切关注,既有不动产登记机构及相关部门的职责整合,又有登记业务的流程规范和具体改革措施。

2.1.2 按省份分析

自《不动产登记暂行条例》颁布以来,全国各地不动产登记相关部门积极响应,但各地囿于资源配置效率的差异,不动产统一登记步伐不一。为更好地分析全国各省份对不动产统一登记制度的宣传力度和发展状况,本文以各省份地名为关键词进行词频分析。词频高不仅反映出不动产登记业务活跃,还能反映出社会公众关注度高。

在天涯论坛文本数据中,华北地区的北京和华东地区的上海词频最高,分别为22和18,领先于其他省(区、市)。我国北方在不动产统一登记制度上活跃度不足,如青海、甘肃、宁夏、内蒙古、吉林和黑龙江的词频均为0。

在新浪微博文本数据中,华北地区的北京、华东地区的江苏、上海词频分列前三位,依次为293、131、122,其中北京的词频远超其他省(区、市),表明北京作为我国的首都,在不动产统一登记制度的实施与推广力度上,走在了全国的前列,起到了良好的示范作用。从整体上来看,词频较高的省(区、市)主要集中在华北地区(北京、天津)和华东地区(江苏、上海、浙江);部分地区在不动产统一登记的发展状况上差异较大,如西南地区的四川词频远高于其同一地区的贵州和西藏;也有个别地区发展均较为落后,词频普遍低于35,如东北地区的黑龙江、吉林、辽宁和西北地区的陕西、甘肃、青海、宁夏、新疆。词频较高的省份大多位于直辖市或沿海经济发展较先进的地区,一方面经济快速发展带动互联网普及率的提高,政府和群众的网上活跃度有所提升,另一方面政府在各项制度的实施与推行上也更高效。

2.1.3 按登记对象和类型分析

文本数据中最关注的不动产登记对象是土地和房屋,二者在天涯论坛中词频分别为121和99,合计占比约75%,在新浪微博中词频分别为911和1031,合计占比约89%,其他登记对象词频较低(图2)。可以看出不动产登记主要集中于土地和房屋两种类型,草原、林地和海域涉及的较少。由于不少媒体和政府官微通过新浪微博宣传最新政策,草原、林地和海域等登记对象的出现次数略高于主要用于群众交流的天涯论坛。

图2 不动产登记对象词频分析

针对《不动产登记暂行条例》提出的8种不动产登记类型,天涯论坛文本合计词频为82,主要集中在5种类型:异议登记、转移登记、变更登记、首次登记和更正登记,并且各类型所占比例较为接近(图3)。新浪微博文本合计词频为727,且各登记类型的词频有明显差异,群众关注的主要登记类型集中在转移登记、首次登记和预告登记,其占比分别为32.60%、18.16%、13.89%,而异议登记和查封登记等登记类型则关注度不高。

图3 不动产登记类型词频分析

2.2 群众情感分析

情感分析依据上述操作获得的词库,通过构建TFIDF模型,将文本信息转化为数字信息。

首先,本文选取天涯论坛和新浪微博的部分文本数据作为后续机器学习的训练集,采取人工判断的方法,具体判断规则如下:①对不动产统一登记制度评价满意的内容,如出现对不动产登记服务表示满意和赞许的字词,判断为积极;②对不动产统一登记制度评价不满的内容,如出现对不动产登记服务表示不满和投诉的字词,判断为消极;③不动产统一登记制度的官方报道与事实陈述的内容,如某地不动产登记落地实施、不动产登记中心营商环境优化举措的实施等,判断为中立。

其次,运用Python随机森林模型将人工添加情感标签的文本数据作为训练集进行机器学习。经过多次参数调试得到最优训练模型,本文的整体准确率达到90%。

最后,运用该模型对天涯论坛和新浪微博文本全样本数据进行情感分析。

天涯论坛文本中积极情绪的文本有350条,占比59.22%;态度中立的文本有155条,占比26.23%;而消极情绪的文本仅有86条,占比14.55%。新浪微博文本中积极情绪的文本有2247条,占比25.78%;态度中立的文本有6090条,占比69.86%;而消极情绪的文本仅有380条,占比4.36%。基于分析结果,两个网络数据源中消极情绪的文本占比均比较低,表明不动产统一登记实施在总体上是比较令人满意的。新浪微博中很多文本从政府角度出发,报道不动产统一登记制度的相关政策及实施情况,因此中立文本较多。

为进一步探究不动产统一登记制度实施以来社会评价舆论的风向变动,本文还基于文本数据发布的时间,按不同年份对其进行分类,旨在分析其时间维度上情感分析结果的变化,具体结果见图4(注:鉴于天涯论坛文本数据量较小,不适宜作年情感变化趋势分析,这里仅选取新浪微博文本数据进行分析)。

图4 新浪微博文本数据年情感变化趋势分析

新浪微博文本数据中积极的比例从2015年政策出台时的23.99%逐渐上升至2017年的26.27%,此后两年有所下降,但在2020年又上升至极值27.83%;中立的文本百分比自政策出台以来一直占比较高,2015—2017年均超过70%,此后两年虽有所下降,但仍接近70%,在2020年下降至最低值,为66.75%;消极的文本百分比自政策出台以来一直占比极低,波动范围在3%~6%之间,2017年为最低值,仅占比3.24%,2020年上升至最高值为5.41%(图4)。

3 不动产登记中的法院诉讼案件

伴随不动产统一登记制度的逐步落地实施,不动产登记纠纷时有发生,为揭示其发生的规律和特点,本文基于北大法宝数据库,从案件类型、省份、年份、审级法院和审判程序、当事人和第三人、案由等方面进行分析。

3.1 按案件类型分析

不动产统一登记制度实施以来,以“不动产登记机构”为当事人或第三人的案件中,行政案件占绝大多数,而民事案件只占小部分。理论界对不动产登记纠纷究竟应属民事法律关系还是行政法律关系,一直莫衷一是。从司法实践角度看,绝大多数不动产登记诉讼案件适用司法审判程序解决。在北大法宝数据库中搜索到的11373件案例中,行政案件为10990件,民事案件仅为383件。

3.2 按省份分析

各省份和地区不动产登记相关诉讼案件数量参差不齐,反映出各地不动产登记在司法实践中存在一定差异(图5)。其中,湖北省以1790件居首,青海(16件)、西藏(11件)和宁夏(6件)等西部省份最少。从地区层面来看,华东和华中地区案件数量较多,分别为3350件和2730件,合计占比超过半数,西北和华北地区案件数量最少。

图5 各地区案件数量占比

3.3 按年份分析

自不动产统一登记制度开始实施到2018年,不动产登记诉讼案件数量逐年递增,其中2016—2017年增幅显著,2018年达到峰值;随后开始下降,2020年受新冠肺炎疫情影响,降幅尤为明显(图6)。这反映出在不动产统一登记制度实施初期,相关制度流程尚未成熟,登记过程中产生的纠纷较多,导致相关纠纷逐年递增。而后,随着不动产统一登记制度的不断完善,登记过程中产生的纠纷逐年减少。

图6 年度案件数量

3.4 按案件审级法院和审判程序分析

各审级法院纠纷案件总数为12437件,其中63.57%的不动产登记诉讼案件由基层法院审理,25.46%由中级人民法院审理,高级人民法院和最高人民法院审理的很少,约90%的不动产登记诉讼案件在中级人民法院及以下化解(图7)。各审判程序纠纷案件总数为11733件,其中67.53%的案件一审即可完成,24.52%的案件二审即可完成,仅有4.36%的案件需再审(图8)。由此可见,不动产登记诉讼案件难度不大、复杂程度不强、涉及范围较小,大部分案件能在一审、二审解决,并且集中于本地法院。

图7 各审级法院纠纷案件数量

图8 各审判程序纠纷案件数量

3.5 按案件当事人和第三人分析

在一审程序中,不动产登记机构作为被告的诉讼案件占比高达80.59%,而在二审、再审程序中,不动产登记机构的角色相对更多地转换为上诉人和再审申请人,即不动产登记机构对上一审判结果不满意,进而提起二审或再审(图9)。

图9 不动产登记机构作为当事人和第三人的诉讼案件占比

3.6 不动产登记机构败诉的原因

经过对不动产登记机构作为被告的行政案件裁判文书进行大数据词频分析,从行政是否作为和行政行为是否规范两方面识别出不动产登记机构败诉的五类主要原因。第一类为不予/拒绝受理(45.32%)、不予登记(16.96%)、行政不作为(12.88%)等问题,占比最大,超过75%。第二类为登记错误(14.39%)问题,占比次之。第三类败诉原因包括滥用职权(6.30%)、玩忽职守(1.90%)、擅自修改(0.22%)等,合计占比8.42%。第四类为伪造、变造不动产权证书,第五类为泄露不动产登记资料以及查询不动产登记资料中的问题,占比均较小(表2)。

表2 不动产登记机构败诉的主要原因

4 总结与展望

本文基于天涯论坛和新浪微博中的社交媒体大数据,以及北大法宝网络数据库中有关不动产登记的裁判文书数据,运用数据挖掘与文本分析方法,探究不动产统一登记制度的实施状况、特征及问题。对社交媒体数据分析发现:①群众对不动产统一登记制度的关注点有所侧重,主要集中于与自身权益相关的内容;②不同省份不动产登记事业发展差异显著,具体表现为经济发达地区在制度的实施、推广和创新力度上更为领先;③群众对不动产统一登记总体持积极或中立的情感态度,满意度较高。对法律裁判文书数据分析发现:①不动产登记诉讼以行政案件为主,超过半数发生在华东和华中地区;②一审案件中被告人多为不动产登记机构,不动产登记机构败诉的原因主要包括不予/拒绝受理、不予登记以及登记错误。基于此,为改善不动产统一登记制度的实施,提出以下建议。

首先,对群众关注的不动产登记相关热点问题,不动产登记机构应充分利用官方媒体有针对性地开展多渠道宣传,对不动产登记信息及其查询、不动产统一登记机构部门改革及其职责整合、不动产登记对象及登记类型、不动产登记权利人权益保障与维护等相关政策进行详细解读,并注意正确引导网络社交媒体的舆论导向,避免负面舆情事件。

其次,由省份词频和各省案件情况分析结果可知,我国不动产统一登记事业在各地域呈现出不均衡发展态势,不同地域间的不动产登记活跃度和诉讼案件数量均存在较大差异。因此,国家应加大对中西部地区省市不动产登记机构的资源投入和指导力度,可通过“定点帮扶”等方式加强其与东南沿海地区省市的交流合作,助力全国不动产登记管理与服务的标准化、均衡化发展。此外,华东和华中地区更应关注诉讼案件产生的主要原因,尽量降低案件发生数量。

最后,由北大法宝网络数据分析结果可知,与不动产登记相关的诉讼案件多源于不予受理、登记错误等原因,这表明不动产登记机构在登记工作中仍存在不当行为及纰漏,造成不动产权利人权益受损。因此,针对容易引起纠纷的事由,各地不动产登记机构应进一步加强工作规范,改善服务质量。

猜你喜欢

词频新浪天涯
撑一竹伞走天涯
猴子虽小
基于词频比的改进Jaccard系数文本相似度计算
词汇习得中的词频效应研究
新浪读书排行榜
词频,一部隐秘的历史
执笔为马,行走天涯
天涯归旅
汉语音节累积词频对同音字听觉词汇表征的激活作用*
虹猫仗剑走天涯(第2集)