APP下载

南京百年人物数据集

2020-11-16郭畅胡迪杜晓晗李岱蔚杨逸尘程星华

关键词:南京江苏省数据库

郭畅,胡迪,2,3*,杜晓晗,李岱蔚,杨逸尘,程星华,4

1.南京师范大学地理科学学院,南京 210023

2.江苏省地理信息资源开发与利用协同创新中心,南京 210023

3.南京师范大学虚拟地理环境教育部重点实验室,南京 210023

4.香港理工大学土地测量与地理资讯学系,香港 999077

数据库(集)基本信息简介

数据库(集)名称 南京百年人物数据集数据作者 郭畅,胡迪,杜晓晗,李岱蔚,杨逸尘,程星华数据通信作者 胡迪(hud316@gmail.com)数据时间范围 1912-2020年地理区域 中国江苏省南京市数据量 136条,136个数据格式 *.xlsx,XML数据服务系统网址 http://www.sciencedb.cn/dataSet/handle/937基金项目 国家自然科学基金(41771421、41601421);江苏高校品牌专业建设工程资助项目。数据库(集)组成数据集由136位南京杰出历史人物的信息数据组成,包括通用名称、别名、出生时间、出生地点、逝世时间、逝世地点、人物经历、人物关系等数据项。Excel格式文档供普通用户使用,XML格式文档供专业用户使用。

引 言

古往今来,历史人物一直是历史研究者们关注和研究的重要对象[1]。研究历史人物有助于再现历史舞台,对历史进行再诠释,从而达到鉴古、察今、知来的目的。历史人物的活动受客观社会环境制约,因此,历史人物的生平经历不单是个人的历史,而是包含了一定时空范围内的社会政治和文化背景的大历史[2]。历史人物的数据通常收录于书籍报刊等纸质资料中,零散且更新速度缓慢,难以有效地进行相关深入研究[3]。随着科技的发展,人物数据库应运而生,它对在某一方面乃至多个方面对人类社会做出特殊贡献的典型人物的相关信息进行集中的数字化管理[4]。建立人物数据集能够以人物为中心整合相关信息,不仅能够借助其更新周期短等特点满足更加深入的历史人物研究的需求,进而构建能够反映历史进程的历史信息数据库。

目前的人物数据库根据研究对象的不同可以分为两类:单一人物数据库和群体人物数据库。单一人物数据库从多种信息来源采集研究对象的所有相关资料[5],并对其进行合理罗列。数据格式涵盖文本、图片、音频、视频、网页、地图等多种形式[6-7]。其中较为典型的是蒋介石资料数据库,该数据库收录的资料相当丰富,涵盖了研究对象一生的各个方面(如生平事迹、思想言论和文史著述等)[8]。群体人物数据库是以一定的时间或空间为范围,选取具有某类特征的人物作为研究对象形成的数据库。国外具有代表性的这类数据库是英格兰圣公会神职人员数据库和 ASP世界历史人物索引库。前者收录了研究对象的任职时间、职务详情等信息,后者记录了世界历史事件所发生的第一个人物的信息,包括个人信函、日记、口述历史等[9]。国内应用较多的有中国历史人物传记数据库(China Biographic Database,CBDB),其中包含人名、生卒年等数据项[10-11]。CBDB分为线上和Access两种查询系统,它提供多个相互关联的表格,可以将人物信息整理出来,以便学者进行批量分析[12]。另一个著名的人物数据库为湖南近代人物资源库,它包含了高级的检索功能,可以让用户在使用时根据自己的特殊研究需求获取相应的信息[13-14]。

南京钟灵毓秀,是著名的文化古都,有着重要的历史地位。自1927年被设为中华民国首都开始,南京市在近百年来飞速发展。在这段历史时期内,政治、教育、科技、文学和艺术等各方面都涌现出了一批杰出的人才,他们为南京的发展做出了重要的贡献,是南京城市史不可或缺的基本构成要素,反应了南京的历史及其特色。建立南京地方人物数据集不仅能够为南京历史人物的进一步研究提供帮助,更能进一步完善中国人物数据库,为历史文化传承做出贡献。因此,本文以1912-2012年南京杰出历史人物为研究对象,查阅并收集有关书籍史志,将所有历史人物资料电子化为 Excel表格和XML两种格式的数据集,为进行更深层次的历史人物分析、人物关系和生平地图可视化研究提供基础。

1 数据采集和处理方法

1.1 数据来源

本数据集的主要数据来源是《民国南京学术人物传》[15]《中华民国史·人物传》[16]和《南京简志》[17]等史料书籍,这些书籍从多个角度展现了百年来南京城市建设、经济发展、社会转型、文化繁荣的历史进程,并收录了这期间有着突出贡献或模范事例的南京名人。

这些书籍以文字描述的形式,详细记录了南京百年历史名人生平事迹(图1)。对此进一步研究和归纳后可知,其历史人物信息组成包括:人物姓名、人物类别、曾用名、字、号、籍贯、出生日期、逝世日期、出生地点;入学时间、入学地点、入读专业、所学成果;居住地点、入住时间;历史事件名称、历史事件内容、历史事件发生地点;工作名称、入职时间、所属单位、工作地点;相关人物、结识时间、结识地点、人物关系;文学作品、建筑成果、艺术作品、政治成就、赛事成就、宗教活动、医学成果、科技成果、教育成果、军事活动以及各类成果和成就发生的时间和影响。

图1 《民国南京学术人物传》

1.2 数据特征分析

本数据集收录的信息主要反映人物自身信息。学者普遍认为,每个人都具有生物属性、社会属性和精神属性,这些属性与时空交织在一起,衍生出一系列的人物信息。对此,本文可以将其分为特征信息、时间信息和空间信息(表1)。

表1 人物信息类型与内容

(1)特征信息

特征属性是人物最重要的属性,它是人物本身所特有的、将其与其他人物区别开的属性,包括姓名、别名、人物类型、性别、民族、特征标签、人物关系等。

(2)时间信息

在一维的、单向的时间轴上,历史人物信息通过离散的时间点来记录人物数据的变化,包括属性范围的变化、历史事件的发展和实体的消亡等。

除去特征信息,剩余的人物信息几乎都具有时间特征,如出生时间、逝世时间、历史事件发生时间等,这些历史人物信息内容以时间为轴,展示了不同的历史人物一生的发展过程。

(3)空间信息

基础历史地理的数据可抽象为三种基本的图形要素,即点、线、面三种基本空间图形。由于历史人物信息的侧重点不同,并且存在空间信息丰富度不足的问题,因此空间中只需要表达历史人物信息的点的几何图形。

历史人物信息中具有空间特征的信息包括籍贯、出生地点、学校地点、工作地点、居住地点、历史事件发生地点和相关人物结识地点,此外还包括由这些信息而衍生的活动地点的坐标信息和所属的行政区划(都以现存的空间信息为准)。

其中较为特殊的是经历属性,它同时具有时间信息和空间信息,属于多重属性,需要通过地点、时间、事件等多个对象来表示[18]。

1.3 数据采集与处理

本数据集属于南京地方人物数据集,所收录的人物在国家建设、科研、文史、教育、艺术或宗教领域有所成就,且需满足以下两个条件中任意一条:第一,人物的出生地为南京;第二,人物在南京历史上有着突出贡献留下史迹。在中国社会中,人们对籍贯有着强烈认同,采用籍贯作为人物收录标准强调了血缘、地缘性[19]。以活动和影响点作为人物收录标准则强调了社会性,不管人物来自何方,一律以是否在南京产生过作用、具有影响作为标准。两种收录方法相结合,对人物的选择更有包容性,提供的信息更完整。南京人才荟萃,由于人力物力所限,本数据集目前仅收录具代表性、能体现近百年来南京城市发展的136位历史人物,现将这些人物按出生时间先后的顺序罗列如下(表2)。

表2 南京百年人物

序号 姓名 生卒时间 出生地点 序号 姓名 生卒时间 出生地点20 柳诒徵 1880—1956 江苏省镇江市 88 曾养甫 1898—1969 广东省平远县21 郭秉文 1880—1969 江苏省南京市 89 魏学仁 1899—1987 江苏省南京市22 张简斋 1880—1950 江苏省南京市 90 翁文灏 1899—1971 浙江省宁波市23 鲁迅 1881—1936 浙江省绍兴市 91 方东美 1899—1977 安徽省桐城市24 赵声 1881—1911 江苏省镇江市 92 刘国钧 1899—1980 江苏省南京市25 范鸿仙 1882—1914 安徽省合肥市 93 钱松岩 1899—1985 江苏省宜兴市26 王荷波 1882—1927 福建省福州市 94 张大千 1899—1983 四川省内江市27 范旭东 1883—1945 湖南省湘阴县 95 童隽 1900—1983 辽宁省沈阳市28 梁希 1883—1958 浙江省湖州市 96 陈恭禄 1900—1966 江苏省镇江市29 高一涵 1884—1968 安徽省六安市 97 柯象峰 1900—1983 安徽省贵池县30 吴梅 1884—1939 江苏省苏州市 98 杨廷宝 1901—1982 河南省南阳市31 马超俊 1886—1977 广东省台山市 99 戴安邦 1901—1999 江苏省镇江市32 秉志 1886—1965 河南省开封市 100 严济慈 1901—1996 浙江省东阳市33 黄侃 1886—1935 四川省成都市 101 唐圭璋 1901—1990 江苏省南京市34 吕凤子 1886—1959 江苏省丹阳市 102 高济宇 1902—2000 河南省舞阳县35 叶楚伧 1887—1946 江苏省苏州市 103 顾毓琇 1902—2002 江苏省无锡市36 丁文江 1887—1936 江苏省泰兴市 104 李方训 1902—1962 江苏省仪征市37 金毓黻 1887—1962 辽宁省灯塔市 105 钱凤章 1902—1968 上海市青浦县38 汪辟疆 1887—1966 江西省彭泽县 106 张钰哲 1902—1986 福建省闽侯县39 戴修瓒 1887—1957 湖南省常德市 107 商承祚 1902—1991 广东省番禺县40 陈中凡 1888—1982 江苏省盐城市 108 刘少猷 1902—1930 云南省彝良县41 胡小石 1888—1962 江苏省南京市 109 文化震 1902—1927 贵州省贵阳市42 李四光 1889—1971 湖北省黄冈市 110 韩儒林 1903—1983 河南省舞阳县43 周鲠生 1889—1971 湖南省长沙市 111 张福永 1903—1961 江苏省南京市44 刘纪文 1890—1957 广东省东莞市 112 夏雨初 1903—1930 安徽省郎溪县45 侯德榜 1890—1974 福建省闽侯县 113 巴金 1904—2005 四川省成都市46 竺可桢 1890—1974 浙江省绍兴市 114 傅抱石 1904—1965 江西省南昌市47 梅光迪 1890—1945 安徽省宣城市 115 黄瑞生 1904—1930 安徽省六安市48 骆谨春 1890—1970 江苏省南京市 116 史砚芬 1904—1928 江苏省宜兴市49 太虚 1890—1947 浙江省崇德县 117 王绳祖 1905—1990 江苏省高邮市50 陶行知 1891—1946 安徽省歙县 118 李耘生 1905—1932 山东省广饶县51 胡适 1891—1962 安徽省绩溪市 119 张仲梁 1905—1971 江苏省南京市52 萧山令 1892—1937 湖南省益阳市 120 孟士衡 1906—1949 吉林省珲春县53 胡刚复 1892—1966 江苏省无锡市 121 朱偰 1907—1968 浙江省海盐县54 陈鹤琴 1892—1982 浙江省上虞市 122 陈邦杰 1907—1970 江苏省镇江市55 孙本文 1892—1979 江苏省苏州市 123 徐克勤 1907—2002 安徽省巢县

序号 姓名 生卒时间 出生地点 序号 姓名 生卒时间 出生地点56 吉干臣 1892—1976 江苏省南京市 124 李济平 1908—1930 江苏省江阴市57 熊庆来 1893—1969 云南省弥勒市 125 曾昭燏 1909—1964 湖南省湘乡县58 汤用彤 1893—1964 甘肃省渭源县 126 顾衡 1909—1934 江苏省无锡市59 陈裕光 1893—1989 江苏省南京市 127 王慰曾 1909—1966 江苏省泰州市60 吴贻芳 1893—1985 湖北省武昌市 128 戴文赛 1911—1979 福建省漳州市61 杨杏佛 1893—1933 江西省上饶市 129 王可风 1911—1975 安徽省萧县62 吕彦直 1894—1929 天津市 130 陈祖荫 1911—1958 江苏省南京市63 胡先骕 1894—1968 江西省南昌市 131 徐步 1913—1967 浙江省宁波市64 吴宓 1894—1978 陕西省泾阳县 132 李士海 1918—1967 安徽省怀远县65 谢文锦 1894—1927 浙江省温州市 133 赵江 1919—1981 江苏省常州市66 张恨水 1895—1967 江西省上饶市 134 竺水招 1921—1968 浙江省嵊县67 徐悲鸿 1895—1953 江苏省宜兴市 135 杨太平 1947—1983 重庆市68 俞剑华 1895—1979 山东省济南市 136 赵继贵 1955—1979 江苏省南京市

本数据集采用人工电子化录入的方法进行数据采集。同时通过对人物传记、南京大学校史、南京师范大学校史、河海大学校史等资料的查阅,对缺失信息进行了补充和完善,不可考信息以“无数据”表示。

本数据集包含通用名称、别名、类型、出生时间、出生地点、逝世时间、逝世地点、特征标签、主要经历等数据项。

本数据集根据历史人物的国籍、职位、涉略领域、主要贡献或成就将其分为10类,具体人物类型与数量如表3所示。

表3 南京百年人物类型与数量

每个人物都有唯一对应的人物编码,即标识符,其命名格式为6位字母加6位数字。6位字母RWNJBN中前2位表示本数据集为人物数据集,后4位取自“南京百年”4个字的拼音首字母。6位数字则表示人物序号,人物按类分编,10个类别按照起首拼音的顺序排列先后,各类别中均以各人姓氏起首拼音的顺序来排列先后。

在 Excel格式的数据集中,主要经历数据项指该历史人物主导或参与的、发生于南京或对南京产生较大影响的事件。而经历数据包含地点、时间和事件等多重时空属性,故在XML文件中采用时态点作为数据单位进行表达。本数据集对人物所参与的历史事件进行了命名,其通用名称为该历史事件最常用的名称,一般以动宾结构短语高度概括事件内容。该信息主要可用于人物生平地图绘制。

特征标签为描述历史人物主要特征的简短文字,提取自史料书籍中各个历史人物的章节标题和人物综述中的评价。

除上述数据项外,XML格式的数据集还包含了人物关系数据项。根据历史人物与关联对象有无婚姻或血缘关系,人物关系可分为亲属关系和社会关系。亲属关系可进一步分为父-子、母-子、夫-妻等,社会关系可进一步分为同事、师生、朋友等,具体类型如表4所示。该信息主要可用于人物关系图谱生成。需要特别说明的是,父-子、兄-弟等血缘关系一般不会随着时间的推移而变化,因此,在XML文件中将这类人物关系的结束时间设置为“永远”,用“9999”进行指代。

表4 人物关系类型

2 数据样本描述

本数据集采用Excel电子表格和XML文件两种数据存储载体。其中Excel电子表格对人物信息进行了合理罗列,可供普通用户进行简单的查询和统计分析。而XML文件不仅易于在任何应用程序中读写数据,便于进行数据交换,而且能够更好地表达人物相关的时空信息、人物关系以及多属性和层次嵌套关系,可支撑进一步的空间分析和可视化研究,因而供专业用户使用。

数据样本展示包括Excel与XML两种格式,如图2和图3所示。

图2 南京百年人物数据集(Excel格式)

图3 南京百年人物数据集(XML格式)

3 数据质量控制和评估

本数据集的数据质量依赖于现有书籍资料记录的完整性和准确性。《民国南京学术人物传》由历史学家张宪文教授编写,《中华民国史·人物传》由中国社会科学院近代史研究所主持编纂,《南京简志》由南京市地方志编纂委员会办公室编著,数据的可信度较高。由于本数据集中所涉及的时间跨度较长,出现了行政区划调整导致的古今地名不统一的现象,因此在数据处理的过程中对县市名进行了修正,一律以现今地名为准。此外,对书籍资料中的部分错误(如人物年龄错误等)进行了勘误。数据录入的完整性和准确性经多次人工检查,确认无误。

4 数据使用方法和建议

本数据集收录了136条南京杰出历史人物数据,可为了解近现代南京杰出人物数据提供一手资料。随着历史人物和地方文化研究的进一步深入,用户不仅可以据此进行综合统计分析,还可以设计特征查询,制作人物关系图和人物生平地图进行可视化表达与研究。

特征查询可通过姓名、别名等人物特征实现对历史人物详细信息的查询(图4)。

图4 南京百年人物数据集查询示意

人物关系图对历史人物的社会关系和亲属关系进行了可视化展示,通过时间轴的控制展现空间对象在某一特定时期内的人物关系,随着时间的改变,可能会出现新增的或发生变更的人物关系。此外,还可以根据关系远近生成关系图谱(图5)。

图5 人物关系图

历史人物生平地图将大量存在于文字中的信息进行可视化表达,以有形的地图语言展现人物生平,能够有效地更加深刻生动地表达历史,同时对历史研究也具有重要作用和意义(图6)。用户可综合多方面的信息来源,进行数据融合、同化和挖掘后提取最有价值的数据信息。

图6 吴贻芳生平地图

猜你喜欢

南京江苏省数据库
“南京不会忘记”
江苏省常州市第一中学
南京大闯关
数据库
抽丝剥茧 层层递进
数据库
数据库
南京:诚实书店开张
数据库
南京、南京