医疗大数据的疾病与人口特征分析
2018-02-03黄静煜
黄静煜
摘要:以北方某县的门诊大数据为依据,运用专业的统计软件统计患者的基本情况,交叉分析年龄、性别、各类疾病的分布情况,准确把握该区域人口患病的特征,利于更有针对性地选择健康教育方式,推送全方位的健康教育信息。
关键词:大数据;疾病;人口特征
中图分类号:TP3 文献标识码:A 文章编号:1009-3044(2018)02-0264-02
Analysis of Disease and Demographic Characteristics of Medical Big Data
HUANG Jing-yu
(College of Software, Jilin University, Changchun 130000,China)
Abstract: Based on the outpatient big data of some county in the north, using the professional statistical software, the basic situation of the patients and cross analysis among age, diseases, and gender are analyzed, which accurately grasp the characteristics of the population sick of the region and it is helpful to choose more targeted health education mode and push comprehensive health education information.
Key words:big data; disease; demographics
目前,大数据已经成为国内外研究的焦点[1]。大数据时代,人们正在以“分析全样本、接收非精确”的新思维探索世界[2]。伴随国民经济与科学技术的迅猛发展,我国医疗领域也迎来大数据的发展时代。不管是开展医疗工作,还是医学研究,都面临着处理数据的需求[3]。因此,在大数据背景下进行医疗数据统计及开发是非常重要的[4]。就中医而言,在中医基础的大数据里,从数据流通的各个环节之中建立中医基础大数据系统框架,通过对数据的挖掘和处理,发现中医基础的学术规律[5]。
本文利用北方某县22家卫生院、卫生所、社区卫生站、社区卫生服务中心等各门诊数据,通过专业统计软件分析患者症状与年龄、性別等人口特征的分布情况。
1 门诊大数据分析方法
北方某县的门诊数据是基于2016年1月6日至2017年2月25日期间的大数据,数据总数为65535个。针对要分析的性别、年龄、疾病等变量,对其类别分别进行赋值并统计。其中男性为1,女性为2;患者的年龄以9为等距分为10组,分别赋值为1-10;关于门诊患者疾病的数据包括疾病的具体名称和诊断疾病ICD,但是各医疗机构在录入诊断名称时对疾病名称的描述不同,例如同时存在“高血压”和“高血压病”两种相同的疾病名称,因此根据国际疾病分类标准ICD-10查询系统,通过ICD序号的关联性统计各类疾病的发生频数。
2 大数据的疾病与人口特征分析
根据门诊人数统计,其中男性患者为31274人,占到总人数的47.72%,女性患者为34261人,占比为52.28%。相比较女性患者较多一些。各年龄组诊断的人数,如图1所示。
从图1可以看出,在这一年左右的时间里,各年龄组门诊总人数为65459人,患者年龄在40-69岁之间的人数最多,占到总人数的63.84%。这也说明,当年龄在40岁及以上时,人的身体各项机能都在逐渐呈现“下坡”的状态,各种身体不适均会出现,因此前来门诊看病的人数较多。年龄在90-99岁的人数只有81人;0-9岁、10-19岁、70-79岁年龄组的诊断人数也相对较少。
通过疾病ICD序号关联性,统计得到诊断名称频率位于前十名的疾病名称,表明此区域人口的常发疾病;与患者的性别和年龄组进行交叉分析,分布情况如表1所示。
从表1可以看出,所有疾病在30-69岁之间的发生频数近年来均呈上升趋势,男性、女性发生各类疾病的频率大致相等。0-69岁之间男性、女性患者患心脏病、头痛、糖尿病、高血压病的概率随年龄增加而增加。排名第一的为呼吸系统疾病,0-9岁间的儿童为易感染人群,且男孩发生频率较高,为本年龄组发病频数最高的疾病,占到此年龄组总人数的32.43%;在30-69岁之间,发病频率存在上升趋势,意味着30岁之后,随着年龄的增长,人们对相关呼吸系统疾病的抵抗力逐渐下降;进一步的统计显示,呼吸系统疾病中上呼吸道疾病的发生频率最高,占到46.78%,并且是所有疾病中发生频数最高的疾病。循环系统疾病以11027人的发生频数位于第二,40-79岁之间女性发病的频率要高于男性;此类疾病中缺铁性心脏病、脑血管病和高血压病发生的频数较高。
此区域诊断疾病中,第三大、第四大疾病各年龄组男、女分别以头痛、胃炎发生的频率最高,分别为32.8%、42.43%,且在10-19岁年龄组内青少年患病的比例相对其他疾病较高。
糖尿病属于内分泌、营养和代谢类疾病,男、女患者人数在40-69岁之间频数急剧增加,且在50-69岁间达到发病最高峰。由于损伤和其他外因造成的身体疾病,各年龄段男性发生的频率均高于女性。
3 结论
医疗领域的大数据迫切需要专业的挖掘和分析。本文以北方某县的门诊数据为依据,统计分析该区域人口常发疾病,以及不同年龄组,不同性别患者疾病的特点。通过分析以上各类的分布情况,有利于针对性地选择健康教育的方式,推送个性化的健康教育信息,以便为潜在患者提供更好的服务。
参考文献:
[1] 梁爽. 大数据,大变革[J]. 未来与发展,2014(11):7-9.
[2] 贺威,刘伟榕. 大数据时代的科研革新[J]. 未来与发展,2014(2):2-5.
[3] 杨学. 医疗大数据时代对医院统计工作的思考[J]. 经营管理者,2017(133):440.
[4] 晏资湘. 大数据背景下医疗数据的统计及开发[J]. 电脑知识与技术,2017:13-14.
[5] 李正熙,孙毅,李小辉. 中医基础中应用大数据技术的实践研究[J]. 电子技术与软件工程,2017:186.endprint