疫情中的大数据技术短板
2020-05-14中国信息通信研究院
中国信息通信研究院
2020年开年之际,新型冠状病毒带来的肺炎疫情汹涌而至。疫情突发性高、传染性强、扩散性广、风险性大,防控工作任务艰巨、时间紧迫、形势严峻。在这场疫情阻击战中,大数据、云计算、人工智能等快速发展的新一代信息通信技术加速与交通、医疗、教育等领域深度融合,让疫情防控的组织和执行更加高效,成为战“疫”的强有力武器。可以看出,随着疫情发展,数据驱动的疫情防控在迅速展开,各企业的疫情防控应用场景不断涌现,应用范围持续拓展。
虽然大数据和智能技术在疫情防控过程中可以发挥重大作用,但从此次疫情应对情况来看,特别是基于互联网企业在数据驱动的疫情防控过程中发挥的作用来看,仍有很大空间值得挖掘和提升。
数据来源有限,采集手段落后
从各互联网企业的案例中不难看出,大部分企业在疫情防控中的数据基本来源于政府公开数据,而目前政府公开的数据维度不够丰富,难以满足公众需求。
在大数据时代,公众的信息需求发生了变化,面对疫情,公众关注的重点不仅仅是防控工作动态、自我防护知识、相关政策文件等信息,同时更加关注一些具体的、量化的疫情相关数据。
例如,公众既希望获知一个地方总体概况的统计数据(各个省市或区县每天累计有多少疑似、确诊、危重、出院或死亡病例?每天又新增或减少了多少?疑似病例中有多少人被排除了?密切接触者中又有多少人被解除了观察?),也希望获知相关病人个体的数据(这些病人分别从哪里来?去过哪里?哪天发病?在哪家医院就诊?有什么病症?目前情况如何?)。根据目前政府公开的信息和企业案例中提供的数据,绝大部分地区都还难以满足这些需求。
此外,一些政府部门和基层组织在采集疫情相关数据时仍然采用手工作坊式的人海战术,通常采用手工填表、電话问询等方式,这既给基层工作人员增加负担,也无法保证数据的真实性。例如,在采集患者个人信息时,由于没有区分所留手机号是病患的还是病患家属的,可能导致运营商系统核验存在大量身份号与手机号不一致的结果,给后续数据分析的准确性和真实性造成困难。
数据缺乏治理,数据质量堪忧
从疫情分析的数据来看,目前公开渠道获取的数据不规范,数据口径、数据统计时间等维度不统一,为分析带来很大困难。数据源混杂重复、数据质量不高的情况十分普遍,数据可信性有待提升。
疫情防控分析过程中,每时每刻都在产生大量的数据。一个疏忽错登的身份号、一条记录不详的家庭住址、一次出行信息的瞒报、一例本人未知的密切接触,都可能成为触发新疫情的导火索。对大数据的预处理阶段的不重视,数据处理的不规范,很可能导致真实数据获取难度的增加。从现有数据上报形式和数据上报的质量来看,数据上报过程中还存在很多不规范、不合理的情况。
以上种种原因,导致数据的可用性差、质量差、不准确。防控分析大数据的意义不仅仅是要收集规模庞大的数据信息,还要对收集到的数据进行很好地预处理,让数据分析和数据挖掘人员从可用性高的大数据中提取有价值的信息,这才是最终目标。
隐私保护不足,存在合规风险
随着新冠肺炎疫情防控形势不断升级,各地纷纷采取多样的宣传预防方式,其中,排查上报重点地区返乡人员和确诊患者信息,是一项十分重要的举措,能够帮助卫生监督机构及时掌握情况,迅速切断传播。虽然有关部门第一时间制作了隐去个人隐私信息的确诊患者相同行程查询工具,但在原始数据上报过程中,数据还是遭到不同程度的泄露。不久前有许多载有个人信息的文件,突然间在微信、微博等社交平台上疯狂转发,内容包括相关人员的姓名、照片、工作单位、就读学校、家庭住址、手机号码及身份号等,给返乡人员及确诊患者的生活带来极大困扰,不少人接到骚扰电话和谩骂短信,暴露出个人数据保护的不足。
《中华人民共和国民法总则》第一百一十条、第一百一十一条规定:公民享有隐私权,个人信息受法律保护,任何组织和个人不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息。《中华人民共和国传染病防治法》第十二条也有相关规定,疾病预防控制机构、医疗机构不得泄露涉及个人隐私的有关信息、资料。
在疫情防控的特殊时期,公众知情权、公共安全与公民隐私权需要兼顾平衡。基于疫情防控这一公共利益的切实需要,可以对特殊人群的特定信息进行披露,但应当遵循合规原则,公开内容应确实必要,符合疫情防控目的,公开手段应合理适当,尽可能将负面影响降到最低。
为做好新冠肺炎疫情联防联控中的个人信息保护,积极利用包括个人信息在内的大数据支撑联防联控工作,中央网络安全和信息化委员会办公室在2020年2月4日发布《关于做好个人信息保护利用大数据支撑联防联控工作的通知》,明确为疫情防控、疾病防治收集的个人信息,不得用于其他用途。任何单位和个人未经被收集者同意,不得公开姓名、年龄、身份号码等个人信息。
通知要求,各地区各部门要高度重视个人信息保护工作,除国务院卫生健康部门依据《中华人民共和国网络安全法》《中华人民共和国传染病防治法》《突发公共卫生事件应急条例》授权的机构外,其他任何单位和个人不得以疫情防控、疾病防治为由,未经被收集者同意收集使用个人信息。法律、行政法规另有规定的,按其规定执行。
通知还要求,收集必需的个人信息应参照国家标准的个人信息安全规范,坚持最小范围原则,收集对象原则上限于确诊者、疑似者、密切接触者等重点人群,一般不针对特定地区的所有人群,防止形成对特定地域人群的事实上歧视。
通知明确,为疫情防控、疾病防治收集的个人信息,不得用于其他用途。任何单位和个人未经被收集者同意,不得公开姓名、年龄、身份号码、电话号码、家庭住址等个人信息,因联防联控工作需要,且经过脱敏处理的除外。
数据流通不足,数据孤岛严重
大数据的核心在于互联互通。只有融会了多源数据,才能体现大数据的价值。在疫情防控中我们也看到数据分散割裂、聚而不通、通而不用的问题。这很大程度上是因为数据源与数据开发能力不匹配所导致的,即掌握数据的一方缺少足够的数据开发利用能力,而拥有数据开发能力的一方没有足够的数据,致使数据无法流通并发挥最大作用。
同时,不同企业和政府部门的数据呈现“孤岛”形态,数据亟需高效整合。全国各级地方政府部门、各大互联网企业利用大数据防疫的挑战之一就是数据的碎片化。从多个互联网企业案例来看,数据常常散落在不同部门,而且这些数据存在不同的数据仓库中,不同部门的数据技术也有可能不一样,这导致地区内部、企业内部自己的数据都没法打通。如果不打通这些数据,大数据的价值将非常难挖掘。大数据需要不同数据的关联和整合才能更好地发挥优势。如何将数据打通,并且实现技术和工具共享,是更好地体现大数据在防疫中的价值的关键。
编辑:张程 3567672799@qq.com