“数据宇宙”中的健康码
中国新闻周刊记者/苑苏文
发于2022.1.24总第1030期《中国新闻周刊》
一张巨大的由算法引擎织成的细密的网,是口罩、核酸检测与隔离之外,中国阻止新冠病毒复制传播的另一大利器。到了新冠肆虐的第三个年头,这个数字防御长城已趋近完善。
在有14亿人口的中国,每个人都能通过智能手机调取一张健康码。这是在红黄绿间变化的二维码或条形码,三种颜色在后台由大数据算出,提示持码人不同的感染风险状态。不同地方的健康码还展示不同的其他信息,有的展示照片,有的提示行程,还有的标识着打了几针疫苗,为防止截屏伪造,大多数都嵌入动画和定时刷新。
除了对外展示感染风险,健康码还负责采集更精准的位置信息。中国遵循“动态清零”政策,每个人要为自己的出行和潜在的病毒传播负责。在大多数城市,当你出入公共场所,会被要求在门口扫码登记,而手动的扫码登记,比被动的手机基站定位误差更小。
健康码由各地政府主导开发,企业提供技术支持。毫无疑问,用以检测每个人健康风险的“底层数据”,涉及大量个人隐私。但接受《中国新闻周刊》采访的政府相关部门及企业人士都保证,对于这些隐私信息,企业仅提供技术支持,并签署了严格的保密协议。而自2021年9月1日起施行的《中华人民共和国数据安全法》,也为数据的安全上了一道“紧箍咒”。
快速上线背后的大数据战略
健康码的第一行代码已经写进了历史,更准确地说,它已经成为中国国家博物馆的馆藏。玻璃柜里的那行代码,创建于2020年2月13日晚8点34分,是浙江省健康码引擎的开端,并在40个小时后上线测试,这是全国第一个省级健康码,脱胎于几天前的杭州余杭区健康码和杭州健康码。
杭州市余杭区,是阿里巴巴公司西溪园区所在地。2020年2月4日,余杭区就提出探索复工复产时疫情防控的数字化方案,“全人群覆盖 全流程掌办 全领域联防”。公开报道显示,依托于支付宝、钉钉、阿里云的技术力量保障,2020年2月5日凌晨5点,诞生了余杭健康码的第一个版本,在以小时计算的迭代升级中,健康码在24小时内推广至杭州,又在几天内推广至浙江省。防疫新理念“病毒式”传播,一周之内已经落地超过100城。到了2月15日,国务院办公厅电子政务办指导支付宝、阿里云加速研发全国一体化政务服务平台疫情防控健康码系统,加速了健康码走向全国。
各地在健康码探索中,并不全都依赖“互联网大厂”。在杭州往西南1650公里的贵州省贵阳市,云上贵州大数据(集团)有限公司(下称“云上贵州”)承担了贵州健康码的开发。云上贵州是贵州省国资委控股的国企,其业务指导单位是贵州省大数据发展管理局。
从2020年2月13日到2月18日,云上贵州团队只用了6天完成贵州健康码的全省上线。“贵州很低调。”云上贵州党委副书记、董事、总经理魏巍曾在公开场合表示,六天开发上线的贵州健康码,第一批接入了国家系统,“我们当时是最简化,也是最全”。
万永波是云上贵州技术开发部副总经理,带领团队完成贵州健康码的开发。他告诉《中国新闻周刊》,在开发健康码的前两天,他与团队成员通宵达旦地向贵州省大数据发展管理局、省政府办公厅、卫健委和以公安厅为主的贵州省疫情防控领导小组社会防控组(简称“社防组”)部门沟通,收集需求。“白天去各个部门,晚上回来汇总需求,由领导统筹方案,第二天白天再去汇报”。
调研工作结束后,就是紧密锣鼓的部署开发,既包括应用系统的部署,也包括数据收集的部署,其中,数据收集采用了最原始的方式,派人去各政府单位“驻点”。
“信息流转非常难,我们纯用人力去跑,派了很多人到大数据局、办公厅、卫健委和公安局去驻点,拿到他们的数据之后传回公司。”万永波的数据处理团队有六个人,三人分为一组,12小时工作制,两班倒,“只要那边数据来了,这边就马上处理入库”。
在贵州健康码最初的后台数据库,会根据数据的不同,将居民判定为五种状态,在健康码展示中分为紫、红、橙、黄、绿五种颜色,其中紫色需要集中治疗,红色需要集中隔离观察,橙色需要居家隔离,黄色需要定期做核酸检测自我观察,绿色则为无风险。万永波介绍,数据进行初步处理后,由研发团队将其合并入“大数据集群”,再向健康码提供服务,而小程序的开发也在同时进行,在第五天时,这些工作基本结束,第六天小程序进行了压力测试,第七天正式上线。
能在几天之内将政府数据全部聚拢,得益于贵州省的数据发展战略。2014年,“云上贵州”注册成立,2016年,贵州省成为首个国家大数据综合实验区,并成立了省大数据管理发展局,其致力于打造“一云一网一平台”,等到了2020年,已经拥有了打通政府各部门“数据孤岛”的基础。
大数据已成为国家战略。在2021年12月29日,国家发展改革委等部门下发通知,加速推进国家“东数西算”工程,启动建设全国一体化算力网络国家枢纽节点,节点共有八个,分别是贵州、甘肃、内蒙古、宁夏,以及京津冀、长三角、成渝、粤港澳地区。西部发展大数据,有成本低的好处。记者获悉,贵州健康码的开发和运营,至今仅投入1500万元,不及东部某省该项目投入的1/10。
数据收集逻辑
疫情阴霾下,健康码的后台服务器是永不停歇的大脑,不断计算着每个人的健康状态。贵州数据宝网络科技有限公司产品研究院院长、华东江苏大数据交易中心副主任李可顺告诉《中国新闻周刊》,每个人的健康状态以字节的方式存储于健康码的服务器中,并随着防疫政策和疫情形式的改变不断刷新,当居民出示健康码时,只是从后台调取这个状态,并显示为不同颜色的二维码。
二维码于20多年前由日本人发明,随着移动支付的兴起,成为近几年移动设备上最流行的编码方式,它比传统条形码能存更多的信息。李可顺指出,大多数城市选择不同颜色的二维码展示居民健康状态,目的是为了保护隐私数据安全。“健康码的小程序一般依靠微信或支付宝等第三方平台,只显示二维码可以保证隐私数据掌握在政府手上,不易泄露”。
健康状态经由哪些数据判定?李可顺介绍,健康码背后包括四大数据,第一是公安部门的户籍信息;第二是自己申报的健康数据,比如体温及当前症状;第三是行程数据,既包括通信管理部门协调运营商提供的手机信令位置,也包括铁路和航空交通出行数据,以判断是否到达过风险地带;第四是由卫健疾控部门提供的就诊信息,及判断是否与确诊者有交集。
贵州省大数据管理局应用推广处处长洪浩告诉《中国新闻周刊》,在贵州健康码的运营过程中,主要关注重点人群,其中包括通信管理局推送来的与确诊者或密切接触着的“时空伴随”人员、社防办排查推送的高风险地区入境人员,以及卫健系统推送的确诊人员或密接和次密接。重点人群被分成高风险人员和中风险人员,获得这些人员信息后,健康码会响应,并与省社防办联动,开启进一步的排查和处置。
防疫变得越来越精细化。过去,中高风险区域往往以城市为单位,通信管理局将有过这些风险区轨迹的人员悉数推送来,人数众多。但现在提出了“时空伴随”概念,风险范围进一步缩小。
“时空伴随”主要靠手机信令来定位。它的规则是,在方圆800米的范围内,与风险人员的手机信令共同停留大约10分钟时间,就会判定可能会有接触,会被标记为风险人员的时空伴随人员。时空伴随人员的计算不属于地方,由国家工信部信管局牵头,几大运营商根据基站和信号进行综合定位,这需要更多的算力。最终的目的是减少了防疫扩大化,将方圆几十甚至几百公里的封锁范围缩小至几百米。
洪浩解释说,时空伴随数据由运营商完成计算后,统一交给工信部,再由后者向各地统一分发。“运营商的管控精度要高一些。”他说,原则上没有大需求的时候,工信部每天会推送时空伴随人员数据,而对于一些重点区域的时空伴随人员,“实际上是实时更新的”,比如对最近暴发疫情的陕西、天津等地,对于离开那些区域的人员,如果要进入贵州,他们的时空伴随情况就会被快速推送过来。
李可顺指出,尽管目前各地数据已共享至全国统一平台,但仍是以省为单位在服务器后台分析数据。在重点区域,则不断通过刷新,更新每个人的最新动向与健康状态。刷新频率和当地是否存在疫情传播风险有关。“就像我们刷网页,刷新是耗流量的,就得花钱,所以如果没有疫情刷新就慢,如果在重点区域就会不断刷新,监控人员流动可能带来的风险。”他指出,像是上海浦东机场这类出入境人员较多的地方,每人信息的刷新应该“特别快”。
在大多数地方,除了要亮健康码,还需要亮出行程卡。行程卡是由工信部推出,基于运营商的基站数据,判断人14天内的行程,如果有城市存在中高风险区,城市名称上会用星号来标识。李可顺指出,实际上行程卡基于手机信号基站定位的位置数据,在健康码的数据中是包含的,但之所以开发行程卡作为辅助工具,主要是因为健康码没办法展示近十四天的行程信息。
“目的就是为了更精准地定位。”李可顺说,疫情之下,健康码给人员流动提供了保障,让人们能安心复工和通行于公共场所。“健康状态掌握在政府手里,假如有感染风险,马上就能定位到此时此刻的位置,然后再进行网格化的处理,有一整套响应机制和流程。”
各显神通
在健康码推行初期,各地单独立项制作健康码,信息采集标准也有所不同,因此难以达成互认。李可顺指出,主要是各省单独立项制作健康码,标准和数据使用维度都不同,甚至在后台留存的居民健康状态,也使用不同的字节去记载,这令各地相互转码也很困难。在同一个省,也出现了省会和其他城市用两套健康码,比如在陕西就并存“西安一码通”和“陕西一码通”。
各地用健康码定位的方式也不一样。不同于许多地方在进入公共场所时需扫描场所码进行登记,贵州省的贵州健康码只需要打开,就会自动上传定位。洪浩介绍,贵州健康码设计之初,就确定以“最快通行”作为原则。尽管扫描场所码登记,可以对人员所进入的公共场合精准确认,但亮出贵州健康码时所发送的定位,误差也不会超过10米范围,尽管无法确定在哪家店,但如果出现感染者,同样可以将周围的密切接触者排查出来。省去场所码登记这一环,可增加通行速度。“如果流程太复杂的话,防控上反而容易有疏漏了,刻意追求定位的精准,反而可能带来新的风险”。
在2020年上半年,各省健康码数据没有共享平台。洪浩回忆,2020年3月前后,贵州省联系了人员来往密切的广东和浙江,进行了数据定向交换。到了2020年下半年,国家设立了“全国一体化政务服务平台”,各省就将数据上传至国家的平台上,推送更新内容也是每日一次。
为实现各地的健康码信息互通互认,国家还制定了统一的数据采集标准,其中既包括数据采集的类型和维度,也包括数据字段的标识,以便数据互通。根据国家统一标准,贵州健康码从五色变为三色。将紫色和红色归集为红色,橙色保留,将黄色纳入绿色进行管控。万永波介绍,贵州健康码上线之初到现在,已经经历了150多次迭代升级。其中包括增加了核酸检测预约登记功能、疫苗接种查询功能,以及健康码和行程卡共同显示。
近些天来,一些地方进行全城核酸检测时,健康码崩溃,引发热议,万永波指出,与许多其他地区的健康码不同,贵州健康码在核酸检测、疫苗查询和健康码亮码三个方面,采用独立的技术架构。
“据我了解,西安的健康码之所以崩溃,是因为核酸检测系统的查询量并不能承载健康码查询的并发量,导致核酸检测系统查不出数据了。为了避免这种情况,我们贵州健康码使用了中间库。”万永波说,将核酸检测分离为独立的系统,检测数据收集出来后,将会被传递到中间数据库,当健康码用户需要查询核酸结果,再连接到中间库去读取,“在这种情况下,假如核酸检测系统宕机了,也不会影响健康码系统的正常运行”。
万永波还介绍,为了减少服务器宕机时的影响,他们在服务器集群采用了“高可用”形式,即将几十台服务器建立成为集群,这其中若出现一台或多台服务器宕机,并不影响整体集群的使用。另外,他们还在联通和移动两个节点分别部署了健康码后台,当一个节点出现故障,能够迅速切换到另一个节点。根据最新的压力测试,贵州健康码的核酸检测系统,每秒能完成1万人的核酸检测,“一分钟就是60万,完全能承受贵阳市的800万人口”。
不过,尽管如今各地数据已经打通,但在核酸检测方面,仍不能做到异地同时查询。其中一个原因,与国家信息平台数据更新速率有关。这意味着,当你到达新的地方,此前的核酸检测报告有可能无法同步在当地健康码上,仍要按照当地政策重新检测。
随着健康码系统的愈发完善,疫情防控也将愈发精准。根据相关政策,国家要求不能以区县以上为单位赋码,要精准赋码,避免“一刀切”。如今,风险区的划分也越来越小,多以小区为主。不久前在上海,甚至将一家占地面积20多平方米的奶茶店划为中风险地区,被成为“史上最小”,与之一墙之隔的理发店都可以正常营业。
但健康码仍有漏洞。对于不使用智能手机的儿童和老年人,目前采用登记为同行人的方式,如果老人单独出门,则使用打印的纸质二维码。李可顺说,目前业内正在研究公路交通中以车为主的通行码,加强来自风险地区的道路管控。另外,广西等地,已经推出不需要联网即可查询的健康码,“类似于缓存机制。”他说,健康码小程序会有个定期轮询个人健康码状态,存在手机,联网时查后台实时健康码,断网时直接提取缓存的健康码。
李可顺说,未来健康码还将可能富集更多功能,比如绑定银行卡进行支付,以及在医院就诊。等到疫情过去,健康码的使命并不会结束。“我们做了这么多底层数据的工作,肯定是有用的,有价值的。”他说,只要维持核心的数据状态,持续将各方面数据打通,就能实时监控每个人的疫情状态,如果没有疫情,这些新的机制和经验,也可用在其他应急事件上,“比如抢险救灾,再比如追踪资产和逃犯”。
《中国新闻周刊》2022年第4期
声明:刊用《中国新闻周刊》稿件务经书面授权 【编辑:叶攀】 (作者:叶攀)