新冠肺炎席卷全球,各国采取的不同防疫措施引发广泛争议。你是否想了解如今各国的实时疫情情况?
近日,两名中国博士开发的全球疫情可视化地图登上了世界顶尖医学期刊《柳叶刀》。该地图追踪、展示了各国疫情的实时动态数据,包括地点、确诊人数、死亡和治愈人数等。
上线以来,该网站的全球日访问量从一月底的2亿次上升到三月初的12亿次,甚至到达过20亿次。来自世界各地的网民不断涌入。
以下是南都记者与两名开发者、约翰·霍普金斯大学系统科学与工程中心一年级的博士生董恩盛、杜鸿儒的对话整理。
网站最高日流量达20亿 服务器随中意美疫情爆发三次瘫痪
南都:一开始为什么会想做疫情可视化地图?
董:老板(注:导师劳伦·加德纳,Lauren Gardner)是研究疾病传播过程的专家,我们就跟着她一起做。同时,我们的初衷是,希望通过追踪数据,可以观察一场疫情从生到死的整个过程。
南都:团队有多少人?
董:主要负责的还是我们两个人和导师。现在有七个志愿者加入,后续还有一些感兴趣的同学会加入到数据录入、核对的过程中。
南都:在制作过程中有没有发现数据变化的规律?
董:基本上我们每次服务器瘫痪,都是在疫情有所变化的时候。可以说,我们服务器宕机的节点与全球疫情变化的节点呈正相关关系。
第一次大约是武汉的疫情数据标准(注:临床发现的新冠肺炎病例也加入到确诊病例中)发生变化的时候,大家发现人数突然猛增,很多都到我们网站上看;第二次是意大利疫情爆发的时候,许多意大利民众涌入网站,当时意大利的用户数还超过了美国的;现在是第三次高潮,主要是美国疫情爆发,大家都挺关注美国的数据。
南都:目前有什么困难?
杜:对我来说,目前最大的困难是,希望能尽快让数据更新变成全自动化。
董:困难是从来没有受到过这么多关注(笑)。因为现在流量太大了,经常把我们的系统整崩溃了。像3月12日,一天的全球访问量就有20亿。为此,我们已经换了三台服务器。
钻石公主号的撤离人员应如何标记?这里有个隐私问题
南都:数据来源是哪里?是怎样处理的?
董、杜:世界卫生组织、美国疾病预防控制中心、欧洲疾病预防控中心、中国卫健委、当地新闻报道和卫生部门、丁香园。
目前,我们使用了半自动化的实时数据流策略。我们会与计算机系的朋友合作,让他们运用机器学习、自然语言处理等技术在网上搜索相关信息,但为了确保数据准确性,我们还会进行人工比对核实和手动更新。
南都:可视化的过程对你们来说难吗?
董:我之前有可视化经历,所以在技术思路上相对成熟。但在数据来源和数据结构搭建上还是遇到一些困难。一是数据的半自动化比较费事;二是需要考虑地图上点的放置,不同国家的数据层级等问题。一些小功能的增加其实会让数据有很大变动,或是增加服务器的负担。
杜:举例来说,我们后来增加了数据更新时间。这其实是有难度的,因为我们的用户来自世界各地。后来,我们把地图时间调整为格林尼治时间(注:全世界的时间标准),但相应的也需要把以前的数据做很大的调整。
从制作到第一次发布大约花了六、七个小时,但之后每一次改进花的时间都非常多。
南都:接下来疫情地图还会做什么改进吗?
董、杜:增加更多的可视化工具、进行进一步的数据公开。其中,可视化可能会精确到美国郡县级(注:相当于中国的市级单位),但因为涉及到隐私问题,我们也会再考虑。
举例来说,我们之前在处理钻石公主号的患者标记位置时,就遇到了一个“隐私乌龙”。当时,部分钻石号旅客撤回到美国。由于患者具体位置不明,我们就选择了将点标记在美国相对而言的一个地理中心——堪萨斯州。但有些美国人比较喜欢探索,会放大地图,放大到最后发现这个点落在他们小区上。他们以为自己小区竟然有新冠肺炎病例,但实际上不是这样的。当时小区上报给当地卫生部门,又再层层上报,最后我们学校的新闻官告诉我们赶紧调整一下。于是,我们将点暂时放回了钻石公主号最后的停靠位置,日本横滨港。
现在我们的处理是,地图放大到一定程度,标记的点就看不到了,不让他们把自己家和这个点形成对应关系。
南都:钻石公主号的数据为什么单独处理?