2022年12月国内疫情防控政策调整后,各地陆续迎来首轮感染高峰。知乎用户“chenqin”团队基于百度搜索指数和巨量算数数据,通过“超额发烧搜索指数累计面积”模型,对全国城市感染峰值进行了持续预测。该模型核心原理是:当“发烧”等症状关键词的搜索量超出非疫情时期均值的累计面积达到阈值(最初设定为80,后根据内地数据调整为100,最终修正回80)时,即判定该城市进入感染高峰期。
首轮感染高峰主要城市达峰时间
根据模型迭代数据,2022年12月中下旬至2023年1月,全国城市分批次达峰:
华北地区:北京(12月12日)、石家庄(12月13日)、保定(12月10日)较早进入峰值,12月20日前完成过峰。
华南地区:广州、深圳、珠海于12月22日同步达峰,较初期预测提前3-4天,反映人口流动对传播速度的影响。
华东地区:上海、杭州在12月21日达峰,南京(12月19日)、成都(12月15日)稍早进入下降阶段。
其他区域:重庆、武汉等中西部城市于12月20日前后达峰,而浙江、福建部分城市因防控措施调整,峰值延续至2023年1月。
模型验证与现实吻合度
该预测与实际情况高度契合:
石家庄:12月中旬多数居民感染,与模型预测的“达峰时累计感染率超50%”一致,物流配送在12月20日后恢复正常。
青岛:市卫健委12月23日通报每日新增感染49万-53万人,与模型估算的“达峰期日增规模”基本吻合。
北京:12月12日达峰后,交通流量逐步回升,12月23日路况恢复至疫情前70%,印证社会活动重启节奏。
数据局限性与修正
模型在迭代中不断优化:
搜索数据污染:因“内马尔发烧”等热点事件导致部分城市搜索指数异常,后期改用百度指数为基准,并引入“发冷”等关键词交叉验证。
人口规模差异:小城市因搜索样本量小,初期感染率计算偏差较大(如德阳从20.6%修正为63.9%),最终采用“人口对数阈值”动态调整参数。
医疗资源影响:主动“压平曲线”的城市(如上海)达峰时间延长,但重症率和死亡率显著降低,体现防控策略对疫情走势的干预效果。
这场基于搜索大数据的预测实践,为公众提供了疫情进展的量化参考。尽管模型无法完全替代官方统计,但在数据透明度不足的阶段,成为缓解焦虑、辅助决策的重要工具。正如研究者所言:“哪怕是粗糙的数据,也比未知更让人安心。”