绿松树

搜索
查看: 203|回复: 20

各城市首轮感染高峰期预测

[复制链接]

5

主题

7

帖子

17

积分

新手上路

Rank: 1

积分
17
发表于 2023-1-12 12:52:00 | 显示全部楼层 |阅读模式
在昨天的这个回答之后:
我又对台湾地区、香港特别行政区和日本的感染情况与“发烧”搜索指数进行了分析,发现一个可能可以帮助预测感染高峰期的方法:
1)将Google搜索指数分为疫情期间和非疫情期间,非疫情期间的发烧指数平均数为 \overline{F_{非疫情}} ,将疫情期间的搜索指数做以下处理后加总,计算一个数值 S=\sum{\frac{F_{疫情}-\overline{F_{非疫情}}}{\overline{F_{非疫情}}}}
其中S的含义是这样的:如果发烧的搜索是发烧人口的一个相对稳定的比例,且在非疫情期间发烧人口是总人口的相对稳定的比例,那么S就正比于疫情感染的人口占总人口的比例,我们把它叫做“超额发烧搜索指数累计面积
2)下图列出了台湾地区、香港特别行政区以及日本的“超额发烧搜索指数累计面积”,即下图橙色面积、蓝色面积和灰色面积。


我们发现在这三个地区,当疫情达到顶峰时,这个“超额发烧搜索指数累计面积”的数值全部刚好达到80。这两个地区第一波疫情结束时,香港特别行政区的面积达到了160,台湾地区的面积达到了200,日本的最终面积是250。
3)如果用百度搜索指数做类似的研究会有什么效果呢?我使用了本轮疫情进入群体感染最快、最早的石家庄、邢台和保定做了计算:


可以算出,从疫情开始后计算,石家庄的“超额发烧搜索指数累计面积”已经达到了76,邢台已经达到了67,保定也达到了71。由此来看,百度搜索指数和Google指数分别算出的“超额发烧搜索指数累计面积”,至少是在一个差不多的数量级上。
4)考虑到保定、石家庄、邢台等地的发烧指数仍然在上升,以及百度搜索指数和Google指数的差异,我们比较保守地将100作为疫情达峰时的“超额发烧搜索指数累计面积”,将250作为第一轮疫情结束时的“超额发烧搜索指数累计面积”。那么我们通过每个城市的搜索指数累计增长,累计速度,就可以算出现在每一个有疫情的城市疫情达峰的时间,以及疫情结束的时间。
这是计算的结果,列出了所有能在明年春节前达峰的城市以及这些城市在达峰前已经感染的人口比例(截止至12月10日)。


2022年12月12日更新:



2022年12月13日更新:


12月14日更新:
今天的更新有三个大的改动。
第一是加入了巨量算数指标修正了一些城市,加入了一些之前数据不足的城市。
第二是我将过峰的“超额发烧搜索累计面积”修正回了80。
之前的几张表格中,保守起见,这个数值我使用的是100,他会使一些城市过峰偏慢。但从这几天的数据看,石家庄、保定等地已经过峰,这说明中国内地城市居民,在非疫情-疫情的变化中,搜索行为的变化上和香港特别行政区、台湾地区的居民在同样时期的变化是非常类似的。因此一些城市会在今天的表格中有所提前。
第三是加入了“结束进度条”这一变量,代表已经度过疫情顶峰的城市在第一波疫情结束前可能还要走的路程。



12月15日更新:
今天按照行政区划代码的顺序做了排序,增加了一个变量“累计感染占总人口比值”。这个数值也是根据累计的超额搜索面积计算的。在“数据团+”小程序中也做了相应更新。一些人口较少的城市的搜索指数变化幅度较大,可能会导致数据波动。


12月16日更新:
今天修改了许多之前计算的bug,比如多段疫情被合并计算(例如新疆的一些城市被合并三个月疫情后出现了超过100的感染率),疫情结束时间的算法尾部过宽,一些小城市的缺失(比如济源、仙桃、吉林省吉林市)以及巨量算数的权重。头条系产品的许多数据来自被动推送,比如点击搜索框,出现一个“内马尔发烧了”,吸引用户点击后,可能就会造成一些地方的“发烧”搜索异常。我使用百度的全国指数作为基准整体修正了巨量算数,得到了一个更为稳健的结果。有些读者可能会注意到今天有一些城市的疫情过峰时间、结束时间都变长了,这一方面来自上面的几项bug修改的结果。当然,更重要的一方面原因是一些城市确实在压平曲线,尽量降低疫情的增速。快速过峰当然会使得这个城市能够较快地离开第一波疫情,但是同样也会造成医疗资源大量挤兑。力所能及地增加一些社交距离,虽然会让这个城市的疫情更持久,但总死亡也会降低,在第一波感染中,还是值得的。
这也是我们的模型最后一次大幅度修改,之后的数据就能保持相对稳定了。


12月17日更新:
1,增加了“新增感染占比”一项,表示当天新增的感染人口在总人口中的比重。虽然北京等地的感染已经过峰,但是全国各地的疫情正在快速上升,12月16号这一天,全国增加了近4000万感染。
2,由于图片大小限制,不得不去掉了人口在50万以下的城市。有需要的话可以在“数据团+”的小程序中看到,在小程序中我另外增加了一项每日感染的预测曲线图。


12月18日更新:



12月19日更新:
许多有心人都能发现,今天的百度与巨量指数的“发烧”搜索出现了严重的数据污染。因此花了一些时间,用其他关键词做了一定修正。具体可以参考这条想法:
更新了一个多星期的疫情达峰预测(chenqi…


12月20日:
不得已只能使用新的模型进行了大幅度更新,数据会和之前有些差异。为了防止数据污染,不会再公布我们的使用词语。明天还会优化一个版本。


12月21日更新:
新数据源已经迁移、优化完毕。希望能稳定运行下去。


12月22日更新:
(部分内容已删除)


12月23日:
许多读者可能注意到,一些城市在之前几天的达峰进度还较低,但突然就达峰了。例如上海,广州,深圳,都在今天达峰,比之前的预测普遍找了3-4天。原因在于,我们之前的“预测”达峰,使用的是一个超额面积覆盖,用搜索指数超额程度的累计,预测可能在哪一天达到峰值。但同时我们有另一套方法,观察这个城市是否在“事实”上达峰。
例如上海、广州、深圳,虽然在我们昨天的预测中分别会在22日、24日和25日达峰,但今天我们的另一套指标显示,这几个城市的新增病例峰值,已经达到,并且越过了。因此,刚刚过去的12月22日,就成了这几个城市达峰的实际日期。
从现在的数据看,大部分城市都还未达峰的省份只剩下浙江、福建、广东、广西。其他的城市,基本上都已经达峰,新增病例开始下降。但接下来才是真正的挑战。
新增病例达峰后的3天,会达到就诊病例的高峰。
就诊病例达峰后的3天,会达到重症病例的高峰。
重症病例达峰后的3天,会达到死亡人数的高峰。
从现在开始到年底,将成为中国本轮疫情中医疗挤兑最为严重的一段时间。


12月24日更新:
今天做了一个较大的更改,那就是每个城市的阈值不一样了。在一开始采用超额累计面积来计算各城市感染时,我对每一个城市采用了同一个阈值,这部分是因为香港特别行政区、台湾地区、新加坡等地的过峰阈值是一样的。但在最近,随着各个城市不断过峰,尤其是小城市的过峰时间基本上早于我计算的阈值,我逐渐发现不同城市的阈值是不一样的,他和该城市人口的对数之间存在极强的线性关系。
为什么会有这样一种和人口对数成正比的阈值关系呢?一般有两种可能,其一是搜索指数本身的计算有问题,比如是根据搜索数量来计算的;其二是人口较少的城市和人口较多的城市在感染模式上会有差异,导致大城市的过峰更晚。
将每个城市的阈值根据人口调整后,我重新计算了不同城市的累计感染和新增感染,得到了新的表格,与现实的吻合度变得更高了。在这张表中,许多城市,特别是小城市的感染比例被新的过峰阈值大幅度调整。比如德阳,在之前的计算中仅有20.6%的感染比例,在这张表格中达到了63.9%。


12月25日更新:


12月26日:


12月27日更新:
这两天阳了,昨天有一个计算错误都没看出来,导致很多地方的结束进度条都到了100,今天改过来了。


12月28日更新:


12月29日:
可能是最后几次更新表格了,小程序被要求补充能够“提供疫情情况的资质证明”,如果不能够满足的话,就必须在1月1日下架。目前中国城市也已经大多过峰,这个计算也在很大程度上完成了自己的使命。
尽量更新到12月31日吧!


12月30日:
小程序又可以继续更新了,把所有有关“疫情”的字样全部去掉后又通过了审核,得以续命。
今天转阴啦,又修正了之前的一个计算错误。


12月31日:
疫情计算基本完成使命,最后一次每日更新,接下来可能在知乎上会不定期更新了,大家新年快乐!


数据不足,方法简陋,仅供参考。
回复

使用道具 举报

1

主题

2

帖子

4

积分

新手上路

Rank: 1

积分
4
发表于 2023-1-12 12:52:16 | 显示全部楼层
广州整个城市的群体感染才刚开始,之前一个月都在清零海珠,其他地方还没有出现大规模感染。也有可能是毒株区别导致广州发烧不多。
回复

使用道具 举报

0

主题

4

帖子

0

积分

新手上路

Rank: 1

积分
0
发表于 2023-1-12 12:53:00 | 显示全部楼层
但是毒株之间似乎差异蛮大的,比如广州之前无症状多,而河北-北京这次发高烧的就很多。只用搜索发烧做关键词的话,可能有偏差
回复

使用道具 举报

4

主题

5

帖子

13

积分

新手上路

Rank: 1

积分
13
发表于 2023-1-12 12:53:40 | 显示全部楼层
没想到大连还挺能苟的,居然排那么靠后[捂脸]
回复

使用道具 举报

4

主题

13

帖子

19

积分

新手上路

Rank: 1

积分
19
发表于 2023-1-12 12:54:16 | 显示全部楼层
难,最多撑到十二月底。这几天大学生陆陆续续的返乡了,好的是江浙沪学生更愿意在江浙沪区域读大学,但是也不是全部都在江浙沪。
回复

使用道具 举报

3

主题

6

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2023-1-12 12:54:54 | 显示全部楼层
他只是提供了一种方法,一种可能,更准确的预测模型出来之前给大家一个参考,是有益的。 另外,百度仍然是国内占压倒性优势的搜索平台,这个要数据说话。
回复

使用道具 举报

0

主题

1

帖子

0

积分

新手上路

Rank: 1

积分
0
发表于 2023-1-12 12:55:36 | 显示全部楼层
你不怕两个都得一遍[飙泪笑][飙泪笑]
回复

使用道具 举报

3

主题

6

帖子

12

积分

新手上路

Rank: 1

积分
12
发表于 2023-1-12 12:55:55 | 显示全部楼层
那一波六万多数据,4例重症,但没告诉你住院一万多人,更何况危重症和死亡病例都有时间滞后性。
回复

使用道具 举报

4

主题

9

帖子

17

积分

新手上路

Rank: 1

积分
17
发表于 2023-1-12 12:56:28 | 显示全部楼层
实际真正意义的无症状(一点反应没有,不测自己都不知道),国外的数据是20%左右,现在疫情的数字看看就行,别当真了
回复

使用道具 举报

4

主题

7

帖子

13

积分

新手上路

Rank: 1

积分
13
发表于 2023-1-12 12:56:56 | 显示全部楼层
给答主点赞,[赞同]这个方法虽然“简单粗暴”,但是逻辑是对的,走的是后验概率的路子,而且重复性好,实践起来有意义。但是考虑到人们的博弈过程,大城市和中小城市的传播活力相比更高,流动性大,所以北京1月中旬就是高峰可能有点乐观。另一方面,说的俗一点,如果你不想近期被感染,找一个小城市猫起来也是个办法。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|绿松树

GMT+8, 2025-5-11 14:21 , Processed in 0.064887 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表