Перейти к основному содержимому
Перейти к основному содержимому

COVID-19 Open-Data

COVID-19 Open-Data пытается собрать крупнейшую эпидемиологическую базу данных по Covid-19, вдобавок к мощному набору обширных ковариат. Она включает открытые, публично доступные лицензированные данные, относящиеся к демографии, экономике, эпидемиологии, географии, здравоохранению, госпитализациям, мобильности, реакции правительства, погоде и многим другим аспектам.

Подробности можно найти в GitHub здесь.

Легко вставить эти данные в ClickHouse...

примечание

Следующие команды были выполнены на Production инстансе ClickHouse Cloud. Вы также можете легко запустить их на локальной установке.

  1. Давайте посмотрим, как выглядят данные:

CSV файл имеет 10 колонок:

  1. Теперь давайте посмотрим некоторые из строк:

Обратите внимание, что функция url легко считывает данные из CSV файла:

  1. Теперь мы создадим таблицу, зная, как выглядят данные:
  1. Следующая команда вставляет весь набор данных в таблицу covid19:
  1. Это происходит довольно быстро - давайте посмотрим, сколько строк было вставлено:
  1. Посмотрим, сколько всего случаев Covid-19 было зафиксировано:
  1. Вы заметите, что в данных много 0 для дат - либо выходных, либо дней, когда цифры не были представлены каждый день. Мы можем использовать оконную функцию, чтобы сгладить средние значения новых случаев за день:
  1. Этот запрос определяет последние значения для каждого местоположения. Мы не можем использовать max(date), потому что не все страны сообщали каждый день, поэтому мы захватываем последнюю строку, используя ROW_NUMBER:
  1. Мы можем использовать lagInFrame, чтобы определить LAG новых случаев каждый день. В этом запросе мы фильтруем по местоположению US_DC:

Ответ выглядит следующим образом:

  1. Этот запрос вычисляет процент изменения новых случаев каждый день и включает простой столбец increase или decrease в результирующий набор:

Результаты выглядят следующим образом:

примечание

Как упомянуто в репозитории GitHub, набор данных больше не обновляется с 15 сентября 2022 года.