Перейти к основному содержимому
Перейти к основному содержимому

Краудсорсинговые данные о воздушном движении от Сети OpenSky 2020

Данные в этом наборе данных получены и очищены из полного набора данных OpenSky для иллюстрации изменения воздушного движения во время пандемии COVID-19. Он охватывает все рейсы, зарегистрированные более чем 2500 участниками сети с 1 января 2019 года. Дополнительные данные будут периодически включаться в набор данных до окончания пандемии COVID-19.

Источник: https://zenodo.org/records/5092942

Martin Strohmeier, Xavier Olive, Jannis Luebbe, Matthias Schaefer и Vincent Lenders "Краудсорсинговые данные о воздушном движении от Сети OpenSky 2019–2020" Earth System Science Data 13(2), 2021 https://doi.org/10.5194/essd-13-357-2021

Загрузить набор данных

Выполните команду:

Загрузка займет около 2 минут с хорошим интернет-соединением. Существует 30 файлов общей величиной 4.3 ГБ.

Создать таблицу

Импортировать данные

Загрузите данные в ClickHouse параллельно:

  • Здесь мы передаем список файлов (ls -1 flightlist_*.csv.gz) в xargs для параллельной обработки. xargs -P100 указывает использовать до 100 параллельных рабочих процессов, но так как у нас всего 30 файлов, количество рабочих процессов будет только 30.
  • Для каждого файла xargs выполнит скрипт с bash -c. Скрипт имеет подстановку в виде {} и команда xargs подставит имя файла в него (мы запросили это у xargs с -I{}).
  • Скрипт декомпресует файл (gzip -c -d "{}") в стандартный вывод (-c параметр), и вывод перенаправляется в clickhouse-client.
  • Мы также попросили парсить DateTime поля с помощью расширенного парсера (--date_time_input_format best_effort), чтобы распознавать формат ISO-8601 с учетом смещений часового пояса.

В итоге, clickhouse-client выполнит вставку. Он будет читать входные данные в формате CSVWithNames.

Параллельная загрузка занимает 24 секунды.

Если вам не нравится параллельная загрузка, вот последовательный вариант:

Проверить данные

Запрос:

Результат:

Размер набора данных в ClickHouse составляет всего 2.66 GiB, проверьте это.

Запрос:

Результат:

Выполнить некоторые запросы

Общее расстояние пройденного пути составляет 68 миллиардов километров.

Запрос:

Результат:

Среднее расстояние полета составляет около 1000 км.

Запрос:

Результат:

Самые загруженные аэропорты отправления и среднее расстояние

Запрос:

Результат:

Количество рейсов из трех основных московских аэропортов, еженедельно

Запрос:

Результат:

Онлайн-площадка

Вы можете протестировать другие запросы к этому набору данных, используя интерактивный ресурс Онлайн-площадка. Например, вот так. Однако, пожалуйста, обратите внимание, что вы не можете создавать временные таблицы здесь.