OnTime
Этот набор данных содержит данные из Бюро статистики транспорта.
Создание таблицы
Импорт из сырых данных
Скачивание данных:
Загрузка данных с несколькими потоками:
(если у вас возникнут проблемы с нехваткой памяти или другие проблемы на сервере, удалите часть -P $(nproc)
)
Импорт из сохраненной копии
Кроме того, вы можете импортировать данные из сохраненной копии следующим запросом:
Снимок был создан 29 мая 2022 года.
Запросы
Q0.
Q1. Количество рейсов в день с 2000 по 2008 год
Q2. Количество рейсов, задержанных более чем на 10 минут, сгруппированных по дню недели за 2000-2008 годы
Q3. Количество задержек по аэропортам за 2000-2008 годы
Q4. Количество задержек по авиаперевозчикам за 2007 год
Q5. Процент задержек по авиаперевозчикам за 2007 год
Лучшая версия того же запроса:
Q6. Предыдущий запрос для более широкого диапазона лет, с 2000 по 2008
Лучшая версия того же запроса:
Q7. Процент рейсов, задержанных более чем на 10 минут, по годам
Лучшая версия того же запроса:
Q8. Самые популярные направления по количеству напрямую связанных городов за разные диапазоны лет
Q9.
Q10.
Бонус:
Вы также можете поиграть с данными в Playground, пример.
Этот тест производительности был создан Вадимом Ткаченко. Смотрите:
- https://www.percona.com/blog/2009/10/02/analyzing-air-traffic-performance-with-infobright-and-monetdb/
- https://www.percona.com/blog/2009/10/26/air-traffic-queries-in-luciddb/
- https://www.percona.com/blog/2009/11/02/air-traffic-queries-in-infinidb-early-alpha/
- https://www.percona.com/blog/2014/04/21/using-apache-hadoop-and-impala-together-with-mysql-for-data-analysis/
- https://www.percona.com/blog/2016/01/07/apache-spark-with-air-ontime-performance-data/
- http://nickmakos.blogspot.ru/2012/08/analyzing-air-traffic-performance-with.html