topK
Возвращает массив приблизительно самых частых значений в указанной колонке. Полученный массив отсортирован в порядке убывания приблизительной частоты значений (а не по самим значениям).
Реализует алгоритм Filtered Space-Saving для анализа TopK, основанный на алгоритме reduce-and-combine из Parallel Space Saving.
Эта функция не предоставляет гарантированный результат. В определенных ситуациях могут возникать ошибки, и она может возвращать частые значения, которые не являются самыми частыми.
Рекомендуем использовать значение N < 10
; производительность снижается с увеличением значений N
. Максимальное значение N = 65536
.
Параметры
N
— Количество элементов для возврата. Необязательный. Значение по умолчанию: 10.load_factor
— Определяет, сколько ячеек зарезервировано для значений. Если uniq(column) > N * load_factor, результат функции topK будет приблизительным. Необязательный. Значение по умолчанию: 3.counts
— Определяет, должен ли результат содержать приблизительное количество и значение ошибки.
Аргументы
column
— Значение для вычисления частоты.
Пример
Возьмите набор данных OnTime и выберите три наиболее часто встречающихся значения в колонке AirlineID
.
Смотрите также