Перейти к основному содержимому
Перейти к основному содержимому

encoding-functions

Аргументы

  • number_1, number_2, ..., number_n — Числовые аргументы, интерпретируемые как целые числа. Типы: Int, Float.

Возвращаемое значение

  • строка заданных байтов. String.

Пример

Запрос:

Результат:

Вы можете создать строку произвольной кодировки, передав соответствующие байты. Вот пример для UTF-8:

Запрос:

Результат:

Запрос:

Результат:

hex

Возвращает строку, содержащую шестнадцатеричное представление аргумента.

Псевдоним: HEX.

Синтаксис

Функция использует заглавные буквы A-F и не использует никаких префиксов (таких как 0x) или суффиксов (таких как h).

Для целочисленных аргументов печатает шестнадцатеричные цифры ("нибблы") от старшего к младшему (big-endian или "читаемый человеком" порядок). Начинается с самого значимого ненулевого байта (ведущие нулевые байты опускаются), но всегда печатает обе цифры каждого байта, даже если ведущая цифра ноль.

Значения типа Date и DateTime форматируются как соответствующие целые числа (количество дней с Эпохи для даты и значение Unix timestamp для даты и времени).

Для String и FixedString все байты просто кодируются как два шестнадцатеричных числа. Нулевые байты не опускаются.

Значения типов Float и Decimal кодируются как их представление в памяти. Поскольку мы поддерживаем архитектуру little-endian, они кодируются в формате little-endian. Ведущие/окончательные нулевые байты не опускаются.

Значения типа UUID кодируются в виде строки порядка big-endian.

Аргументы

  • arg — Значение для преобразования в шестнадцатеричный формат. Типы: String, UInt, Float, Decimal, Date или DateTime.

Возвращаемое значение

  • Строка с шестнадцатеричным представлением аргумента. String.

Примеры

Запрос:

Результат:

Запрос:

Результат:

Запрос:

Результат:

Запрос:

Результат:

unhex

Выполняет операцию, противоположную hex. Он интерпретирует каждую пару шестнадцатеричных цифр (в аргументе) как число и преобразует его в байт, представленный этим числом. Возвращаемое значение представляет собой двоичную строку (BLOB).

Если вы хотите преобразовать результат в число, вы можете использовать функции reverse и reinterpretAs<Type>.

примечание

Если unhex вызывается из clickhouse-client, двоичные строки отображаются с использованием UTF-8.

Псевдоним: UNHEX.

Синтаксис

Аргументы

  • arg — Строка, содержащая любое количество шестнадцатеричных цифр. String, FixedString.

Поддерживает как заглавные, так и строчные буквы A-F. Количество шестнадцатеричных цифр не обязательно должно быть четным. Если оно нечетное, последняя цифра интерпретируется как наименее значимая половина байта 00-0F. Если строка аргумента содержит что-либо, кроме шестнадцатеричных цифр, возвращается результат, определяемый реализацией (исключение не выбрасывается). Для числового аргумента обратное преобразование hex(N) не выполняется функцией unhex().

Возвращаемое значение

  • Двоичная строка (BLOB). String.

Пример

Запрос:

Результат:

Запрос:

Результат:

bin

Возвращает строку, содержащую двоичное представление аргумента.

Синтаксис

Псевдоним: BIN.

Для целочисленных аргументов печатает двоичные цифры от старшего к младшему (big-endian или "читаемый человеком" порядок). Начинается с самого значимого ненулевого байта (ведущие нулевые байты опускаются), но всегда печатает восемь цифр каждого байта, даже если ведущая цифра ноль.

Значения типа Date и DateTime форматируются как соответствующие целые числа (количество дней с Эпохи для Date и значение Unix Timestamp для DateTime).

Для String и FixedString все байты просто кодируются как восемь двоичных чисел. Нулевые байты не опускаются.

Значения типов Float и Decimal кодируются как их представление в памяти. Поскольку мы поддерживаем архитектуру little-endian, они кодируются в формате little-endian. Ведущие/окончательные нулевые байты не опускаются.

Значения типа UUID кодируются в виде строки порядка big-endian.

Аргументы

Возвращаемое значение

  • Строка с двоичным представлением аргумента. String.

Примеры

Запрос:

Результат:

Запрос:

Результат:

Запрос:

Результат:

Запрос:

Результат:

unbin

Интерпретирует каждую пару двоичных цифр (в аргументе) как число и преобразует его в байт, представленный этим числом. Функция выполняет обратную операцию к bin.

Синтаксис

Псевдоним: UNBIN.

Для числового аргумента unbin() не возвращает обратное значение bin(). Если вы хотите преобразовать результат в число, вы можете использовать функции reverse и reinterpretAs<Type>.

примечание

Если unbin вызывается из clickhouse-client, двоичные строки отображаются с использованием UTF-8.

Поддерживает двоичные цифры 0 и 1. количество двоичных цифр не обязательно должно быть кратным восьми. Если строка аргумента содержит что-либо, кроме двоичных цифр, возвращается результат, определяемый реализацией (исключение не выбрасывается).

Аргументы

  • arg — Строка, содержащая любое количество двоичных цифр. String.

Возвращаемое значение

  • Двоичная строка (BLOB). String.

Примеры

Запрос:

Результат:

Запрос:

Результат:

bitmaskToList(num)

Принимает целое число. Возвращает строку, содержащую список степеней двойки, сумма которых составляет исходное число. Они разделены запятыми без пробелов в текстовом формате, в порядке возрастания.

bitmaskToArray(num)

Принимает целое число. Возвращает массив чисел UInt64, содержащих список степеней двойки, сумма которых составляет исходное число. Числа в массиве располагаются в порядке возрастания.

bitPositionsToArray(num)

Принимает целое число и преобразует его в беззнаковое целое. Возвращает массив чисел UInt64, содержащих список позиций битов аргумента, которые равны 1, в порядке возрастания.

Синтаксис

Аргументы

  • arg — Целочисленное значение. Int/UInt.

Возвращаемое значение

  • Массив, содержащий список позиций битов, равных 1, в порядке возрастания. Array(UInt64).

Пример

Запрос:

Результат:

Запрос:

Результат:

mortonEncode

Вычисляет код Мортон (ZCurve) для списка беззнаковых целых чисел.

Функция имеет два режима работы:

  • Простой
  • Расширенный

Простой режим

Принимает до 8 беззнаковых целых чисел в качестве аргументов и выдает код UInt64.

Синтаксис

Параметры

Возвращаемое значение

Пример

Запрос:

Результат:

Расширенный режим

Принимает маску диапазона (tuple) в качестве первого аргумента и до 8 беззнаковых целых чисел в качестве других аргументов.

Каждое число в маске конфигурирует количество расширения диапазона:
1 - без расширения
2 - 2x расширение
3 - 3x расширение
...
До 8x расширения.

Синтаксис

Параметры

Примечание: при использовании колонок для args предоставленная кортежная маска должна оставаться постоянной.

Возвращаемое значение

Пример

Расширение диапазона может быть полезным, когда вам нужно получить схожее распределение для аргументов с wildly разными диапазонами (или кардинальностью) Например: 'IP Address' (0...FFFFFFFF) и 'Country code' (0...FF).

Запрос:

Результат:

Примечание: размер кортежа должен быть равен количеству других аргументов.

Пример

Код Мортон для одного аргумента всегда является самим аргументом:

Запрос:

Результат:

Пример

Также возможно расширить один аргумент:

Запрос:

Результат:

Пример

Вы также можете использовать имена колонок в функции.

Запрос:

Сначала создайте таблицу и вставьте данные.

Используйте имена колонок вместо констант в качестве аргументов для mortonEncode

Запрос:

Результат:

детали реализации

Обратите внимание, что вы можете вместить только ограниченное количество бит информации в код Мортон, так как UInt64 имеет. Два аргумента будут иметь диапазон максимум 2^32 (64/2) каждый, три аргумента максимальный диапазон 2^21 (64/3) каждый и так далее. Все переполнения будут приведены к нулю.

mortonDecode

Декодирует код Мортон (ZCurve) обратно в соответствующий кортеж беззнаковых целых чисел.

Как и функция mortonEncode, эта функция имеет два режима работы:

  • Простой
  • Расширенный

Простой режим

Принимает размер результирующего кортежа в качестве первого аргумента и код в качестве второго аргумента.

Синтаксис

Параметры

  • tuple_size: целочисленное значение не более 8.
  • code: UInt64 код.

Возвращаемое значение

Пример

Запрос:

Результат:

Расширенный режим

Принимает маску диапазона (tuple) в качестве первого аргумента и код в качестве второго аргумента. Каждое число в маске конфигурирует количество уменьшения диапазона:
1 - без уменьшения
2 - 2x уменьшение
3 - 3x уменьшение
...
До 8x уменьшения.

Расширение диапазона может быть полезным, когда вам нужно получить схожее распределение для аргументов с wildly разными диапазонами (или кардинальностью) Например: 'IP Address' (0...FFFFFFFF) и 'Country code' (0...FF). Как и в функции кодирования, это ограничивается максимум 8 числами.

Пример

Код Мортон для одного аргумента всегда является самим аргументом (в виде кортежа).

Запрос:

Результат:

Пример

Один аргумент с кортежем, который указывает битовые сдвиги, будет сдвинут вправо соответственно.

Запрос:

Результат:

Пример

Функция также принимает столбец кодов в качестве второго аргумента:

Сначала создайте таблицу и вставьте некоторые данные.

Запрос:

Используйте имена колонок вместо констант в качестве аргументов для mortonDecode

Запрос:

Результат:

hilbertEncode

Вычисляет код для кривой Хилберта для списка беззнаковых целых чисел.

Функция имеет два режима работы:

  • Простой
  • Расширенный

Простой режим

Простой: принимает до 2 беззнаковых целых чисел в качестве аргументов и выдает код UInt64.

Синтаксис

Параметры

Возвращаемое значение

  • Код UInt64

Тип: UInt64

Пример

Запрос:

Результат:

Расширенный режим

Принимает маску диапазона (tuple) в качестве первого аргумента и до 2 беззнаковых целых чисел в качестве других аргументов.

Каждое число в маске конфигурирует количество бит, на которое соответствующий аргумент будет сдвинут влево, эффективно масштабируя аргумент в пределах его диапазона.

Синтаксис

Параметры

Примечание: при использовании колонок для args предоставленная кортежная маска должна оставаться постоянной.

Возвращаемое значение

  • Код UInt64

Тип: UInt64

Пример

Расширение диапазона может быть полезным, когда вам нужно получить схожее распределение для аргументов с wildly разными диапазонами (или кардинальностью) Например: 'IP Address' (0...FFFFFFFF) и 'Country code' (0...FF).

Запрос:

Результат:

Примечание: размер кортежа должен быть равен количеству других аргументов.

Пример

Для одного аргумента без кортежа функция возвращает сам аргумент как индекс Хилберта, так как нет необходимости в многомерном отображении.

Запрос:

Результат:

Пример

Если предоставляется один аргумент с кортежем, указывающим битовые сдвиги, функция сдвинет аргумент влево на указанное количество битов.

Запрос:

Результат:

Пример

Функция также принимает колонки в качестве аргументов:

Запрос:

Сначала создайте таблицу и вставьте данные.

Используйте имена колонок вместо констант в качестве аргументов для hilbertEncode

Запрос:

Результат:

детали реализации

Обратите внимание, что вы можете вместить только ограниченное количество бит информации в код Хилберта, так как UInt64 имеет. Два аргумента будут иметь диапазон максимум 2^32 (64/2) каждый. Все переполнения будут приведены к нулю.

hilbertDecode

Декодирует индекс кривой Хилберта обратно в кортеж беззнаковых целых чисел, представляющих координаты в многомерном пространстве.

Как и функция hilbertEncode, эта функция имеет два режима работы:

  • Простой
  • Расширенный

Простой режим

Принимает до 2 беззнаковых целых чисел в качестве аргументов и выдает код UInt64.

Синтаксис

Параметры

  • tuple_size: целочисленное значение не более 2.
  • code: UInt64 код.

Возвращаемое значение

  • tuple указанного размера.

Тип: UInt64

Пример

Запрос:

Результат:

Расширенный режим

Принимает маску диапазона (tuple) в качестве первого аргумента и до 2 беззнаковых целых чисел в качестве других аргументов. Каждое число в маске конфигурирует количество бит, на которое соответствующий аргумент будет сдвинут влево, эффективно масштабируя аргумент в пределах его диапазона.

Расширение диапазона может быть полезным, когда вам нужно получить схожее распределение для аргументов с wildly разными диапазонами (или кардинальностью) Например: 'IP Address' (0...FFFFFFFF) и 'Country code' (0...FF). Как и в функции кодирования, это ограничивается максимум 8 числами.

Пример

Код Хилберта для одного аргумента всегда является самим аргументом (в виде кортежа).

Запрос:

Результат:

Пример

Один аргумент с кортежем, который указывает битовые сдвиги, будет сдвинут вправо соответственно.

Запрос:

Результат:

Пример

Функция принимает и колонку кодов в качестве второго аргумента:

Сначала создайте таблицу и вставьте данные.

Запрос:

Используйте имена колонок вместо констант в качестве аргументов для hilbertDecode

Запрос:

Результат: