Локальный дисковый кэш CedrusData#

Локальный дисковый кэш CedrusData позволяет кэшировать данные из озера данных на worker-узлах для повышения производительности запросов.

Конфигурация локального дискового кэша происходит на уровне коннекторов:

Ниже приведена, которую можно задать в файле etc/config.properties для контроля поведения локального дискового кэша для всех коннекторов.

cedrusdata.data-cache.max-warmup-threads#

  • Тип: integer

  • Значение по умолчанию: количество логических ядер, умноженное на 4

Максимальное количество потоков, которые могут быть использованы для прогрева или инициализации кэша. Увеличение данного параметра может ускорить прогрев кэша ценой повышенного потребления памяти и потенциального срабатывания лимитов операционной системы на максимальное количество потоков. Значение не может быть отрицательным. Значение 0 снимает лимит на количество потоков.

cedrusdata.node-scheduler.soft-affinity.node-identifier#

  • Тип: string

  • Допустимые значения: node_id, host_and_port

  • Значение по умолчанию: node_id

Определяет стратегию сопоставления узла со сплитами. Если задано значение node_id, то для выбора узла для обработки сплита будет использован уникальный идентификатор узла. Рекомендуем использовать данный режим, если идентификатор узла явно задан в конфигурации (свойство node.id) и не изменяется между перезапусками. Если задано значение host_and_port, то для выбора узла для обработки сплита будет использован текущий адрес узла. Рекомендуем использовать данный режим, если адрес узла не изменяется между перезапусками.

cedrusdata.node-scheduler.soft-affinity.virtual-nodes-per-node#

  • Тип: integer

  • Значение по умолчанию: 256

  • Минимальное значение: 1

Определяет степень рандомизации при выборе узла для обработки сплита. Увеличение данного значения может привести к более равномерному распределению сплитов по узлам ценой потребления большего количества памяти. Рекомендуем использовать значение в диапазоне от 128 до 1024.

cedrusdata.node-scheduler.soft-affinity.cache-max-size#

  • Тип: integer

  • Значение по умолчанию: 1024

  • Минимальное значение: 0

Максимальный размер кэша, который сопоставляет каталоги с функцией выбора узла для сплита. Кэш содержит столько записей, сколько каталогов задано в системе. Рекомендуем использовать значение, которое не меньше количества каталогов в системе.

cedrusdata.node-scheduler.soft-affinity.cache-ttl#

  • Тип: duration

  • Значение по умолчанию: 5m (пять минут)

Время жизни записи в кэше, который сопоставляет каталоги с функцией выбора узла для сплита.