Файловые форматы#

Коннекторы для работы с озерами данных (Iceberg, Delta Lake, Hudi и Hive) позволяют читать и записывать данные в различных файловых форматах. Данная страница содержит описание конфигурацию работы с форматами Parquet и ORC.

Конфигурация Parquet#

Используйте параметры ниже для настройки чтения и записи файлов в формате Parquet.

Название

Описание

parquet.time-zone

К какому часовому пояс приводить значения типа timestamp. При работе с таблицами Hive 3.1+ установите данный параметр в значение UTC. Значение по умолчанию: часовой пояс JVM.

parquet.max-read-block-size

Максимальный размер блока Parquet, который может быть декодирован за один раз. Значение параметра может быть изменено с помощью свойства сессии parquet_max_read_block_size. Значение по умолчанию: 16MB

parquet.max-read-block-row-count

Максимальное количество записей, которое может быть декодировано за один раз. Значение параметра может быть изменено с помощью свойства сессии parquet_max_read_block_row_count. Значение по умолчанию: 8192

parquet.use-bloom-filter

Использовать ли bloom filter при выполнении predicate pushdown. Значение параметра может быть изменено с помощью свойства сессии parquet_use_bloom_filter. Значение по умолчанию: true

parquet.use-column-index

Использовать ли column index при выполнении predicate pushdown. Значение параметра может быть изменено с помощью свойства сессии parquet_use_column_index. Значение по умолчанию: true

parquet.ignore-statistics

Игнорировать статистики Parquet, чтобы позволить читать файлы Parquet с испорченными или некорректными статистиками. Значение параметра может быть изменено с помощью свойства сессии parquet_ignore_statistics. Значение по умолчанию: false

parquet.max-buffer-size

Максимальный размер буфера на чтение. Значение по умолчанию: 8MB

parquet.max-merge-distance

Максимальное расстояние в байтах между двумя позициями в файле, которые необходимо прочитать, когда чтение данных позиций возможно в рамках одной операции. Значение по умолчанию: 1MB

parquet.small-file-threshold

Если размер файла Parquet не превышает значение данного параметра, то файл будет прочитан целиком. Значение параметра может быть изменено с помощью свойства сессии parquet_small_file_threshold. Значение по умолчанию: 3MB

parquet.experimental.vectorized-decoding.enabled

Включить поддержку Java Vector API (SIMD) для быстрого декодирования файлов Parquet. Значение параметра может быть изменено с помощью свойства сессии parquet_vectorized_decoding_enabled. Значение по умолчанию: true

parquet.writer.page-size

Максимальный размер page при записи. Значение параметра может быть изменено с помощью свойства сессии parquet_writer_page_size. Значение по умолчанию: 1 MB.

parquet.writer.page-value-count

Максимальное количество записей, которые могут быть записаны в один page. Значение параметра может быть изменено с помощью свойства сессии parquet_writer_page_value_count. Значение по умолчанию: 80000.

parquet.writer.block-size

Максимальный размер row groups при записи. Значение параметра может быть изменено с помощью свойства сессии parquet_writer_block_size. Значение по умолчанию: 128 MB.

parquet.writer.batch-size

Максимальное количество строк в каждом batch на запись. Значение параметра может быть изменено с помощью свойства сессии parquet_writer_batch_size. Значение по умолчанию: 10000.

parquet.writer.validation-percentage

Процент файлов Parquet, которые будут проверены после записи. Проверка файла предполагает чтение всех его данных. Значение параметра может быть изменено с помощью свойства сессии parquet_optimized_writer_validation_percentage. Для отключения валидации установите значение 0. Значение по умолчанию: 5.

Компрессия и декомпрессия файлов происходит автоматически.

Конфигурация ORC#

Используйте параметры ниже для настройки чтения и записи файлов в формате ORC.

Название

Описание

orc.time-zone

К какому часовому поясу приводить значения при работе с файлами ORC, в которых не задан часовой пояс. Значение по умолчанию: часовой пояс JVM.

orc.bloom-filters.enabled

Использовать ли bloom filters для predicate pushdown. Значение по умолчанию: false.

orc.read-legacy-short-zone-id

Позволяет читать файлы ORC с коротким идентификатором часового пояса в stripe footer. Значение по умолчанию: false.

Компрессия и декомпрессия файлов происходит автоматически.