Файловые форматы#

Коннекторы для работы с озерами данных (Iceberg, Delta Lake, Hudi и Hive) позволяют читать и записывать данные в различных файловых форматах. Данная страница содержит описание конфигурацию работы с форматами Parquet и ORC.

Конфигурация Parquet#

Используйте параметры ниже для настройки чтения и записи файлов в формате Parquet.

Название	Описание
`parquet.time-zone`	К какому часовому пояс приводить значения типа timestamp. При работе с таблицами Hive 3.1+ установите данный параметр в значение `UTC`. Значение по умолчанию: часовой пояс JVM.
`parquet.max-read-block-size`	Максимальный размер блока Parquet, который может быть декодирован за один раз. Значение параметра может быть изменено с помощью свойства сессии `parquet_max_read_block_size`. Значение по умолчанию: `16MB`
`parquet.max-read-block-row-count`	Максимальное количество записей, которое может быть декодировано за один раз. Значение параметра может быть изменено с помощью свойства сессии `parquet_max_read_block_row_count`. Значение по умолчанию: `8192`
`parquet.use-bloom-filter`	Использовать ли bloom filter при выполнении predicate pushdown. Значение параметра может быть изменено с помощью свойства сессии `parquet_use_bloom_filter`. Значение по умолчанию: `true`
`parquet.use-column-index`	Использовать ли column index при выполнении predicate pushdown. Значение параметра может быть изменено с помощью свойства сессии `parquet_use_column_index`. Значение по умолчанию: `true`
`parquet.ignore-statistics`	Игнорировать статистики Parquet, чтобы позволить читать файлы Parquet с испорченными или некорректными статистиками. Значение параметра может быть изменено с помощью свойства сессии `parquet_ignore_statistics`. Значение по умолчанию: `false`
`parquet.max-buffer-size`	Максимальный размер буфера на чтение. Значение по умолчанию: `8MB`
`parquet.max-merge-distance`	Максимальное расстояние в байтах между двумя позициями в файле, которые необходимо прочитать, когда чтение данных позиций возможно в рамках одной операции. Значение по умолчанию: `1MB`
`parquet.small-file-threshold`	Если размер файла Parquet не превышает значение данного параметра, то файл будет прочитан целиком. Значение параметра может быть изменено с помощью свойства сессии `parquet_small_file_threshold`. Значение по умолчанию: `3MB`
`parquet.experimental.vectorized-decoding.enabled`	Включить поддержку Java Vector API (SIMD) для быстрого декодирования файлов Parquet. Значение параметра может быть изменено с помощью свойства сессии `parquet_vectorized_decoding_enabled`. Значение по умолчанию: `true`
`parquet.writer.page-size`	Максимальный размер page при записи. Значение параметра может быть изменено с помощью свойства сессии `parquet_writer_page_size`. Значение по умолчанию: `1 MB`.
`parquet.writer.page-value-count`	Максимальное количество записей, которые могут быть записаны в один page. Значение параметра может быть изменено с помощью свойства сессии `parquet_writer_page_value_count`. Значение по умолчанию: `80000`.
`parquet.writer.block-size`	Максимальный размер row groups при записи. Значение параметра может быть изменено с помощью свойства сессии `parquet_writer_block_size`. Значение по умолчанию: `128 MB`.
`parquet.writer.batch-size`	Максимальное количество строк в каждом batch на запись. Значение параметра может быть изменено с помощью свойства сессии `parquet_writer_batch_size`. Значение по умолчанию: `10000`.
`parquet.writer.validation-percentage`	Процент файлов Parquet, которые будут проверены после записи. Проверка файла предполагает чтение всех его данных. Значение параметра может быть изменено с помощью свойства сессии `parquet_optimized_writer_validation_percentage`. Для отключения валидации установите значение `0`. Значение по умолчанию: `5`.

Компрессия и декомпрессия файлов происходит автоматически.

Конфигурация ORC#

Используйте параметры ниже для настройки чтения и записи файлов в формате ORC.

Название	Описание
`orc.time-zone`	К какому часовому поясу приводить значения при работе с файлами ORC, в которых не задан часовой пояс. Значение по умолчанию: часовой пояс JVM.
`orc.bloom-filters.enabled`	Использовать ли bloom filters для predicate pushdown. Значение по умолчанию: `false`.
`orc.read-legacy-short-zone-id`	Позволяет читать файлы ORC с коротким идентификатором часового пояса в stripe footer. Значение по умолчанию: `false`.

Компрессия и декомпрессия файлов происходит автоматически.