Файловые форматы#
Коннекторы для работы с озерами данных (Iceberg, Delta Lake, Hudi и Hive) позволяют читать и записывать данные в различных файловых форматах. Данная страница содержит описание конфигурацию работы с форматами Parquet и ORC.
Конфигурация Parquet#
Используйте параметры ниже для настройки чтения и записи файлов в формате Parquet.
Название |
Описание |
---|---|
|
К какому часовому пояс приводить значения типа timestamp. При работе с таблицами Hive 3.1+ установите данный параметр в значение |
|
Максимальный размер блока Parquet, который может быть декодирован за один раз.
Значение параметра может быть изменено с помощью свойства сессии |
|
Максимальное количество записей, которое может быть декодировано за один раз.
Значение параметра может быть изменено с помощью свойства сессии |
|
Использовать ли bloom filter при выполнении predicate pushdown.
Значение параметра может быть изменено с помощью свойства сессии |
|
Использовать ли column index при выполнении predicate pushdown.
Значение параметра может быть изменено с помощью свойства сессии |
|
Игнорировать статистики Parquet, чтобы позволить читать файлы Parquet с испорченными или некорректными статистиками.
Значение параметра может быть изменено с помощью свойства сессии |
|
Максимальный размер буфера на чтение.
Значение по умолчанию: |
|
Максимальное расстояние в байтах между двумя позициями в файле, которые необходимо прочитать, когда чтение данных позиций возможно в рамках одной операции.
Значение по умолчанию: |
|
Если размер файла Parquet не превышает значение данного параметра, то файл будет прочитан целиком.
Значение параметра может быть изменено с помощью свойства сессии |
|
Включить поддержку Java Vector API (SIMD) для быстрого декодирования файлов Parquet.
Значение параметра может быть изменено с помощью свойства сессии |
|
Максимальный размер page при записи.
Значение параметра может быть изменено с помощью свойства сессии |
|
Максимальное количество записей, которые могут быть записаны в один page.
Значение параметра может быть изменено с помощью свойства сессии |
|
Максимальный размер row groups при записи.
Значение параметра может быть изменено с помощью свойства сессии |
|
Максимальное количество строк в каждом batch на запись.
Значение параметра может быть изменено с помощью свойства сессии |
|
Процент файлов Parquet, которые будут проверены после записи. Проверка файла предполагает чтение всех его данных.
Значение параметра может быть изменено с помощью свойства сессии |
Компрессия и декомпрессия файлов происходит автоматически.
Конфигурация ORC#
Используйте параметры ниже для настройки чтения и записи файлов в формате ORC.
Название |
Описание |
---|---|
|
К какому часовому поясу приводить значения при работе с файлами ORC, в которых не задан часовой пояс. Значение по умолчанию: часовой пояс JVM. |
|
Использовать ли bloom filters для predicate pushdown. Значение по умолчанию: |
|
Позволяет читать файлы ORC с коротким идентификатором часового пояса в stripe footer. Значение по умолчанию: |
Компрессия и декомпрессия файлов происходит автоматически.