Файловые форматы#
Коннекторы для работы с озерами данных (Iceberg, Delta Lake, Hudi и Hive) позволяют читать и записывать данные в различных файловых форматах. Данная страница содержит описание конфигурацию работы с форматами Parquet и ORC.
Конфигурация Parquet#
Используйте параметры ниже для настройки чтения и записи файлов в формате Parquet.
Название  | 
Описание  | 
|---|---|
  | 
К какому часовому пояс приводить значения типа timestamp. При работе с таблицами Hive 3.1+ установите данный параметр в значение   | 
  | 
Максимальный размер блока Parquet, который может быть декодирован за один раз.
Значение параметра может быть изменено с помощью свойства сессии   | 
  | 
Максимальное количество записей, которое может быть декодировано за один раз.
Значение параметра может быть изменено с помощью свойства сессии   | 
  | 
Использовать ли bloom filter при выполнении predicate pushdown.
Значение параметра может быть изменено с помощью свойства сессии   | 
  | 
Использовать ли column index при выполнении predicate pushdown.
Значение параметра может быть изменено с помощью свойства сессии   | 
  | 
Игнорировать статистики Parquet, чтобы позволить читать файлы Parquet с испорченными или некорректными статистиками.
Значение параметра может быть изменено с помощью свойства сессии   | 
  | 
Максимальный размер буфера на чтение.
Значение по умолчанию:   | 
  | 
Максимальное расстояние в байтах между двумя позициями в файле, которые необходимо прочитать, когда чтение данных позиций возможно в рамках одной операции.
Значение по умолчанию:   | 
  | 
Если размер файла Parquet не превышает значение данного параметра, то файл будет прочитан целиком.
Значение параметра может быть изменено с помощью свойства сессии   | 
  | 
Включить поддержку Java Vector API (SIMD) для быстрого декодирования файлов Parquet.
Значение параметра может быть изменено с помощью свойства сессии   | 
  | 
Максимальный размер page при записи.
Значение параметра может быть изменено с помощью свойства сессии   | 
  | 
Максимальное количество записей, которые могут быть записаны в один page.
Значение параметра может быть изменено с помощью свойства сессии   | 
  | 
Максимальный размер row groups при записи.
Значение параметра может быть изменено с помощью свойства сессии   | 
  | 
Максимальное количество строк в каждом batch на запись.
Значение параметра может быть изменено с помощью свойства сессии   | 
  | 
Процент файлов Parquet, которые будут проверены после записи. Проверка файла предполагает чтение всех его данных.
Значение параметра может быть изменено с помощью свойства сессии   | 
Компрессия и декомпрессия файлов происходит автоматически.
Конфигурация ORC#
Используйте параметры ниже для настройки чтения и записи файлов в формате ORC.
Название  | 
Описание  | 
|---|---|
  | 
К какому часовому поясу приводить значения при работе с файлами ORC, в которых не задан часовой пояс. Значение по умолчанию: часовой пояс JVM.  | 
  | 
Использовать ли bloom filters для predicate pushdown. Значение по умолчанию:   | 
  | 
Позволяет читать файлы ORC с коротким идентификатором часового пояса в stripe footer. Значение по умолчанию:   | 
Компрессия и декомпрессия файлов происходит автоматически.