Metastores (технические каталоги)#

CedrusData поддерживает работу с озерами данных с помощью коннекторов Hive, Iceberg, Delta Lake и Hudi. Для работы большинства данных коннекторов необходим так называемый metastore который содержит информацию о том, как представить файлы озера данных в качестве схем и таблиц CedrusData.

Metastore для коннектора Iceberg#

При работе с коннектором Iceberg необходимо задать тип metastore c помощью параметра конфигурации iceberg.catalog.type.

Примечание

Для работы с Iceberg мы рекомендуем использовать CedrusData Catalog] — высокопроизводительный каталог для Iceberg с поддержкой материализованных представлений и протокола Iceberg REST.

Допустимые значения:

cedrusdata_catalog: Использовать CedrusData Catalog] (рекомендуемый вариант)
rest: Использовать Iceberg REST Catalog
hive_metastore: Использовать Hive Metastore
jdbc: Использовать JDBC Catalog
nessie: Использовать Nessie
glue: Использовать AWS Glue Catalog
snowflake: Использовать Snowflake Catalog

CedrusData Catalog#

CedrusData Catalog — это высокопроизводительный каталог для Iceberg с поддержкой материализованных представлений и протокола Iceberg REST.

Примечание

CedrusData Catalog поддерживает наибольшее количество функций Iceberg, включая материализованные представления. Мы рекомендуем использовать CedrusData Catalog для всех новых проектов.

Вы можете подключиться к CedrusData Catalog в нативном режиме или через Iceberg REST протокол. Подключение в нативном режиме обеспечивает более высокую производительность и поддержку материализованных представлений. Процесс подключения в нативном режиме подробно описан в документе Работа с Iceberg через CedrusData Catalog.

Для подключения через Iceberg REST протокол воспользуйтесь разделом REST Catalog.

REST Catalog#

Вы можете использовать в качестве metastore любой сервис, который поддерживает протокол Iceberg REST. REST Catalog поддерживает виртуальные представления согласно Iceberg View specification. REST Catalog не поддерживает материализованные представления.

Примечание

Материализованные представления поддерживают CedrusData Catalog при работе в нативном режиме, а также Hive Metastore Catalog.

Примеры продуктов, которые поддерживают протокол Iceberg REST:

CedrusData Catalog (рекомендуем подключаться в нативном режиме)
Polaris

Для использования REST каталога необходимо задать параметр конфигурации каталога iceberg.catalog.type=rest, после чего задать дополнительные параметры, описанные ниже.

Конфигурация REST Catalog#
Параметр	Описание
`iceberg.rest-catalog.uri`	URI каталога. Например: Например: `http://cedrusdata-catalog:9080`.
`iceberg.rest-catalog.prefix`	Префикс, который будет использован для доступа к каталогу. Эквивалентен свойству Iceberg REST `prefix`. Опциональный параметр. Конкретное значения параметра и его семантический смысл зависят от реализации REST Catalog, который вы используете. Пример: `dev`.
`iceberg.rest-catalog.warehouse`	Название warehouse, которое будет передано каталогу в процессе инициализации. Эквивалентен свойству Iceberg REST `warehouse`. Конкретное значения параметра и его семантический смысл зависят от реализации REST Catalog, который вы используете. Некоторые каталоги могут ожидать в качестве значения данного параметра имя логического контейнера или путь файловой системы. Пример: `s3://my_bucket/warehouse_location`
`iceberg.rest-catalog.security`	Режим аутентификации. Допустимые значения: `NONE` — аутентификация отключена; `OAUTH2` — производить аутентификацию по протоколу OAUTH2. В последнем случае необходимо дополнительно задать один из параметров: `iceberg.rest-catalog.oauth2.token` или `iceberg.rest-catalog.oauth2.credential`. Значение по умолчанию: `NONE`.
`iceberg.rest-catalog.oauth2.token`	Задает значение, которое будет использовано в качестве bearer токена аутентификации. Эквивалентен свойству Iceberg REST `token`. Данный токен будет передан без изменений в каждом HTTP-запросе к REST Catalog без каких-либо изменений. Процесс получения токена зависит от реализации REST Catalog.
`iceberg.rest-catalog.oauth2.credential`	Задает значение, которое будет использовано в качестве credential. Эквивалентен свойству Iceberg REST `credential`. При инициализации подключения клиент REST Catalog произведет обмен credential на временный токен доступа, который будет периодически обновляться механизмами библиотеки Iceberg. Процесс получения credential зависит от реализации REST Catalog.
`iceberg.rest-catalog.oauth2.scope`	Строка, которая будет передана в качестве scope при аутентификации с использованием механизма credential.
`iceberg.rest-catalog.session`	Режим работы с каталогом. Допустимые значения: `NONE` и `USER`. В режиме `NONE` все команды к каталогу будут выполнены от имени пользователя, которому принадлежит token/credential. В режиме `USER` команды к каталогу будут выполнены с имперсонацией от имени текущего пользователя CedrusData. Для этого CedrusData будет сначала запрашивать у REST Catalog временный токен доступа для текущего пользователя, и выполнять последующие команды с временными токеном. Значение по умолчанию: `NONE`.

Примечание

Значение и смысл многих передаваемых параметров конфигурации зависит от конкретной реализации каталога. Например, различные каталоги могут по-разному поддерживать и обрабатывать параметры prefix и warehouse. Например, CedrusData Catalog использует параметр warehouse для указания логического каталога Iceberg, с которым будет происходить дальнейшая работа.

Пример конфигурации для подключения к CedrusData Catalog для REST Iceberg:

connector.name=iceberg
iceberg.catalog.type=rest
iceberg.rest-catalog.uri=http://example-catalog:9080/catalog/iceberg
iceberg.rest-catalog.warehouse=ice_prod
iceberg.rest-catalog.security=oauth2
iceberg.rest-catalog.oauth2.credential=${ENV:CATALOG_ACCESS_TOKEN}
iceberg.rest-catalog.session =user

Hive Metastore Catalog#

Коннектор Iceberg может использовать Hive Metastore для хранения метаданных. Для использования Hive Metastore задайте параметр iceberg.catalog.type=hive_metastore. Остальные параметры Hive Metastore идентичны параметрам, указанным в секции Hive Metastore.

JDBC Catalog#

Вы можете использовать в качестве metastore JDBC Catalog. JDBC Catalog — это база данных, с которой CedrusData взаимодействует по протоколу JDBC.

JDBC Catalog поддерживает виртуальные представления согласно Iceberg View specification. JDBC Catalog не поддерживает материализованные представления.

Предупреждение

При использовании JDBC Catalog у вас могут возникнуть проблемы совместимости в будущем, если сообщество Iceberg примет решение сделать несовместимые изменения. Мы рекомендуем использовать CedrusData Catalog или REST Catalog.

Предупреждение

При использовании JDBC catalog вы должны создать таблицы в базе данных самостоятельно. См. Iceberg repository.

Для конфигурации JDBC каталога необходимо указать JDBC URL и другие параметры подключения, а также положить JDBC драйвер соответствующей СУБД в директорию plugin/iceberg.

Конфигурация JDBC Catalog#
Параметр	Описание
`iceberg.jdbc-catalog.driver-class`	Fully-qualified имя класса JDBC драйвера.
`iceberg.jdbc-catalog.connection-url`	URL для подключения по JDBC.
`iceberg.jdbc-catalog.connection-user`	Имя пользователя для подключения по JDBC.
`iceberg.jdbc-catalog.connection-password`	Пароль для подключения по JDBC.
`iceberg.jdbc-catalog.catalog-name`	Имя логического каталога, которое будет сохранено в СУБД
`iceberg.jdbc-catalog.default-warehouse-dir`	Путь в файловой системе, который будет использован по умолчанию для создания таблиц и представлений. Например, `s3://bucket`.
`iceberg.jdbc-catalog.schema-version`	Версия схемы JDBC. Допустимые значения: `v1`, `v0`. Значение по умолчанию: `v1`.

Пример конфигурации JDBC Catalog:

connector.name=iceberg
iceberg.catalog.type=jdbc
iceberg.jdbc-catalog.catalog-name=test
iceberg.jdbc-catalog.driver-class=org.postgresql.Driver
iceberg.jdbc-catalog.connection-url=jdbc:postgresql://example.net:5432/database
iceberg.jdbc-catalog.connection-user=admin
iceberg.jdbc-catalog.connection-password=test
iceberg.jdbc-catalog.default-warehouse-dir=s3://bucket

Nessie Catalog#

Примечание

Ниже приведена оригинальная документация Trino. Скоро мы ее переведем на русский язык и дополним полезными примерами.

In order to use a Nessie catalog, configure the catalog type with iceberg.catalog.type=nessie and provide further details with the following properties:

Nessie catalog configuration properties#
Property name	Description
`iceberg.nessie-catalog.uri`	Nessie API endpoint URI (required). Example: `https://localhost:19120/api/v2`
`iceberg.nessie-catalog.ref`	The branch/tag to use for Nessie. Defaults to `main`.
`iceberg.nessie-catalog.default-warehouse-dir`	Default warehouse directory for schemas created without an explicit `location` property. Example: `/tmp`
`iceberg.nessie-catalog.read-timeout`	The read timeout duration for requests to the Nessie server. Defaults to `25s`.
`iceberg.nessie-catalog.connection-timeout`	The connection timeout duration for connection requests to the Nessie server. Defaults to `5s`.
`iceberg.nessie-catalog.enable-compression`	Configure whether compression should be enabled or not for requests to the Nessie server. Defaults to `true`.
`iceberg.nessie-catalog.authentication.type`	The authentication type to use. Available value is `BEARER`. Defaults to no authentication.
`iceberg.nessie-catalog.authentication.token`	The token to use with `BEARER` authentication. Example: `SXVLUXUhIExFQ0tFUiEK`
`iceberg.nessie-catalog.client-api-version`	Optional version of the Client API version to use. By default it is inferred from the `iceberg.nessie-catalog.uri` value. Valid values are `V1` or `V2`.

connector.name=iceberg
iceberg.catalog.type=nessie
iceberg.nessie-catalog.uri=https://localhost:19120/api/v2
iceberg.nessie-catalog.default-warehouse-dir=/tmp

The Nessie catalog does not support view management or materialized view management.

Iceberg-specific Glue catalog configuration properties#

Примечание

Ниже приведена оригинальная документация Trino. Скоро мы ее переведем на русский язык и дополним полезными примерами.

When using the Glue catalog, the Iceberg connector supports the same general Glue configuration properties as previously described with the following additional property:

Iceberg Glue catalog configuration property#
Property name	Description	Default
`iceberg.glue.skip-archive`	Skip archiving an old table version when creating a new version in a commit. See AWS Glue Skip Archive.	`true`

Snowflake catalog#

Примечание

Ниже приведена оригинальная документация Trino. Скоро мы ее переведем на русский язык и дополним полезными примерами.

In order to use a Snowflake catalog, configure the catalog type with iceberg.catalog.type=snowflake and provide further details with the following properties:

Snowflake catalog configuration properties#
Property name	Description
`iceberg.snowflake-catalog.account-uri`	Snowflake JDBC account URI (required). Example: `jdbc:snowflake://example123456789.snowflakecomputing.com`
`iceberg.snowflake-catalog.user`	Snowflake user (required).
`iceberg.snowflake-catalog.password`	Snowflake password (required).
`iceberg.snowflake-catalog.database`	Snowflake database name (required).
`iceberg.snowflake-catalog.role`	Snowflake role name

connector.name=iceberg
iceberg.catalog.type=snowflake
iceberg.snowflake-catalog.account-uri=jdbc:snowflake://example1234567890.snowflakecomputing.com
iceberg.snowflake-catalog.user=user
iceberg.snowflake-catalog.password=secret
iceberg.snowflake-catalog.database=db

When using the Snowflake catalog, data management tasks such as creating tables, must be performed in Snowflake because using the catalog from external systems like Trino only supports SELECT queries and other read operations.

Additionally, the Snowflake-created Iceberg tables do not expose partitioning information, which prevents efficient parallel reads and therefore can have significant negative performance implications.

The Snowflake catalog does not support view management or materialized view management.

Further information is available in the Snowflake catalog documentation.

Metastore для коннекторов Hive, Delta Lake и Hudi#

При работе с коннекторами Hive, Delta Lake и Hudi вы можете использовать два типа metastore: Hive Metastore и AWS Glue.

Hive Metastore#

Для использования Hive Metastore необходимо задать параметр конфигурации каталога hive.metastore=thrift.

Примечание

Если вы используете Hive Metastore для коннектора Iceberg, то необходимо задать параметр конфигурации iceberg.catalog.type=hive_metastore вместо hive.metastore=thrift.

Работа с Hive Metastore происходит по протоколу Thrift.

Общая конфигурация Hive Metastore#

Конфигурация Hive Metastore#
Параметр	Описание
`hive.metastore.uri`	URI для подключения к Hive Metastore. Можно задать несколько URI через запятую. В таком случае будет использован первый URI, но в случае его недоступности CedrusData будет использовать другие URI в порядке указания. Примеры: `thrift://192.0.2.3:9083`, `thrift://192.0.2.3:9083,thrift://192.0.2.4:9083`.
`hive.metastore.username`	Имя пользователя для подключения к Hive Metastore.
`hive.metastore.thrift.catalog-name`	Имя логического каталога Hive Metastore. Используйте данное свойство, если вы хотите использовать Hive Metastore для работы с несколькими логическими каталогами. Значение по умолчанию: `hive`.
`hive.metastore.thrift.client.connect-timeout`	Таймаут подключения к Hive Metastore. Значение по умолчанию: `10s`.
`hive.metastore.thrift.client.read-timeout`	Таймаут чтения данных из Hive Metastore. Значение по умолчанию: `10s`.
`hive.metastore.thrift.use-spark-table-statistics-fallback`	Включает использование статистики таблицы Hive, которые были созданы при записи данных из Apache Spark. Значение по умолчанию: `true`.
`hive.metastore.thrift.delegation-token.cache-ttl`	TTL для кэша delegation token. Значение по умолчанию: `1h`.
`hive.metastore.thrift.delegation-token.cache-maximum-size`	Максимальный размер кэша delegation token. Значение по умолчанию: `1000`.
`hive.metastore.thrift.client.ssl.enabled`	Использовать ли SSL при подключении к Hive Metastore. Значение по умолчанию: `false`.
`hive.metastore.thrift.client.ssl.key`	Путь к keystore для подключения к Hive Metastore.
`hive.metastore.thrift.client.ssl.key-password`	Пароль от keystore для подключения к Hive Metastore.
`hive.metastore.thrift.client.ssl.trust-certificate`	Путь к truststore для подключения к Hive Metastore.
`hive.metastore.thrift.client.ssl.trust-certificate-password`	Пароль от truststore для подключения к Hive Metastore
`hive.metastore.thrift.batch-fetch.enabled`	Получать ли список таблиц и представлений из всех схем Hive Metastore в рамках одного запроса. Значение по умолчанию: `true`.
`hive.metastore.thrift.delete-files-on-drop`	Удалять ли самостоятельно файлы данных managed таблиц Hive в процессе выполнения команд по удалению таблиц или партиций, когда Hive Metastore не удаляет эти данные самостоятельно. Значение по умолчанию: `false`.
`hive.metastore.thrift.assume-canonical-partition-keys`	Позволить Hive Metastore предположить, что значения ключей партиционирования могут быть конвертированы в строки. Включение данной опций может улучшить производительность, когда присутствуют фильтр на колонках партиционирования. Значения `TIMESTAMP` не могут быть трансформированы таким образом. Значение по умолчанию: `false`.
`hive.metastore.thrift.client.socks-proxy`	SOCKS proxy, который будет использован при взаимодействии с Hive Metastore.
`hive.metastore.thrift.client.max-retries`	Максимальное количество retry при отправке запросов в Hive Metastore.
`hive.metastore.thrift.client.backoff-scale-factor`	Scale factor для определения задержки в случае retry. Значение по умолчанию: `2.0`.
`hive.metastore.thrift.client.max-retry-time`	Общее время, которое может быть потрачено на retry. Значение по умолчанию: `30s`.
`hive.metastore.thrift.client.min-backoff-delay`	Минимальная задержка между retry запросов. Значение по умолчанию: `1s`.
`hive.metastore.thrift.client.max-backoff-delay`	Максимальная задержка между retry запросов. Значение по умолчанию: `1s`.
`hive.metastore.thrift.txn-lock-max-wait`	Максимальное время, в течение которого можно ожидать получения блокировки транзакции. Значение по умолчанию: `10m`.

Вы также можете подключиться к Hive Metastore по протоколу HTTP. Для этого необходимо задать параметр hive.metastore.uri с использованием протокола http:// или https://.

Конфигурация Hive Metastore для HTTP#
Параметры	Название
`hive.metastore.http.client.authentication.type`	Способ аутентификации. Единственное поддерживаемое на данный момент значение — `BEARER`.
`hive.metastore.http.client.bearer-token`	Bearer токен аутентификации, который будет использован, если подключение происходит по протоколу `https://`. Не используйте данный параметр при подключении по протоколу `http://`.
`hive.metastore.http.client.additional-headers`	Дополнительные заголовки, которые будут добавлены к HTTP-запросам к Hive Metastore. Заголовки должны быть разделены запятой. Имя и значение заголовка должно быть разделено двоеточием. Например: `header1:value1,header2:value2` Вы можете экранировать запятую (`,`) or или двоеточие (`:`) в имени или значении заголовка с помощью символа `\`.

Аутентификация в Hive Metastore#

Если вы используете керберизованного кластер Hadoop, CedrusData будет подключаться к сервису Hive Metastore через SASL и проходить аутентификацию через Kerberos.

Используйте перечисленные ниже параметры для настройки подключения к Hive Metastore через Kerberos.

Параметры аутентификации Hive Metastore#
Параметр	Описание
`hive.metastore.authentication.type`	Способ аутентификации. `NONE` — аутентификация отключена. `KERBEROS` — включена аутентификация с помощью Kerberos. Значение по умолчанию: `NONE`.
`hive.metastore.thrift.impersonation.enabled`	Включает имперсонацию при взаимодействии с Hive Metastore. Значение по умолчанию: `false`.
`hive.metastore.service.principal`	Kerberos principal сервиса Hive Metastore. Используется при `KERBEROS` аутентификации. Вы можете использовать метку `_HOST` в значении данного параметра. При подключении к Hive Metastore CedrusData автоматически заменит все вхождения метки на host сервиса Hive Metastore. Примеры: `hive/hive-server-host@EXAMPLE.COM`, `hive/_HOST@EXAMPLE.COM`.
`hive.metastore.client.principal`	Kerberos principal, который использует CedrusData для подключения к Hive Metastore. Используется при `KERBEROS` аутентификации. Вы можете использовать метку `_HOST` в значении данного параметра. При подключении к Hive Metastore CedrusData автоматически заменит все вхождения метки на host текущего узла CedrusData. Если имперсонация включена, указанный principal должен иметь права на имперсонацию текущего пользователя CedrusData, как описано в HDFS impersonation. Если имперсонация отключена, principal должен иметь достаточные привилегии для удаления файлов в директории `hive/warehouse`. Внимание: Если principal не имеет достаточных привилегий, то при удалении таблицы будут удалены только метаданные. Это происходит, потому что за удаление данных отвечает непосредственно Hive Metastore. И когда включен Kerberos, то ошибки доступа при удалении файлов не будут доставлены до CedrusData из-за особенностей реализации Hive Metastore. Примеры: `trino/trino-server-node@EXAMPLE.COM`, `trino/_HOST@EXAMPLE.COM`.
`hive.metastore.client.keytab`	Путь к keytab, принадлежащему указанному в параметре `hive.metastore.client.principal` principal. Используется при `KERBEROS` аутентификации. Узел CedrusData должен иметь доступ на чтение к данному файлу. Keytab должен быть скопирован на все узлы CedrusData.

Пример конфигурации с отключенной аутентификацией#

hive.metastore.authentication.type=NONE

Пример конфигурации аутентификации через Kerberos с имперсонацией#

hive.metastore.authentication.type=KERBEROS
hive.metastore.thrift.impersonation.enabled=true
hive.metastore.service.principal=hive/hive-metastore-host.example.com@EXAMPLE.COM
hive.metastore.client.principal=trino@EXAMPLE.COM
hive.metastore.client.keytab=/etc/trino/hive.keytab

При подключении CedrusData использует principal trino@EXAMPLE.COM и его keytab /etc/trino/hive.keytab. После аутентификации CedrusData проверяет, что principal сервиса Hive Metastore совпадает с hive/hive-metastore-host.example.com@EXAMPLE.COM.

Кэширование при работе с Hive Metastore#

CedrusData позволяет кэшировать данные из Hive Metastore для снижения времени выполнения SQL-запросов. Используйте параметры ниже для конфигурации кэша данных из Hive Metastore.

Конфигурация кэша Hive Metastore#
Параметр	Описание
`hive.metastore-cache-ttl`	Задает TTL для кэша метаданных. Нулевое значение означает, что кэш метаданных отключен. Значение по умолчанию: `0s` (кэш метаданных отключен)
`hive.metastore-stats-cache-ttl`	Задает TTL для кэша статистик таблиц. Нулевое значение означает, что кэш статистик отключен. Значение по умолчанию: `0s` (кэш статистик отключен)
`hive.metastore-cache-maximum-size`	Максимальное количество объектов, которое может быть закэшировано. Значение по умолчанию: `20000`
`hive.metastore-cache.cache-partitions`	Кэшировать ли метаданные партиций. Значение по умолчанию:`true`.
`hive.metastore-cache.cache-missing`	Кэшировать ли факт отсутствия таблицы. Значение по умолчанию: `true`.
`hive.metastore-cache.cache-missing-partitions`	Кэшировать ли факт отсутствия партиции. Значение по умолчанию: `афдыу`.
`hive.metastore-cache.cache-missing-stats`	Кэшировать ли факт отсутствия статистик конкретной таблицы. Значение по умолчанию: `false`.
`hive.metastore-refresh-interval`	Задает частоту обновления метаданных закэшированных объектов.
`hive.metastore-refresh-max-threads`	Максимальное количество потоков, осуществляющих обновление метаданных закэшированных объектов. Значение по умолчанию: `10`.

Работа с Avro#

Если вы работаете с форматом Avro совместно с Hive Metastore, необходимо добавить следующий параметр конфигурации в hive-site.xml:

<property>
     <!-- https://community.hortonworks.com/content/supportkb/247055/errorjavalangunsupportedoperationexception-storage.html -->
     <name>metastore.storage.schema.reader.impl</name>
     <value>org.apache.hadoop.hive.metastore.SerDeStorageSchemaReader</value>
 </property>

AWS Glue catalog configuration properties#

Примечание

Ниже приведена оригинальная документация Trino. Скоро мы ее переведем на русский язык и дополним полезными примерами.

In order to use an AWS Glue catalog, you must configure your catalog file as follows:

hive.metastore=glue and provide further details with the following properties:

AWS Glue catalog configuration properties#
Property Name	Description	Default
`hive.metastore.glue.region`	AWS region of the Glue Catalog. This is required when not running in EC2, or when the catalog is in a different region. Example: `us-east-1`
`hive.metastore.glue.endpoint-url`	Glue API endpoint URL (optional). Example: `https://glue.us-east-1.amazonaws.com`
`hive.metastore.glue.sts.region`	AWS region of the STS service to authenticate with. This is required when running in a GovCloud region. Example: `us-gov-east-1`
`hive.metastore.glue.sts.endpoint`	STS endpoint URL to use when authenticating to Glue (optional). Example: `https://sts.us-gov-east-1.amazonaws.com`
`hive.metastore.glue.pin-client-to-current-region`	Pin Glue requests to the same region as the EC2 instance where Trino is running.	`false`
`hive.metastore.glue.max-connections`	Max number of concurrent connections to Glue.	`30`
`hive.metastore.glue.max-error-retries`	Maximum number of error retries for the Glue client.	`10`
`hive.metastore.glue.default-warehouse-dir`	Default warehouse directory for schemas created without an explicit `location` property.
`hive.metastore.glue.use-web-identity-token-credentials-provider`	If you are running Trino on Amazon EKS, and authenticate using a Kubernetes service account, you can set this property to `true`. Setting to `true` forces Trino to not try using different credential providers from the default credential provider chain, and instead directly use credentials from the service account.	`false`
`hive.metastore.glue.aws-access-key`	AWS access key to use to connect to the Glue Catalog. If specified along with `hive.metastore.glue.aws-secret-key`, this parameter takes precedence over `hive.metastore.glue.iam-role`.
`hive.metastore.glue.aws-secret-key`	AWS secret key to use to connect to the Glue Catalog. If specified along with `hive.metastore.glue.aws-access-key`, this parameter takes precedence over `hive.metastore.glue.iam-role`.
`hive.metastore.glue.catalogid`	The ID of the Glue Catalog in which the metadata database resides.
`hive.metastore.glue.iam-role`	ARN of an IAM role to assume when connecting to the Glue Catalog.
`hive.metastore.glue.external-id`	External ID for the IAM role trust policy when connecting to the Glue Catalog.
`hive.metastore.glue.partitions-segments`	Number of segments for partitioned Glue tables.	`5`
`hive.hide-delta-lake-tables`	Controls whether to hide Delta Lake tables in table listings. Currently applies only when using the AWS Glue metastore.	`false`

Athena partition projection#

Примечание

Ниже приведена оригинальная документация Trino. Скоро мы ее переведем на русский язык и дополним полезными примерами.

Partition projection is a feature of AWS Athena often used to speed up query processing with highly partitioned tables when using the Hive connector.

Trino supports partition projection table properties stored in the Hive metastore or Glue catalog, and it reimplements this functionality. Currently, there is a limitation in comparison to AWS Athena for date projection, as it only supports intervals of DAYS, HOURS, MINUTES, and SECONDS.

If there are any compatibility issues blocking access to a requested table when partition projection is enabled, set the partition_projection_ignore table property to true for a table to bypass any errors.

Refer to Table properties and Column properties for configuration of partition projection.