MariaDB коннектор#

Примечание

Ниже приведена оригинальная документация Trino. Скоро мы ее переведем на русский язык и дополним полезными примерами.

The MariaDB connector allows querying and creating tables in an external MariaDB database.

Требования#

To connect to MariaDB, you need:

MariaDB version 10.2 or higher.
Network access from the Trino coordinator and workers to MariaDB. Port 3306 is the default port.

Конфигурация#

To configure the MariaDB connector, create a catalog properties file in etc/catalog named, for example, example.properties, to mount the MariaDB connector as the example catalog. Create the file with the following contents, replacing the connection properties as appropriate for your setup:

connector.name=mariadb
connection-url=jdbc:mariadb://example.net:3306
connection-user=root
connection-password=secret

The connection-user and connection-password are typically required and determine the user credentials for the connection, often a service user. You can use secrets to avoid actual values in the catalog properties files.

Аутентификация в источнике данных#

Вы можете предоставить имя пользователя и пароль для подключения к источнику данных несколькими способами:

INLINE - в файле конфигурации каталога (в том числе, используя секреты, что бы не хранить значения в открытом виде).
FILE - в отдельном properties файле.
KEYSTORE - в зашифрованном keystore файле.
Из extra credentials клиента CedrusData.

The following table describes configuration properties for connection credentials:

Property name	Description
`credential-provider.type`	Тип credential provider. Допустимые значения: `INLINE` (значение по умолчанию), `FILE` или `KEYSTORE`.
`connection-user`	Имя пользователя для подключения к источнику. Используется при `credential-provider.type=INLINE`.
`connection-password`	Пароль для подключения к источнику. Используется при `credential-provider.type=INLINE`.
`connection-credential-file`	Путь к properties файлу, содержащему параметры `connection-user` and `connection-password`. Используется при `credential-provider.type=FILE`.
`keystore-file-path`	Путь к keystore файлу, из которого следует прочитать имя пользователя и пароль. Используется при `credential-provider.type=KEYSTORE`.
`keystore-type`	Тип keystore файла. Например, `JKS` или `PEM`.
`keystore-password`	Пароль к keystore файлу.
`keystore-user-credential-name`	Имя keystore entity, содержащей имя пользователя для подключения к источнику.
`keystore-user-credential-password`	Пароль к keystore entity, содержащей имя пользователя для подключения к источнику
`keystore-password-credential-name`	Имя keystore entity, содержащей пароль для подключения к источнику.
`keystore-password-credential-password`	Пароль к keystore entity, содержащей пароль для подключения к источнику.
`user-credential-name`	Имя параметра extra credentials, значение которого следует использовать в качестве имени пользователя. См. `extraCredentials` в разделе Параметры подключения.
`password-credential-name`	Имя параметра extra credentials, значение которого следует использовать в качестве пароля. См. `extraCredentials` в разделе Параметры подключения.

Общие параметры конфигурации#

Общие параметры конфигурации каталога приведены в таблице ниже:

Название	Описание	Значение по умолчанию
`case-insensitive-name-matching`	Включить поддержку case insensitive идентификаторов.	`false`
`case-insensitive-name-matching.cache-ttl`	Время жизни закэшированных метаданных о case insensitive идентификаторах.	`1m`
`case-insensitive-name-matching.config-file`	Путь к файлу конфигурации в формате JSON, который позволяет разрешать конфликты имен между case insensitive схемами и таблицами.	`null`
`case-insensitive-name-matching.config-file.refresh-period`	Частота проверки обновлений файла `case-insensitive-name-matching.config-file`.	`0` (refresh disabled)
`metadata.cache-ttl`	Время жизни закэшированных метаданных. Положительное значение включает кэширование.	`0` (caching disabled)
`metadata.cache-missing`	Кэшировать ли информацию о том, что для используемых таблиц и колонок отсутствуют статистики. Включение данного параметра может ускорить планирование некоторых запросов. Однако, если информация об отсутствии статистик для конкретного объекта СУБД закэширована, но статистики стали доступны позднее (например, была запущена команда `ANALYZE`), CedrusData не сможет использовать статистики, пока не истечет время жизни закэшированной записи в соответствии с `metadata.cache-ttl`.	`false`
`metadata.cache-maximum-size`	Максимальное количество объектов, хранящихся в metadata cache.	`10000`
`write.batch-size`	Максимальное количество команд в batch операциях записи данных. Изменение данного параметра не рекомендовано, так как оно может негативно сказаться на производительности.	`1000`
`dynamic-filtering.enabled`	Использовать ли динамические фильтры при работе с JDBC источником.	`true`
`dynamic-filtering.wait-timeout`	Максимальное время ожидания готовности динамических фильтров с build стороны оператора join перед запуском JDBC запроса к источнику. Увеличение таймаута может позволить CedrusData выполнить запрос к источнику с более селективными фильтрами, но в то же время может увеличить latency некоторых запросов.	`20s`

Domain compaction threshold#

CedrusData позволяет делегировать применение предикатов источнику данных (pushdown). Во многих случаях это существенно уменьшает количество записей, которые возвращает источник, и улучшает производительность. Однако, pushdown сложных предикатов (например, выражение IN со множеством значений) может негативно сказаться на производительности. При достижении порога сложности предиката, CedrusData автоматически преобразует предикат к более компактной форме. Например, предикат a IN (1, 2, ..., 100) может быть преобразован в a BETWEEN 1 AND 100. В большинстве случаев такое преобразование улучшает производительность запросов. Однако, в некоторых случаях может быть предпочтительнее передать сложный предикат в неизменном виде, так как источник данных может его обработать эффективнее, чем преобразованный предикат.

Вы можете увеличить значение порога сложности, что бы CedrusData передавал предикат в источник без изменений. Используйте для этого параметр конфигурации каталога domain-compaction-threshold или параметр сессии domain_compaction_threshold catalog session property.

Case insensitive идентификаторы#

Когда параметр конфигурации case-insensitive-name-matching установлен в true, CedrusData может обращаться к схемам и таблицам источника, имена которых на являются lowercase. Для этого CedrusData сопоставляет lowercase название схемы или таблицы с ее реальным названием в источнике данных. Например, если таблица в источнике данных имеет название Customers, CedrusData позволяет обратиться к ней по имени customers.

В случае, если источник имеет несколько объектов, имена которых отличаются только регистром (например, Customer и customer), CedrusData не может автоматически определить, к какому объекту обращаться.

В этом случае вы можете явно задать сопоставление имен в помощью файла в JSON формате, путь к которому следует указать в параметре конфигурации каталога case-insensitive-name-matching.config-file. Например:

{
  "schemas": [
    {
      "remoteSchema": "CaseSensitiveName",
      "mapping": "case_insensitive_1"
    },
    {
      "remoteSchema": "cASEsENSITIVEnAME",
      "mapping": "case_insensitive_2"
    }],
  "tables": [
    {
      "remoteSchema": "CaseSensitiveName",
      "remoteTable": "tablex",
      "mapping": "table_1"
    },
    {
      "remoteSchema": "CaseSensitiveName",
      "remoteTable": "TABLEX",
      "mapping": "table_2"
    }]
}

В данном случае, при обращении из CedrusData к схеме case_insensitive_1, запрос будет переадресован к схеме источника CaseSensitiveName, а при обращении из CedrusData к таблице case_insensitive_1.table_1 запрос будет переадресован к таблице источника CaseSensitiveName.tablex.

По умолчанию если вы изменяете содержимое данного файла, экземпляр CedrusData должен быть перезапущен, что бы применить изменения. Если вы хотите изменять содержимое файла без перезапуска CedrusData, вы можете установить параметр конфигурации case-insensitive-name-mapping.refresh-period, который определяет частоту повторного чтения данного файла.

case-insensitive-name-mapping.refresh-period=30s

Нетракзакционный INSERT#

Коннектор поддерживает добавление записей в источник с помощью команды INSERT statements. По умолчанию CedrusData осуществляет запись данных, используя временную таблицу, что обеспечивает транзакционные гарантии: в источник будут записаны либо все данные, либо не будет записано ничего (в случае возникновения ошибки). Однако,

Вы можете осуществлять запись данных в таблицу источника напрямую, минуя временную таблицу. Для этого установите параметр конфигурации каталога insert.non-transactional-insert.enabled или параметр сессии non_transactional_insert в значение true. Изменение данного параметра может улучшает производительность записи, но так же может привести данные в источнике в неопределенное состояние при возникновении ошибки в момент записи. Например, если при вставке 10 записей в таблицу источника в середине процесса произошла ошибка, откат вставки уже сохраненных записей может оказаться невозможным, и после выполнения команды источник будет содержать только часть записей.

Querying MariaDB#

The MariaDB connector provides a schema for every MariaDB database. You can see the available MariaDB databases by running SHOW SCHEMAS:

SHOW SCHEMAS FROM example;

If you have a MariaDB database named web, you can view the tables in this database by running SHOW TABLES:

SHOW TABLES FROM example.web;

You can see a list of the columns in the clicks table in the web database using either of the following:

DESCRIBE example.web.clicks;
SHOW COLUMNS FROM example.web.clicks;

Finally, you can access the clicks table in the web database:

SELECT * FROM example.web.clicks;

If you used a different name for your catalog properties file, use that catalog name instead of example in the above examples.

Type mapping#

Because Trino and MariaDB each support types that the other does not, this connector modifies some types when reading or writing data. Data types may not map the same way in both directions between Trino and the data source. Refer to the following sections for type mapping in each direction.

MariaDB type to Trino type mapping#

The connector maps MariaDB types to the corresponding Trino types according to the following table:

MariaDB type to Trino type mapping#
MariaDB type	Trino type	Notes
`BOOLEAN`	`TINYINT`	`BOOL` and `BOOLEAN` are aliases of `TINYINT(1)`
`TINYINT`	`TINYINT`
`SMALLINT`	`SMALLINT`
`INT`	`INTEGER`
`BIGINT`	`BIGINT`
`FLOAT`	`REAL`
`DOUBLE`	`DOUBLE`
`DECIMAL(p,s)`	`DECIMAL(p,s)`
`CHAR(n)`	`CHAR(n)`
`TINYTEXT`	`VARCHAR(255)`
`TEXT`	`VARCHAR(65535)`
`MEDIUMTEXT`	`VARCHAR(16777215)`
`LONGTEXT`	`VARCHAR`
`VARCHAR(n)`	`VARCHAR(n)`
`TINYBLOB`	`VARBINARY`
`BLOB`	`VARBINARY`
`MEDIUMBLOB`	`VARBINARY`
`LONGBLOB`	`VARBINARY`
`VARBINARY(n)`	`VARBINARY`
`DATE`	`DATE`
`TIME(n)`	`TIME(n)`
`TIMESTAMP(n)`	`TIMESTAMP(n)`	MariaDB stores the current timestamp by default. Enable explicit_defaults_for_timestamp to avoid implicit default values and use `NULL` as the default value.

No other types are supported.

Trino type mapping to MariaDB type mapping#

The connector maps Trino types to the corresponding MariaDB types according to the following table:

Trino type mapping to MariaDB type mapping#
Trino type	MariaDB type	Notes
`BOOLEAN`	`BOOLEAN`
`TINYINT`	`TINYINT`
`SMALLINT`	`SMALLINT`
`INTEGER`	`INT`
`BIGINT`	`BIGINT`
`REAL`	`FLOAT`
`DOUBLE`	`DOUBLE`
`DECIMAL(p,s)`	`DECIMAL(p,s)`
`CHAR(n)`	`CHAR(n)`
`VARCHAR(255)`	`TINYTEXT`	Maps on `VARCHAR` of length 255 or less.
`VARCHAR(65535)`	`TEXT`	Maps on `VARCHAR` of length between 256 and 65535, inclusive.
`VARCHAR(16777215)`	`MEDIUMTEXT`	Maps on `VARCHAR` of length between 65536 and 16777215, inclusive.
`VARCHAR`	`LONGTEXT`	`VARCHAR` of length greater than 16777215 and unbounded `VARCHAR` map to `LONGTEXT`.
`VARBINARY`	`MEDIUMBLOB`
`DATE`	`DATE`
`TIME(n)`	`TIME(n)`
`TIMESTAMP(n)`	`TIMESTAMP(n)`	MariaDB stores the current timestamp by default. Enable explicit_defaults_for_timestamp to avoid implicit default values and use `NULL` as the default value.

No other types are supported.

Complete list of MariaDB data types.

Конфигурация приведения типов#

Следующие параметры конфигурации могут быть использованы для изменения логики приведения типов.

Название	Описание	Значение по умолчанию
`unsupported-type-handling`	Как обрабатывать колонки неподдерживаемых типов: * `IGNORE`, не обрабатывать колонку. * `CONVERT_TO_VARCHAR`, привести значение колонки к `VARCHAR` неограниченной длины. Соответствующий параметр сессии: `unsupported_type_handling`.	`IGNORE`
`jdbc-types-mapped-to-varchar`	Список типов данных источника, которые должны быть принудительно приведены к `VARCHAR` неограниченной длины (даже если указанный тип поддерживается коннектором).

SQL support#

The connector provides read access and write access to data and metadata in a MariaDB database. In addition to the globally available and read operation statements, the connector supports the following features:

SQL DELETE#

Команда DELETE с выражением WHERE работает только в случае, когда выполнение предиката может быть полностью делегировано источнику.

Table functions#

The connector provides specific table functions to access MariaDB.

`query(varchar) -> table`#

The query function allows you to query the underlying database directly. It requires syntax native to MariaDB, because the full query is pushed down and processed in MariaDB. This can be useful for accessing native features which are not available in Trino or for improving query performance in situations where running a query natively may be faster.

Примечание

Полиморфные табличные функции не всегда сохраняют оригинальный порядок записей в результате запроса. Есть табличная функция содержит запрос с ORDER BY, результат работы функции может вернуть записи в ином порядке. Для восстановления требуемого порядка используйте ORDER BY в запросе CedrusData.

As an example, select the age of employees by using TIMESTAMPDIFF and CURDATE:

SELECT
  age
FROM
  TABLE(
    example.system.query(
      query => 'SELECT
        TIMESTAMPDIFF(
          YEAR,
          date_of_birth,
          CURDATE()
        ) AS age
      FROM
        tiny.employees'
    )
  );

Performance#

The connector includes a number of performance improvements, detailed in the following sections.

Pushdown#

The connector supports pushdown for a number of operations:

Aggregate pushdown for the following functions:

Predicate pushdown support#

The connector does not support pushdown of any predicates on columns with textual types like CHAR or VARCHAR. This ensures correctness of results since the data source may compare strings case-insensitively.

In the following example, the predicate is not pushed down for either query since name is a column of type VARCHAR:

SELECT * FROM nation WHERE name > 'CANADA';
SELECT * FROM nation WHERE name = 'CANADA';