Snowflake коннектор#
Примечание
Ниже приведена оригинальная документация Trino. Скоро мы ее переведем на русский язык и дополним полезными примерами.
The Snowflake connector allows querying and creating tables in an external Snowflake account. This can be used to join data between different systems like Snowflake and Hive, or between two different Snowflake accounts.
Configuration#
To configure the Snowflake connector, create a catalog properties file
in etc/catalog
named, for example, example.properties
, to
mount the Snowflake connector as the snowflake
catalog.
Create the file with the following contents, replacing the
connection properties as appropriate for your setup:
connector.name=snowflake
connection-url=jdbc:snowflake://<account>.snowflakecomputing.com
connection-user=root
connection-password=secret
snowflake.account=account
snowflake.database=database
snowflake.role=role
snowflake.warehouse=warehouse
Arrow serialization support#
This is an experimental feature which introduces support for using Apache Arrow as the serialization format when reading from Snowflake. Please note there are a few caveats:
Using Apache Arrow serialization is disabled by default. In order to enable it, add
--add-opens=java.base/java.nio=ALL-UNNAMED
to the Trino JVM config.
Multiple Snowflake databases or accounts#
The Snowflake connector can only access a single database within a Snowflake account. Thus, if you have multiple Snowflake databases, or want to connect to multiple Snowflake accounts, you must configure multiple instances of the Snowflake connector.
Domain compaction threshold#
CedrusData позволяет делегировать применение предикатов источнику данных (pushdown). Во многих случаях это существенно
уменьшает количество записей, которые возвращает источник, и улучшает производительность. Однако, pushdown сложных
предикатов (например, выражение IN
со множеством значений) может негативно сказаться на производительности.
При достижении порога сложности предиката, CedrusData автоматически преобразует предикат к более компактной форме.
Например, предикат a IN (1, 2, ..., 100)
может быть преобразован в a BETWEEN 1 AND 100
. В большинстве случаев
такое преобразование улучшает производительность запросов. Однако, в некоторых случаях может быть предпочтительнее
передать сложный предикат в неизменном виде, так как источник данных может его обработать эффективнее, чем
преобразованный предикат.
Вы можете увеличить значение порога сложности, чтобы CedrusData передавал предикат в источник без изменений.
Используйте для этого параметр конфигурации каталога domain-compaction-threshold
или
свойство сессии domain_compaction_threshold
.
Type mapping#
Because Trino and Snowflake each support types that the other does not, this connector modifies some types when reading or writing data. Data types may not map the same way in both directions between Trino and the data source. Refer to the following sections for type mapping in each direction.
List of Snowflake data types.
Snowflake type to Trino type mapping#
The connector maps Snowflake types to the corresponding Trino types following this table:
Snowflake type |
Trino type |
Notes |
---|---|---|
|
|
|
|
|
Synonymous with |
|
|
The names |
|
|
Synonymous with |
|
|
Default precision and scale are (38,0). |
|
|
Synonymous with |
|
|
|
|
|
Synonymous with |
|
|
Synonymous with |
|
|
|
|
|
Synonymous with |
|
|
|
|
|
|
|
|
TIMESTAMP with no time zone; time zone, if provided, is not stored. See Snowflake Date & Time Data Types for more information. |
|
|
Alias for |
|
|
Alias for one of the |
|
|
TIMESTAMP with time zone. |
No other types are supported.
Trino type to Snowflake type mapping#
The connector maps Trino types to the corresponding Snowflake types following this table:
Trino type |
Snowflake type |
Notes |
---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
No other types are supported.
Конфигурация сопоставления типов#
Следующие параметры конфигурации могут быть использованы для изменения логики приведения типов.
Название |
Описание |
Значение по умолчанию |
---|---|---|
|
Как обрабатывать колонки неподдерживаемых типов: |
|
|
Список типов данных источника, которые должны быть принудительно приведены к |
SQL support#
The connector provides read access and write access to data and metadata in a Snowflake database. In addition to the globally available and read operation statements, the connector supports the following features:
Procedures#
system.flush_metadata_cache()
#
Очистить кэш JDBC метаданных. Команда ниже очищает кэш метаданных всех схем в каталоге example
.
USE example.example_schema;
CALL system.flush_metadata_cache();
system.execute('query')
#
Процедура execute
позволяет запустить SQL запрос к источнику в неизменном виде.
Данная процедура полезна, когда вам требуется воспользоваться специфичным синтаксисом источника, который недоступен в CedrusData.
В отличие от табличных функций query
и raw_query
данная процедура позволяет запускать SQL-запросы, который не возвращают записи
(например, DML и DDL команды).
Запрос из процедуры будет исполнен в источнике как есть, без дополнительных проверок доступа к конкретным объектам источника на стороне CedrusData.
Пример использования процедуры для вызова команды ALTER TABLE
на источнике:
USE example.example_schema;
CALL system.execute(query => 'ALTER TABLE your_table ALTER COLUMN your_column DROP DEFAULT');
Table functions#
The connector provides specific table functions to access Snowflake.
query(varchar) -> table
#
The query
function allows you to query the underlying database directly. It
requires syntax native to Snowflake, because the full query is pushed down and
processed in Snowflake. This can be useful for accessing native features which
are not available in Trino or for improving query performance in situations
where running a query natively may be faster.
Find details about the SQL support of Snowflake that you can use in the query in the Snowflake SQL Command Reference, including PIVOT, lateral joins and other statements and functions.
Предупреждение
Нативный запрос, переданный в источник, должен возвращать набор записей (result set). CedrusData не осуществляет проверку доступа текущего пользователя к объектам источника, задействованным в нативном запросе. Используйте нативные запросы только для чтения данных.
As a simple example, query the example
catalog and select an entire table:
SELECT
*
FROM
TABLE(
example.system.query(
query => 'SELECT
*
FROM
tpch.nation'
)
);
As a practical example, you can use the Snowflake SQL support for PIVOT to pivot on all distinct column values automatically with a dynamic pivot.
SELECT
*
FROM
TABLE(
example.system.query(
query => '
SELECT *
FROM quarterly_sales
PIVOT(SUM(amount) FOR quarter IN (ANY ORDER BY quarter))
ORDER BY empid;
'
)
);
Примечание
Полиморфные табличные функции не сохраняют оригинальный порядок записей в результате запроса. Есть переданный
запрос содержит запрос выражение ORDER BY
, функция может вернуть записи в ином порядке. Для восстановления
требуемого порядка используйте ORDER BY
в запросе CedrusData.
Performance#
The connector includes a number of performance improvements, detailed in the following sections.
Pushdown#
The connector supports pushdown for a number of operations:
Aggregate pushdown for the following functions:
Примечание
Коннектор осуществляет pushdown для улучшения производительности запросов. Коннектор не будет делать pushdown конкретной операции, если это может привести к некорректным результатам. Таким образом коннектор предпочитает корректность производительности. В некоторых случаях коннекторы могут предоставлять дополнительные параметры конфигурации, которые разрешают pushdown небезопасных операций, но только при явном указании соответствующего параметра пользователем.