Snowflake: Віртуальні колонки для спрощення даних та ШІ

Віртуальні колонки, які є потужною функцією традиційних систем управління реляційними базами даних (RDBMS), тепер загальнодоступні у Snowflake. Ця інновація забезпечує виразну гнучкість безпосередньо на рівні таблиць, усуваючи потребу в додатковій складності, коли прості бізнес-правила не виправдовують архітектурних накладних витрат.

Спрощення роботи з даними

У сучасній інженерії даних спостерігається чітка тенденція до переміщення бізнес-логіки якомога ближче до необроблених даних. Це дозволяє уникнути розсіювання логіки по численних BI-дашбордах. Хоча команди працюють зі все більш складними вкладеними структурами даних, бажання підтримувати заплутані конвеєри даних зменшується. Розробники та аналітики прагнуть до самообслуговування та гнучкого доступу до даних, зберігаючи при цьому чистоту схеми.

Історично, для стандартизації показників, таких як маржа прибутку, або вилучення простого поштового індексу з глибоко вкладеного JSON-об'єкта, інженери даних мали два варіанти:

Створити спеціальне представлення (view) поверх таблиці, що вимагало оновлення та, можливо, повторного розгортання конвеєрів даних.
Виконати дорогі та тривалі операції UPDATE або INSERT OVERWRITE для заповнення мільйонів рядків, що споживало обчислювальні ресурси та займало години.

Як працюють віртуальні колонки

Віртуальні колонки Snowflake вирішують цю проблему, дозволяючи прикріплювати бізнес-логіку безпосередньо до таблиці без фактичної матеріалізації даних і без необхідності створювати представлення для простих завдань. Вони є виразами, які динамічно обчислюються під час виконання запиту.

Приклади використання:

Вилучення поля з JSON без створення представлення: ALTER TABLE user_events ADD COLUMN user_zip STRING AS (TRY_CAST(raw_payload:"user"."address"."zip" AS VARCHAR));
Миттєве додавання бізнес-метрики: ALTER TABLE sales ADD COLUMN profit_margin NUMBER(16,2) AS ((revenue - cost) / revenue);

Оскільки переміщення даних не відбувається, створення віртуальних колонок відбувається майже миттєво, і після визначення їх можна одразу використовувати. Якщо віртуальна колонка не згадується в запиті, вираз не обчислюється, що не додає накладних витрат до цього запиту. Ідентифікувати віртуальні колонки в таблиці легко, оскільки представлення INFORMATION_SCHEMA.COLUMNS повертає вираз, використаний для її створення.

Ключові переваги

Snowflake виділяє три основні переваги віртуальних колонок:

Продуктивність та вартість: Оскільки віртуальні колонки обчислюються за запитом і уникають матеріалізації даних, вони зменшують або усувають потребу в дорогих обчислювальних ресурсах, які зазвичай витрачаються на масові заповнення таблиць.
Досвід розробника: Розробники можуть уникнути підтримки заплутаних конвеєрів даних для простої логіки та обійти тертя, пов'язані з перенаправленням конвеєрів на нові представлення замість базових таблиць.
Основа для корпоративного ШІ: Сучасні агенти ШІ потребують надійних, стандартизованих функцій. Віртуальні колонки пропонують спрощений шлях до надання негайної цінності на джерелі, підтримуючи високоякісні дані, необхідні для успішних впроваджень корпоративного ШІ, одночасно спрощуючи перехід до семантичних представлень вищого рівня.

Віртуальні колонки оптимізують архітектуру, зменшуючи потребу в дорогих заповненнях або складних обхідних шляхах. В епоху, що все більше визначається ШІ, підтримка чистих і добре структурованих даних є надзвичайно важливою. Оскільки високоякісні дані є фундаментальною вимогою для успішного впровадження ШІ, ця функція допомагає усунути деякі поширені труднощі, пов'язані з її досягненням. Цей реліз є лише початком шляху Snowflake з віртуальними колонками.

Що це означає для розробників

Ця новина означає, що розробники можуть інтегрувати бізнес-логіку безпосередньо в таблиці Snowflake, уникаючи складних конвеєрів даних та дорогих операцій оновлення. Це покращує досвід розробника, дозволяючи швидше впроваджувати зміни та підтримувати чистоту схеми даних.

Ключові факти

Віртуальні колонки тепер загальнодоступні у Snowflake.
Вони дозволяють прикріплювати бізнес-логіку безпосередньо до таблиці без матеріалізації даних.
Віртуальні колонки є виразами, що динамічно обчислюються під час виконання запиту.
Створення віртуальних колонок відбувається майже миттєво, оскільки не відбувається переміщення даних.
Вони зменшують потребу в дорогих обчислювальних ресурсах для заповнення таблиць.