Дані та аналітика

Snowflake Summit 2026: Нові інструменти для розумних конвеєрів даних в епоху ШІ

A

Abhishek Kashyap, Jena Donlin

6 хв читання

Ілюстрація, що зображує інтелектуальний конвеєр даних Snowflake з елементами ШІ, що обробляє інформацію в хмарному середовищі.

Інженерія даних в епоху штучного інтелекту вимагає надійних платформ, здатних обробляти зростаючі обсяги даних та складні робочі процеси. На Snowflake Summit 2026 компанія Snowflake анонсувала нові можливості, спрямовані на інтеграцію ШІ безпосередньо в робочі процеси та спрощення створення конвеєрів даних від початку до кінця. Ці функції розроблені для всіх типів інженерів даних і працюють як у Snowflake, так і у відкритих та сумісних озерних сховищах (lakehouses).

Snowflake CoCo: ШІ-агент для інженерії даних

Snowflake CoCo є новим агентним інструментом, який працює безпосередньо у локальному середовищі для створення комплексних рішень. Він перевершує загальні кодуючі агенти для завдань інженерії даних. Наприклад, порівняно з Claude Code (на Opus 4.7), CoCo використовує на 51% менше токенів і потребує на 8% менше кроків для виконання завдання. CoCo надає контекстно-орієнтовану допомогу та спеціалізовані навички для функцій інженерії даних Snowflake, працюючи в межах периметра безпеки та розуміючи корпоративний контекст даних. Він має доступ до останніх моделей, таких як Claude Opus 4.8, Claude Sonnet 4.6 та GPT 5.5, і доступний у Snowsight, через CoCo CLI або через новий настільний додаток (публічна попередня версія). За допомогою CoCo можна використовувати попередньо створені або власні навички для міграції конвеєрів Spark, розгортання коду Python, автоматизації робочих процесів dbt та оптимізації продуктивності.

Автономні та надійні конвеєри з Dynamic Tables

Dynamic Tables автоматизують оновлення даних на основі визначеного запиту та цільової актуальності, усуваючи години ручної роботи. Вони забезпечують високу продуктивність та низьку затримку для інкрементальних конвеєрів. Компанія Wolt (частина DoorDash) стандартизувала Apache Iceberg і використовує Snowflake Dynamic Iceberg Tables для збагачення, підготовки та автоматичного оновлення даних у своєму озері даних. Wind Creek Hospitality скоротила затримку з 30 хвилин до менш ніж однієї хвилини, мігрувавши пакетне завдання dbt на конвеєр Dynamic Tables.

Snowflake анонсувала низку оновлень для декларативних робочих процесів Dynamic Tables:

  • Прискорення оновлення Dynamic Tables (загальнодоступно): Прискорення робочих навантажень до 2.8x у таких областях, як агрегатні функції, qualify/rank (SCD-1), операції cluster-by та об'єднання, виміряні на сховищах Gen2.
  • Користувацька інкременталізація (публічна попередня версія): Оптимізація продуктивності для складних трансформацій шляхом написання власної логіки оновлення за допомогою операторів MERGE або INSERT, зберігаючи переваги Dynamic Tables.
  • Адаптивне оновлення (публічна попередня версія): Автоматичне визначення найефективнішого методу оновлення для кожного циклу без ручного налаштування.
  • Матеріалізація Dynamic Table у dbt (адаптер версії 1.11.5): Оптимізація інкрементальної обробки шляхом зміни типу матеріалізації в dbt.
  • DCM Projects (публічна попередня версія): Декларативне управління інфраструктурою для версіонування, тестування та розгортання різноманітних конвеєрів трансформації на Snowflake.

Інтеграція dbt у Snowflake

З dbt Projects на Snowflake користувачі можуть використовувати знайомі функції Snowflake для створення, редагування, тестування, запуску та управління своїми dbt Core проектами. Розгортання об'єкта dbt Project забезпечує вбудовану спостережуваність, інтеграцію CI/CD та усуває накладні витрати на управління інфраструктурою. Компанія Aviv Group, ранній користувач dbt Projects, змогла швидше рухатися та створити модульну, керовану та масштабовану основу для аналітики та ШІ.

Оновлення включають:

  • dbt Fusion (загальнодоступно): Включено як версія з dbt Projects на Snowflake, покращує час компіляції для багатьох складних збірок.
  • Покращений dbt DAG з лінією походження на рівні стовпців (загальнодоступно): Використовує Snowflake Horizon Catalog для управління інформацією на рівні схеми в Directed Acyclic Graph (DAG) через робочі простори, деталі об'єктів та історію запитів, надаючи єдиний вигляд лінії походження конвеєра даних.

Програмні конвеєри зі Snowpark та Snowpark Connect

Для інженерів даних та науковців, які створюють програмно за допомогою Python, Java, Scala та Apache Spark, Snowflake пропонує Snowpark та Snowpark Connect. Pfizer знизив загальну вартість володіння (TCO) на 57% та обробляв дані в 4 рази швидше за допомогою Snowpark.

  • Pipeline Builder (приватна попередня версія): Дозволяє візуально з'єднувати Notebooks та ML Jobs у повноцінний конвеєр без написання коду оркестрації з нуля, автоматизуючи планування, інфраструктуру та створення об'єктів.

Snowpark розширено у трьох ключових областях: продуктивність розробників, зовнішнє підключення та оновлення для ML та неструктурованих робочих навантажень. Покращені можливості включають:

  • API для інтеграції даних: DB-API (загальнодоступно) підтримує драйвери Python для Oracle, SQL Server, Postgres та MySQL; JDBC-API (публічна попередня версія) додає паралельне читання на стороні сервера для будь-якого джерела JDBC.
  • Обробка неструктурованих даних (загальнодоступно): Читання, аналіз та збагачення файлів (зображень, PDF, аудіо) у масштабі сховища за допомогою session.read.file() у поєднанні з функціями ШІ, такими як ai.extract(), ai.parse_document() та ai.transcribe().
  • Artifact Repository (незабаром публічна попередня версія): Джерело пакетів Python з репозиторіїв, що розміщуються клієнтами (Nexus, JFrog), для UDF, збережених процедур та Notebooks з підтримкою Private Link.
  • Масштабоване пакетне виведення ML (приватна попередня версія): Завантаження моделей один раз за допомогою @udf_init_once та їх спільне використання між воркерами для меншого використання пам'яті та швидшої продуктивності.
  • Code Bundles для розгортання Python та Java (незабаром публічна попередня версія): У поєднанні з DCM Projects для пакування коду Snowpark та Snowpark Connect для надійного, автоматизованого розгортання.

Команди, що використовують Snowpark, переходять від локального коду Python або Apache Spark до готових до виробництва робочих процесів з 5.1x швидшою продуктивністю та на 42% нижчими витратами в середньому.

Snowpark Connect дозволяє перенести існуючі конвеєри на базі Spark на сучасну керовану інфраструктуру Snowflake без повного переписування. Оновлення включають:

  • Клієнт Spark Scala та Java для Scala 2.12/2.13 та Java 11/17 з snowpark-submit CLI.
  • Обробка файлів бронзового шару з дозволеним режимом, складними типами даних, еволюцією схеми та паралельним читанням для великих стиснутих файлів.
  • Уніфікована спостережуваність для виявлення, діагностики та сповіщення користувачів про завдання Spark з повними деталями з Jupyter, Airflow або зовнішніх джерел.

Семантичний контекст у конвеєрах

Snowflake Semantic View dbt Package дозволяє інженерам даних додавати бізнес-значення безпосередньо в конвеєр, визначаючи семантичний шар у файлах моделі dbt за допомогою стандартного синтаксису DDL. CoCo може допомагати у створенні цього визначення. Horizon Context робить ці визначення доступними для всіх ШІ-агентів, інструментів BI та додатків, що працюють з даними.

Нова ера інженерії даних

В епоху ШІ швидкість створення може випередити якість основи. Snowflake надає як агентні можливості кодування, спеціально розроблені для інженерії даних, так і керовану платформу, яку вимагають робочі навантаження ШІ. Незалежно від того, чи впроваджується відкрита архітектура lakehouse, мігруються робочі навантаження Spark, створюються конвеєри виведення ML у масштабі або розгортається абсолютно нова платформа даних, Snowflake надає інженерам даних інструменти для швидшої роботи, впевненого розгортання та меншого часу на боротьбу з інфраструктурою.

Що це означає для розробників

Розробники та інженери даних отримують нові інструменти, такі як Snowflake CoCo, для прискорення розробки та автоматизації. Оновлення Dynamic Tables, інтеграція dbt та розширення Snowpark спрощують створення, управління та оптимізацію конвеєрів даних, забезпечуючи швидший перехід від прототипу до виробництва та зниження операційних витрат.

Ключові факти

  • На Snowflake Summit 2026 анонсовано нові інструменти для інженерії даних в епоху ШІ.

  • Snowflake CoCo – ШІ-агент, що перевершує інші кодуючі агенти для завдань інженерії даних, використовуючи менше токенів та кроків.

  • Dynamic Tables отримали оновлення для прискорення та автоматизації інкрементальних оновлень, включаючи адаптивне оновлення та користувацьку інкременталізацію.

  • Інтеграція dbt Projects у Snowflake пропонує вбудовану спостережуваність, CI/CD та dbt Fusion для покращення компіляції.

  • Snowpark та Snowpark Connect розширено для програмних конвеєрів, ML та обробки неструктурованих даних, включаючи Pipeline Builder та нові API.

Джерела

Дані та аналітикаШтучний інтелект

Джерело

Abhishek Kashyap, Jena Donlin

Data Engineering in the AI Era: New Snowflake Tools Built for Smart Pipelines

10 червня 2026

Оригінал

Попередні статті

Футуристична ілюстрація, що зображує штучний інтелект, який допомагає розробнику писати код у середовищі розробки.
10 червня 2026Штучний інтелект

Доступ до Claude Fable 5 у GitHub Copilot призупинено

Доступ до моделі Claude Fable 5 від Anthropic у всіх сервісах GitHub Copilot було призупинено 12 червня 2026 року. Модель, призначена для автономного кодування, вимагала збереження даних для роботи класифікаторів безпеки.

Ілюстрація, що зображує взаємодію розробника з футуристичним інтерфейсом кодування, де елементи штучного інтелекту, такі як потоки даних або сяючі рядки коду, символізують прискорення та автоматизацію розробки програмного забезпечення.
10 червня 2026Штучний інтелект

Звіт Cursor: Штучний інтелект трансформує розробку програмного забезпечення

Згідно зі звітом Cursor за весну 2026 року, ШІ-кодування переходить від інструментальних покращень до системної перебудови. Зростає швидкість написання коду, збільшується обсяг комітів, а ШІ-генерований код довше залишається в кодовій базі. Звіт також висвітлює економіку моделей, розрив між суперкористувачами та рух до автоматизації.

Схематичне зображення, що показує, як упорядковані потоки даних живлять систему штучного інтелекту, символізуючи вирішення проблеми вузьких місць у підготовці даних.
9 червня 2026Дані та аналітика

Tray.ai запускає Tray Data Engineering для вирішення проблем з даними в AI-проектах

Tray.ai представила нове рішення Tray Data Engineering, що поєднує трансформацію даних, AI та розробку агентів. Воно покликане усунути вузькі місця в підготовці даних, які призводять до провалу 60% корпоративних AI-проектів.

Наступні статті

Абстрактна ілюстрація, що зображує оптимізовані потоки даних та елементи штучного інтелекту, які символізують ефективність в інженерії даних.
11 червня 2026Дані та аналітика

Snowflake представляє нові можливості для AI-орієнтованої інженерії даних

На Snowflake Summit 2026 компанія Snowflake анонсувала низку нових функцій, спрямованих на спрощення побудови конвеєрів даних та використання ШІ в інженерії даних. Оновлення включають AI-агента CoCo, автономні конвеєри та нативну інтеграцію dbt.

Ілюстрація, що зображує взаємопов'язані хмарні платформи, символізуючи доступність, вибір та мультихмарні стратегії, з потоками даних та елементами штучного інтелекту.
11 червня 2026Технології

20 років AWS: Як хмарні обчислення змінили ІТ-індустрію

AWS відзначає 20 років з моменту запуску, трансформувавши ІТ-послуги, зробивши їх доступними та гнучкими. Компанія продовжує інвестувати у відкриті стандарти, мультихмарні рішення та інновації в ШІ, надаючи клієнтам безпрецедентну свободу вибору.

Ілюстрація, що символізує автоматизовану інженерію даних для ШІ, де чистий потік даних живить систему штучного інтелекту.
11 червня 2026Технології

Upriver залучає $14 мільйонів для автоматизації інженерії даних для ШІ

Upriver, платформа для інженерії даних на базі ШІ, залучила $14 мільйонів посівного фінансування. Компанія прагне автоматизувати інфраструктуру даних, необхідну для впровадження проєктів штучного інтелекту у виробництво, вирішуючи проблеми з якістю даних.