Bilal Aslam, Ray Zhu, Manish Dalwadi, Saad Ansari, Giselle Goicochea
5 хв читання

Databricks представила наступну велику еволюцію своєї платформи Lakeflow, яка позиціонується як уніфіроване рішення для інженерії даних, що охоплює прийом, трансформацію та оркестрацію. Усі можливості Lakeflow повністю інтегровані та централізовано керовані за допомогою Unity Catalog, що забезпечує значні переваги в «агентну еру», дозволяючи агентам не тільки створювати, а й експлуатувати конвеєри даних.
Агентна розробка конвеєрів: Genie Code та Lakeflow Designer
Genie Code тепер глибоко інтегрований у кожен аспект користувацького досвіду Lakeflow. Він дозволяє створювати конектори для прийому даних, будувати конвеєри на Python та SQL, а також розробляти завдання з тригерами та залежностями. Це стало можливим завдяки уніфікованому стеку інженерії даних, який надає Genie Code повний наскрізний контекст для робочих навантажень з прийому, трансформації та оркестрації.
Lakeflow Designer, який тепер загальнодоступний, демократизує інженерію даних у масштабах підприємства. Цей візуальний, керований ШІ інтерфейс без коду дозволяє командам створювати конвеєри за допомогою перетягування елементів та підказок природною мовою. Бізнес-аналітики та нетехнічні користувачі можуть створювати готові до виробництва ETL-конвеєри без написання коду. Кожен візуальний потік, створений у Designer, виконується на Spark Declarative Pipeline, забезпечуючи відсутність втрат при перекладі. Інженери даних можуть легко переглядати та вдосконалювати цей код без зміни контексту.
Genie ZeroOps: Автоматизація операцій з даними та ШІ
Представлений Genie ZeroOps допомагає командам з даних керувати активами даних та ШІ у виробничому середовищі. Це спеціалізований фоновий ШІ-агент, який моніторить та управляє активами. ZeroOps виявляє збої та виконує аналіз першопричин, використовуючи метрики якості даних, журнали помилок та дані походження з Unity Catalog. Він також генерує пропоновані виправлення та перевіряє їх у безпечному ізольованому середовищі, керованому Unity Catalog. Застосування виправлень відбувається за участю людини, що дозволяє Genie ZeroOps виконувати основну роботу, залишаючи контроль за користувачем.
Lakeflow Connect: Розширена екосистема конекторів
Lakeflow Connect спрощує інкрементальний прийом свіжих даних з постійно зростаючого списку корпоративних систем безпосередньо в таблиці Delta, керовані Unity Catalog. Це дозволяє створити «корпоративну пам'ять» та забезпечити доступ до актуального контексту для ШІ-агентів.
Databricks оголосила, що Lakeflow Connect розширюється для підтримки понад 100 нативних, керованих конекторів для корпоративних додатків, баз даних, файлових джерел та хмарних сховищ. Це дозволяє усунути залежність від сторонніх інструментів та запускати оптимізовані конвеєри прийому даних для таких випадків використання:
- Управління корпоративними знаннями: Об'єднання бізнес-даних з Jira (Beta), GitHub (Beta), Confluence (GA), а також неструктурованих документів, контрактів та PDF з SharePoint (GA), Google Drive (Beta) та Outlook (Beta).
- MarTech: Прийом даних кампаній та клієнтів безпосередньо з Meta Ads (Beta), TikTok Ads (Beta), Google Ads (Beta) та HubSpot (GA) для персоналізації в реальному часі.
- ІТ та безпекові операції: Централізація журналів та телеметрії для SIEM-аналізу.
- Захоплення на основі запитів: Для всіх конекторів баз даних та джерел Lakehouse Federation (GA) дозволяє запитувати базу даних безпосередньо для захоплення змін без аналізу журналів.
Для організацій зі спеціалізованими або пропрієтарними системами доступні Community Connectors (Beta) – рішення з відкритим вихідним кодом. Компанія Panasonic використовувала Lakeflow Connect для об'єднання даних з SAP, Workday та SharePoint, замінивши застарілі ETL-рішення.
Також представлено Lakeflow Connect Free Tier, який надає 100 безкоштовних DBU на день, підтримуючи до 100 мільйонів записів щодня для популярних керованих SaaS та конекторів баз даних.
Zerobus Ingest: Високооб'ємний прийом подій без Kafka
Zerobus Ingest змінює підхід до обробки високооб'ємних даних подій, усуваючи потребу в шині повідомлень. Він забезпечує запис майже в реальному часі (менше 5 секунд) та високу пропускну здатність (до 100 МБ/с, понад 10 ГБ/с на таблицю), доставляючи дані безпосередньо на платформу в масштабі.
Zerobus розширився, щоб відповідати потребам виробників даних:
- Kafka-Compatible APIs (Beta): Існуючі виробники Kafka можуть надсилати дані безпосередньо в Databricks без змін коду.
- gRPC & REST APIs (GA): Постійні потоки gRPC для високопродуктивних додатків або безстатусні REST API для вебхуків та безсерверних функцій.
- SDK Ecosystem (GA): Готові до виробництва SDK для Python, Java, Rust, Go та TypeScript для вбудовування Zerobus у власні додатки.
- OpenTelemetry (Public Preview): Надсилання метрик, трасування та журналів безпосередньо в lakehouse за допомогою зміни конфігурації.
Meta використовує Zerobus Ingest для з'єднання своїх локальних центрів обробки даних з хмарою, скоротивши затримку конвеєра до менше хвилини.
Spark Declarative Pipelines: Пакетна, потокова та тепер реального часу
Real-Time Mode (RTM) для Spark Declarative Pipelines тепер доступний у Public Preview. Це дозволяє досягти наскрізних затримок до 5 мілісекунд без складності та витрат на управління окремими рушіями. RTM доступний як на класичних, так і на безсерверних обчисленнях, забезпечуючи потокову передачу з наднизькою затримкою разом з перевагами Spark Declarative Pipelines: виконання без версій, автоматичні оновлення інфраструктури та мінімальний час простою.
Декларативні API з Spark Declarative Pipelines — включаючи Append, Auto CDC, інкрементальний Replace Where та Materialized View — стають доступними на всій платформі Databricks. Це означає, що користувачі можуть використовувати інкрементальну обробку даних безпосередньо з продукту, типу обчислень та інтерфейсу, які вони вже знають. Ці API вже доступні в Databricks SQL і будуть доступні в безсерверних Notebooks та Lakeflow Designer найближчими тижнями.
Lakeflow Jobs: Оркестрація з понад 50 інтеграціями
Lakeflow Jobs — це нативний рушій оркестрації Databricks, який керує складними DAG-ами, плануванням та запуском ШІ-агентів. Він дозволяє консолідувати застарілі оркестратори, такі як Apache Airflow, на єдиній платформі.
Оркестрація, що враховує дані та контекст, дозволяє запускати конвеєри на основі фактичної готовності даних. За допомогою простої англійської мови можна попросити Genie написати SQL-тригери, які визначають, що означає «готовність» даних. Завдання запускається, як тільки умови виконані, дотримуючись контрактів даних та запобігаючи обробці застарілих даних.
Для клієнтів з робочими процесами за межами Databricks, External Orchestration Lakeflow Jobs надає можливість розширити охоплення до зовнішніх систем. Використовуючи відкритий фреймворк операторів, можна запускати завдання Snowflake, викликати кастомні REST API або керувати сповіщеннями Slack та PagerDuty. Обчислення інтелектуально призупиняються під час очікування зовнішніх умов.
Що це означає для розробників
Розробники отримують доступ до уніфікованої платформи для інженерії даних, що спрощує створення, експлуатацію та оркестрацію конвеєрів. Нові інструменти, такі як Lakeflow Designer та Genie Code, дозволяють швидше розробляти, а Genie ZeroOps автоматизує операції, зменшуючи ручне втручання. Розширені можливості інтеграції та обробки даних у реальному часі спрощують створення складних аналітичних та ШІ-додатків.
Ключові факти
-
Databricks Lakeflow — уніфікована платформа для інженерії даних, керована Unity Catalog.
-
Genie Code інтегрований для агентної розробки конвеєрів на Python/SQL.
-
Lakeflow Designer — візуальний, AI-керований інтерфейс без коду для створення ETL-конвеєрів.
-
Genie ZeroOps — фоновий ШІ-агент для моніторингу, виявлення збоїв та пропозиції виправлень для активів даних та ШІ.
-
Lakeflow Connect розширено до понад 100 нативних конекторів, включаючи безкоштовний рівень (100 DBU/день).
Джерела
Джерело
DatabricksBilal Aslam, Ray Zhu, Manish Dalwadi, Saad Ansari, Giselle Goicochea
Lakeflow: A new era of agentic data engineering16 червня 2026
Попередні статті

Специфікаційно-орієнтована розробка: Новий підхід до інженерії даних з ШІ
ШІ-агенти прискорюють інженерію даних, але "вайб-кодування" створює проблеми з фрагментацією та втратою контексту. Специфікаційно-орієнтована розробка (SDD) пропонує рішення, перетворюючи правила та логіку на виконувані специфікації, що стають частиною системи.

Ринок хмарних обчислень у сфері охорони здоров'я досягне $169,34 млрд до 2031 року
Глобальний ринок хмарних обчислень для охорони здоров'я прогнозується зрости до $169,34 млрд до 2031 року зі значним річним темпом зростання 18,0%. Цей ріст зумовлений цифровою трансформацією, потребою в сумісності та моделями догляду, орієнтованими на дані.

Ринок центрів обробки даних зростає завдяки хмарним технологіям та ШІ
Глобальний ринок центрів обробки даних демонструє значне зростання, прогнозується збільшення до $506.09 млрд до 2034 року. Цей бум зумовлений стрімким розвитком хмарних обчислень, штучного інтелекту, IoT та цифрової трансформації, що робить ЦОДи критично важливою інфраструктурою сучасної цифрової економіки.
Наступні статті

Інженерія даних переосмислює лідерство на локальному ринку: досвід Columbus Marketing Experts
Фірма Columbus Marketing Experts з Огайо доводить, що не бюджет, а інженерний підхід до даних та оптимізації пошуку дозволяє локальним бізнесам перемагати національних гігантів, створюючи нову модель домінування на ринку.

Губернатор Техасу закликає до регулювання центрів обробки даних
Губернатор Техасу Грег Ебботт закликав до регулювання центрів обробки даних, щоб оператори несли більше витрат на своє зростання, на тлі тиску щодо енергоспоживання, використання води та місцевої опозиції.

Claude Code: Експертиза в предметній області виявляється важливішою за навички кодування для успіху з агентами ШІ
Нове дослідження Anthropic виявило, що користувачі Claude Code з глибокими знаннями в предметній області досягають більшого успіху та ефективніше використовують агенти ШІ, ніж ті, хто має лише навички кодування. Це змінює уявлення про майбутнє розробки.