Дані та аналітика

Genie Code та Lakeflow: Агентний підхід до інженерії даних

G

Gal Oshri, Camiel Steenstra, Lennart Kats, Joanna Zouhour

4 хв читання

Візуалізація агентного штучного інтелекту Genie Code, який взаємодіє зі складними конвеєрами даних, перетворюючи природну мову на автоматизовані процеси інженерії даних.

Спрощення розробки конвеєрів даних за допомогою Genie Code

Genie Code покликаний оптимізувати розробку, оркестрацію та розгортання конвеєрів даних. Він дозволяє інженерам даних використовувати природну мову для генерації готових до виробництва конвеєрів даних, їх оркестрації за допомогою завдань та налагодження збоїв. Завдання, які раніше займали тижні — пошук даних, побудова трансформацій, об'єднання завдань та виправлення збоїв — тепер можуть бути виконані за години, зберігаючи відповідність стандартам управління та експлуатації.

Genie Code допомагає перейти від дослідження до запланованих конвеєрів та завдань в одному потоці, підтримуючи їх створення та експлуатацію від початку до кінця. Він прискорює розробку декларативних конвеєрів Lakeflow Spark та спрощує оркестрацію та запуск конвеєрів і ноутбуків через Lakeflow Jobs. Genie Code розуміє контекст конвеєра та завдання, маючи доступ до коду, конфігурації та результатів виконання.

Ключові етапи життєвого циклу інженерії даних

Genie Code надає допомогу на різних етапах:

  • Пошук даних: Система використовує популярність, походження, зразки коду та метадані Unity Catalog для ідентифікації найбільш релевантних наборів даних. Наприклад, можна запитати Genie Code, як пов'язані таблиці, або відстежити потік даних через конвеєр. Команди SiriusXM використовують його для швидшого розуміння взаємозв'язків таблиць.
  • Створення та модифікація конвеєрів: Користувач описує бажаний конвеєр простою мовою, наприклад, конвеєр виявлення шахрайства, побудований на архітектурі "медальйон". Genie Code генерує декларативний конвеєр Spark з шарами Bronze, Silver та Gold, включаючи джерела, трансформації, очікування якості даних та вихідні дані. Після цього можна запросити зміни, переглянути запропоновані відмінності, запустити та протестувати конвеєр.
  • Визначення та оркестрація завдань: Немає потреби вручну визначати та підтримувати логіку оркестрації. Користувач описує бажане завдання, включаючи завдання, залежності та розклад. Genie Code налаштовує його, а потім допомагає модифікувати, налагоджувати та виправляти проблеми оркестрації за допомогою природної мови.
  • Розширення та розвиток існуючих робочих процесів: У міру зміни вимог Genie Code допомагає оновлювати конвеєри та завдання новими наборами даних та трансформаціями. Він розуміє поточну структуру та результати конвеєрів і може розширювати їх, створюючи потоки AutoCDC для захоплення змін даних, налаштовуючи Auto Loader, застосовуючи очікування якості даних та дотримуючись архітектури "медальйон".
  • Використання найкращих практик з Declarative Automation Bundles (DABs): Genie Code може працювати безпосередньо в існуючих проектах DABs: додавати ресурси, оновлювати конфігурації, перевіряти пакети та розгортати їх на цільові об'єкти. Це дозволяє впроваджувати найкращі практики розробки програмного забезпечення, такі як контроль версій, тестування та CI/CD для проектів даних без ручного написання YAML. Ці можливості зменшують ручну працю, зберігаючи відповідність робочих процесів корпоративним вимогам. Конвеєри залишаються керованими через Unity Catalog та дотримуються встановлених шаблонів для продуктивності та якості даних, тоді як завдання успадковують послідовну конфігурацію для планування, повторних спроб та залежностей. Інженери даних залишаються під контролем, але витрачають менше часу на повторювану роботу.

Моніторинг, діагностика та налагодження

Genie Code також допомагає в моніторингу та налагодженні:

  • Розуміння та покращення поведінки конвеєра: Genie Code може перевіряти набори даних та вихідні дані конвеєра, щоб допомогти зрозуміти конвеєр від початку до кінця. Наприклад, він може узагальнювати трансформації, відстежувати потік даних у подальші таблиці та виділяти несподівані зміни в кількості рядків або схемах.
  • Налагодження та діагностика збоїв завдань та конвеєрів: При збої конвеєра або завдання Genie Code допомагає вирішити проблему. Він аналізує помилки, пропонує оновлення у відповідних файлах та показує відмінності перед застосуванням будь-яких змін. Користувач може переглянути кожне оновлення та вирішити, що рухати далі. Це перетворює довгі, ручні цикли налагодження на швидші керовані ітерації.

Розширення та налаштування Genie Code

Genie Code не обмежується вбудованими можливостями. Команди можуть розширювати його за допомогою власних інструкцій, навичок агентів та інтегрувати зовнішні системи через сервери MCP. Це дозволяє Genie Code працювати з доменно-специфічною логікою, внутрішніми інструментами та власними робочими процесами, забезпечуючи його адаптацію до середовища та знань домену.

Майбутні можливості

На горизонті з'являються додаткові можливості для розширення Genie Code на конвеєри, завдання та ширшу платформу. Однією з таких функцій є робочі навантаження, оптимізовані штучним інтелектом. У майбутньому Genie Code зможе працювати у фоновому режимі для ефективної роботи платформи, дозволяючи передавати повторювані та трудомісткі завдання. Це включає реагування на збої завдань та управління плановими оновленнями, а також автоматичне масштабування використання кластера.

Що це означає для розробників

Genie Code значно скорочує час, який інженери даних витрачають на рутинні завдання, дозволяючи їм створювати та налагоджувати конвеєри за години замість тижнів. Це також допомагає автоматизувати дотримання корпоративних стандартів та найкращих практик, звільняючи час для більш складних завдань.

Ключові факти

  • Genie Code генерує готові до виробництва конвеєри даних за допомогою природної мови.

  • Скорочує час розробки конвеєрів з тижнів до годин.

  • Оркеструє конвеєри та завдання через Lakeflow Jobs.

  • Допомагає шукати дані, будувати, модифікувати, оркеструвати та налагоджувати конвеєри.

  • Підтримує найкращі практики розробки програмного забезпечення (CI/CD, контроль версій) через Declarative Automation Bundles (DABs).

Джерела

Джерело

DatabricksGal Oshri, Camiel Steenstra, Lennart Kats, Joanna Zouhour

Agentic data engineering with Genie Code and Lakeflow

28 квітня 2026

Оригінал

Попередні статті

Ілюстрація, що зображує людину, яка працює зі складним дашбордом візуалізації даних на екрані, де відображаються карти Філіппін з накладеними даними, графіки та таблиці. Навколо екрану та користувача видно абстрактні елементи, що символізують ШІ-агентів, які допомагають у кодуванні та аналізі даних.
21 травня 2026Розробка ПЗ

Vibe-кодування складного дашборду: Уроки з розробки візуалізації та аналізу даних

Автор ділиться досвідом створення дашборду для аналізу даних Національного демографічного та медичного опитування Філіппін за допомогою ШІ-агентів. Проєкт показав, як ШІ спрощує рутинні завдання, але вимагає людського контролю та архітектурного підходу.

Ілюстрація, що символізує злам репозиторіїв GitHub, із зображенням коду та елементів кібербезпеки.
21 травня 2026Кібербезпека

Злам GitHub: Тисячі репозиторіїв скомпрометовано через розширення Visual Studio Code

Хакери викрали дані з тисяч репозиторіїв GitHub після того, як співробітник використав заражене шкідливим ПЗ розширення Visual Studio Code. Група TeamPCP взяла на себе відповідальність за атаку.

Ілюстрація, що зображує взаємопов'язані компоненти інженерії даних, символізуючи бібліотеки Python для оркестрації, обробки та забезпечення якості даних.
21 травня 2026Технології

Топ-10 бібліотек Python для інженерії даних у 2026 році

Інженерія даних стає все більш вимогливою. Цей матеріал розглядає 10 бібліотек Python, які допомагають вирішувати ключові завдання: оркестрацію пайплайнів, обробку даних, забезпечення якості та оптимізацію зберігання.

Наступні статті

Ілюстрація, що зображує витік конфіденційних даних (медичні записи, фінансові графіки, корпоративні документи) з веб-застосунків, створених за допомогою ШІ-інструментів, у відкритий цифровий простір.
21 травня 2026Кібербезпека

Тисячі "вайб-кодованих" застосунків викривають корпоративні та особисті дані

Дослідження RedAccess виявило понад 5000 веб-застосунків, створених за допомогою ШІ-інструментів, які не мають належного захисту та викривають конфіденційні корпоративні та особисті дані.

Ілюстрація, що зображує молоду жінку, яка працює з даними, оточену елементами, що символізують науку про дані та медицину, підкреслюючи її роль у покращенні охорони здоров'я.
21 травня 2026Дані та аналітика

Студентка Purdue перетворює стажування в Eli Lilly на кар'єру в покращенні доступності охорони здоров'я

Джордан Рейнольдс, студентка останнього курсу Університету Пердью, поєднує науку про дані та прикладну статистику з біоінформатикою, щоб покращити доступність медичної допомоги. Вона приєднається до Eli Lilly як інженер програмних продуктів.

Абстрактна ілюстрація, що показує потік даних через етапи збору, зберігання, обробки та аналізу, з елементами хмарної інфраструктури на задньому плані.
21 травня 2026Дані та аналітика

Інженерія даних та DataOps: Основи для розуміння

Інженерія даних є ключовою галуззю, що забезпечує збір, зберігання, обробку та аналіз великих наборів даних. Цей матеріал розкриває її важливість, роль у сучасних бізнес-моделях, типи баз даних, процеси ETL, відмінності між OLTP та OLAP, а також вплив хмарних технологій та сучасного стека даних.