Gal Oshri, Camiel Steenstra, Lennart Kats, Joanna Zouhour
4 хв читання

Спрощення розробки конвеєрів даних за допомогою Genie Code
Genie Code покликаний оптимізувати розробку, оркестрацію та розгортання конвеєрів даних. Він дозволяє інженерам даних використовувати природну мову для генерації готових до виробництва конвеєрів даних, їх оркестрації за допомогою завдань та налагодження збоїв. Завдання, які раніше займали тижні — пошук даних, побудова трансформацій, об'єднання завдань та виправлення збоїв — тепер можуть бути виконані за години, зберігаючи відповідність стандартам управління та експлуатації.
Genie Code допомагає перейти від дослідження до запланованих конвеєрів та завдань в одному потоці, підтримуючи їх створення та експлуатацію від початку до кінця. Він прискорює розробку декларативних конвеєрів Lakeflow Spark та спрощує оркестрацію та запуск конвеєрів і ноутбуків через Lakeflow Jobs. Genie Code розуміє контекст конвеєра та завдання, маючи доступ до коду, конфігурації та результатів виконання.
Ключові етапи життєвого циклу інженерії даних
Genie Code надає допомогу на різних етапах:
- Пошук даних: Система використовує популярність, походження, зразки коду та метадані Unity Catalog для ідентифікації найбільш релевантних наборів даних. Наприклад, можна запитати Genie Code, як пов'язані таблиці, або відстежити потік даних через конвеєр. Команди SiriusXM використовують його для швидшого розуміння взаємозв'язків таблиць.
- Створення та модифікація конвеєрів: Користувач описує бажаний конвеєр простою мовою, наприклад, конвеєр виявлення шахрайства, побудований на архітектурі "медальйон". Genie Code генерує декларативний конвеєр Spark з шарами Bronze, Silver та Gold, включаючи джерела, трансформації, очікування якості даних та вихідні дані. Після цього можна запросити зміни, переглянути запропоновані відмінності, запустити та протестувати конвеєр.
- Визначення та оркестрація завдань: Немає потреби вручну визначати та підтримувати логіку оркестрації. Користувач описує бажане завдання, включаючи завдання, залежності та розклад. Genie Code налаштовує його, а потім допомагає модифікувати, налагоджувати та виправляти проблеми оркестрації за допомогою природної мови.
- Розширення та розвиток існуючих робочих процесів: У міру зміни вимог Genie Code допомагає оновлювати конвеєри та завдання новими наборами даних та трансформаціями. Він розуміє поточну структуру та результати конвеєрів і може розширювати їх, створюючи потоки AutoCDC для захоплення змін даних, налаштовуючи Auto Loader, застосовуючи очікування якості даних та дотримуючись архітектури "медальйон".
- Використання найкращих практик з Declarative Automation Bundles (DABs): Genie Code може працювати безпосередньо в існуючих проектах DABs: додавати ресурси, оновлювати конфігурації, перевіряти пакети та розгортати їх на цільові об'єкти. Це дозволяє впроваджувати найкращі практики розробки програмного забезпечення, такі як контроль версій, тестування та CI/CD для проектів даних без ручного написання YAML. Ці можливості зменшують ручну працю, зберігаючи відповідність робочих процесів корпоративним вимогам. Конвеєри залишаються керованими через Unity Catalog та дотримуються встановлених шаблонів для продуктивності та якості даних, тоді як завдання успадковують послідовну конфігурацію для планування, повторних спроб та залежностей. Інженери даних залишаються під контролем, але витрачають менше часу на повторювану роботу.
Моніторинг, діагностика та налагодження
Genie Code також допомагає в моніторингу та налагодженні:
- Розуміння та покращення поведінки конвеєра: Genie Code може перевіряти набори даних та вихідні дані конвеєра, щоб допомогти зрозуміти конвеєр від початку до кінця. Наприклад, він може узагальнювати трансформації, відстежувати потік даних у подальші таблиці та виділяти несподівані зміни в кількості рядків або схемах.
- Налагодження та діагностика збоїв завдань та конвеєрів: При збої конвеєра або завдання Genie Code допомагає вирішити проблему. Він аналізує помилки, пропонує оновлення у відповідних файлах та показує відмінності перед застосуванням будь-яких змін. Користувач може переглянути кожне оновлення та вирішити, що рухати далі. Це перетворює довгі, ручні цикли налагодження на швидші керовані ітерації.
Розширення та налаштування Genie Code
Genie Code не обмежується вбудованими можливостями. Команди можуть розширювати його за допомогою власних інструкцій, навичок агентів та інтегрувати зовнішні системи через сервери MCP. Це дозволяє Genie Code працювати з доменно-специфічною логікою, внутрішніми інструментами та власними робочими процесами, забезпечуючи його адаптацію до середовища та знань домену.
Майбутні можливості
На горизонті з'являються додаткові можливості для розширення Genie Code на конвеєри, завдання та ширшу платформу. Однією з таких функцій є робочі навантаження, оптимізовані штучним інтелектом. У майбутньому Genie Code зможе працювати у фоновому режимі для ефективної роботи платформи, дозволяючи передавати повторювані та трудомісткі завдання. Це включає реагування на збої завдань та управління плановими оновленнями, а також автоматичне масштабування використання кластера.
Що це означає для розробників
Genie Code значно скорочує час, який інженери даних витрачають на рутинні завдання, дозволяючи їм створювати та налагоджувати конвеєри за години замість тижнів. Це також допомагає автоматизувати дотримання корпоративних стандартів та найкращих практик, звільняючи час для більш складних завдань.
Ключові факти
-
Genie Code генерує готові до виробництва конвеєри даних за допомогою природної мови.
-
Скорочує час розробки конвеєрів з тижнів до годин.
-
Оркеструє конвеєри та завдання через Lakeflow Jobs.
-
Допомагає шукати дані, будувати, модифікувати, оркеструвати та налагоджувати конвеєри.
-
Підтримує найкращі практики розробки програмного забезпечення (CI/CD, контроль версій) через Declarative Automation Bundles (DABs).
Джерела
Джерело
DatabricksGal Oshri, Camiel Steenstra, Lennart Kats, Joanna Zouhour
Agentic data engineering with Genie Code and Lakeflow28 квітня 2026
Попередні статті

Vibe-кодування складного дашборду: Уроки з розробки візуалізації та аналізу даних
Автор ділиться досвідом створення дашборду для аналізу даних Національного демографічного та медичного опитування Філіппін за допомогою ШІ-агентів. Проєкт показав, як ШІ спрощує рутинні завдання, але вимагає людського контролю та архітектурного підходу.

Злам GitHub: Тисячі репозиторіїв скомпрометовано через розширення Visual Studio Code
Хакери викрали дані з тисяч репозиторіїв GitHub після того, як співробітник використав заражене шкідливим ПЗ розширення Visual Studio Code. Група TeamPCP взяла на себе відповідальність за атаку.

Топ-10 бібліотек Python для інженерії даних у 2026 році
Інженерія даних стає все більш вимогливою. Цей матеріал розглядає 10 бібліотек Python, які допомагають вирішувати ключові завдання: оркестрацію пайплайнів, обробку даних, забезпечення якості та оптимізацію зберігання.
Наступні статті

Тисячі "вайб-кодованих" застосунків викривають корпоративні та особисті дані
Дослідження RedAccess виявило понад 5000 веб-застосунків, створених за допомогою ШІ-інструментів, які не мають належного захисту та викривають конфіденційні корпоративні та особисті дані.

Студентка Purdue перетворює стажування в Eli Lilly на кар'єру в покращенні доступності охорони здоров'я
Джордан Рейнольдс, студентка останнього курсу Університету Пердью, поєднує науку про дані та прикладну статистику з біоінформатикою, щоб покращити доступність медичної допомоги. Вона приєднається до Eli Lilly як інженер програмних продуктів.

Інженерія даних та DataOps: Основи для розуміння
Інженерія даних є ключовою галуззю, що забезпечує збір, зберігання, обробку та аналіз великих наборів даних. Цей матеріал розкриває її важливість, роль у сучасних бізнес-моделях, типи баз даних, процеси ETL, відмінності між OLTP та OLAP, а також вплив хмарних технологій та сучасного стека даних.