
Інженерія даних сьогодні перебуває в епіцентрі двох значних зрушень: одне стосується функції, інше — форми. Ці зміни фундаментально переосмислюють роль інженерів даних та методи їхньої роботи.
Функціональне зрушення: Вплив ШІ
Перше зрушення є очевидним: штучний інтелект (ШІ) докорінно переосмислює функцію інженерів даних майже на кожному рівні. Його ненаситний апетит до даних створив надмірні вимоги до команд інженерії даних. Ці вимоги є необхідними для успіху, але їх надзвичайно важко підтримувати.
Формальне зрушення: Нові підходи
Друге зрушення стосується форми — того, як інженери даних повинні відповідати цим новим і зростаючим вимогам.
Від ручної праці до стратегічного виконання
Інженери даних пройшли шлях від переважно рутинної, ручної праці до більш стратегічного виконання, переймаючи найкращі практики розробки програмного забезпечення, щоб підвищити якість своєї роботи. Вони більше не є просто «сантехніками даних» та конструкторами конвеєрів; вони є операційними архітекторами будь-якої організації, що керується даними. Повернення до старих методів вже неможливе.
Декларативний підхід та продуктивність
У сучасній інженерії даних фокус більше не на ручному з'єднанні кожної точки, оскільки це просто не масштабується для задоволення потреб ШІ. З експоненціально зростаючими обсягами даних, які швидко стають доступними та придатними для використання, інженерам потрібно працювати ефективніше, щоб встигати. Саме тут більш сучасний, декларативний підхід до побудови конвеєрів змінює всю гру для інженерів даних. Абстрагуючись від дрібниць кожного кроку та зосереджуючись на бажаному кінцевому стані, інженери даних отримують можливість примножити свою продуктивність та досягти результатів, які раніше здавалися недосяжними.
Роль агентів кодування
Агенти кодування, такі як Cursor, Claude Code та Snowflake's Cortex Code, за лічені місяці революціонізували уявлення про розробку програмного забезпечення, а отже, й інженерію даних. Протягом багатьох років команди інженерії даних тихо переймали найкращі практики життєвих циклів, визначених програмним забезпеченням. Вони розглядають інфраструктуру як код і створюють структуровані, версіоновані середовища, де конвеєри даних тісно нагадують безстатусний програмний код. Оскільки ці агенти кодування ШІ інтенсивно навчаються на задачах програмної інженерії, вони досить легко адаптуються і до цієї сучасної форми інженерії даних.
Безпека та масштабування з ШІ
Цей зсув у підході — до більш сучасного, декларативного мислення — створює правильні умови для функціонування інструментів ШІ. Але, що важливіше, він забезпечує необхідну мережу безпеки, щоб дозволити ШІ працювати в масштабі. У минулому виправлення конвеєра означало виконання сирих команд SQL безпосередньо у виробничому середовищі; якщо щось ламалося, було надзвичайно складно розслідувати, що пішло не так. Сьогодні сучасний підхід означає, що зміни перевіряються в системі контролю версій, тестуються та розгортаються лише як відомий добрий стан. Можливість легко тестувати зміни та відкочувати їх є суворою передумовою, перш ніж довіряти ШІ писати або керувати робочими процесами даних.
Довіра до ШІ не означає сліпої віри. Натомість, ключовим є побудова довіри до базового процесу інженерії даних. Організації вже запускають тисячі конвеєрів даних одночасно, досягаючи точки, де людський нагляд за кожною рухомою частиною практично неможливий.
Майбутнє інженерії даних
Незабаром ми перейдемо до агентного ШІ, де програмні агенти братимуть на себе більші частини фактичної побудови конвеєрів. Ролі інженерів даних знову підвищаться, відходячи від написання окремих скриптів до просунутого моделювання даних та системних вимог. Вони функціонуватимуть ближче до бізнесу, забезпечуючи доступність та якість даних для ШІ, аналітики та додатків. Зрештою, майбутнє інженерії даних не в написанні кращих скриптів для переміщення даних. Воно полягає в побудові стійких систем, які з'єднують їх.
Ресурс для адаптації
Саме тому провідний розробник-адвокат Гілберто Ернандес написав книгу «Build Pipelines for AI: An Essential Guide to Smarter Data Engineering». У ній він розглядає фреймворк ITD (ingestion-transformation-delivery) для конвеєрів даних та традиційні підходи, пов'язані з кожним кроком — як їхні переваги, так і недоліки. Він висвітлює сучасні інструменти та методи, які можуть допомогти командам інженерії даних адаптуватися до мінливого ландшафту та підготуватися до майбутнього.
Що це означає для розробників
Розробники даних переходять від рутинної роботи до стратегічного виконання, використовуючи декларативні підходи та передові практики розробки програмного забезпечення. Їхня роль еволюціонує до архітекторів систем, що забезпечують якість та доступність даних для ШІ та аналітики.
Ключові факти
-
Інженерія даних переживає два основні зрушення: функціональне (через ШІ) та формальне (методи роботи).
-
Штучний інтелект фундаментально переосмислює функцію інженерів даних через свій ненаситний попит на дані.
-
Інженери даних переходять від рутинної праці до стратегічного виконання, переймаючи найкращі практики розробки програмного забезпечення.
-
Сучасна інженерія даних використовує декларативний підхід до побудови конвеєрів для масштабування з ШІ, абстрагуючись від дрібниць.
-
Агенти кодування (наприклад, Cursor, Claude Code, Snowflake's Cortex Code) революціонізували розробку ПЗ та інженерію даних.
Джерела
Джерело
Chris Child
The Demand and the Design: Navigating Data Engineering's Two Great Shifts12 червня 2026
Попередні статті

Інженерія даних — це не лише скрипти: Уроки побудови ETL-пайплайну
Аналітик даних, що переходить в інженерію даних, ділиться досвідом побудови ETL-пайплайну. Початкове уявлення про інженерію даних як про написання скриптів змінилося після зіткнення з проблемами дублювання даних, їхньої втрати та необхідності автоматизації.

Представлено фреймворк Native AI Branding для цифрових сутностей
Дослідниця Інна Удалая розробила методологію Native AI Branding, що перетворює творчі проєкти на верифіковані цифрові сутності. Вона використовує постійні ідентифікатори, такі як DOI, для забезпечення стабільності даних у базах знань ШІ та покращення точності пошуку.

CloudCasa розширює можливості захисту даних для користувачів Nutanix Kubernetes Platform
CloudCasa тепер доступний у каталозі партнерів Nutanix Kubernetes Platform (NKP), пропонуючи нативні для Kubernetes можливості резервного копіювання, відновлення, аварійного відновлення та міграції для користувачів NKP.
Наступні статті

Snowflake представляє Cortex Code: AI-агент для кодування, що підвищує продуктивність завдяки розумінню корпоративних даних
Snowflake представила Cortex Code, AI-агент для кодування, розроблений для корпоративного стеку даних. Він значно підвищує продуктивність, спрощує операції з даними та надає контекстно-орієнтовану допомогу в локальних середовищах розробки, використовуючи природну мову.

Опанування Docker для Data Science: 5 Ключових Кроків
Docker вирішує проблеми відтворюваності та залежностей у Data Science, пакуючи код, бібліотеки та середовище в портативні контейнери. Цей матеріал описує п'ять кроків для ефективного використання Docker у проєктах з аналізу даних, від основ до розгортання в продакшені.

Niantic Spatial та Vantor під пильною увагою через збір даних Pokemon Go для моделей геолокації та дронів
Співпраця Niantic Spatial та Vantor викликала питання щодо використання даних гравців Pokemon Go для тренування великих геопросторових моделей, що може мати застосування у сферах з обмеженим супутниковим зв'язком.