Дані та аналітика

Два великі зрушення в інженерії даних: як ШІ змінює функцію та форму

C

Chris Child

4 хв читання

Абстрактна ілюстрація, що зображує потік даних через складні конвеєри, які трансформуються та інтегруються зі штучним інтелектом, символізуючи еволюцію інженерії даних.

Інженерія даних сьогодні перебуває в епіцентрі двох значних зрушень: одне стосується функції, інше — форми. Ці зміни фундаментально переосмислюють роль інженерів даних та методи їхньої роботи.

Функціональне зрушення: Вплив ШІ

Перше зрушення є очевидним: штучний інтелект (ШІ) докорінно переосмислює функцію інженерів даних майже на кожному рівні. Його ненаситний апетит до даних створив надмірні вимоги до команд інженерії даних. Ці вимоги є необхідними для успіху, але їх надзвичайно важко підтримувати.

Формальне зрушення: Нові підходи

Друге зрушення стосується форми — того, як інженери даних повинні відповідати цим новим і зростаючим вимогам.

Від ручної праці до стратегічного виконання

Інженери даних пройшли шлях від переважно рутинної, ручної праці до більш стратегічного виконання, переймаючи найкращі практики розробки програмного забезпечення, щоб підвищити якість своєї роботи. Вони більше не є просто «сантехніками даних» та конструкторами конвеєрів; вони є операційними архітекторами будь-якої організації, що керується даними. Повернення до старих методів вже неможливе.

Декларативний підхід та продуктивність

У сучасній інженерії даних фокус більше не на ручному з'єднанні кожної точки, оскільки це просто не масштабується для задоволення потреб ШІ. З експоненціально зростаючими обсягами даних, які швидко стають доступними та придатними для використання, інженерам потрібно працювати ефективніше, щоб встигати. Саме тут більш сучасний, декларативний підхід до побудови конвеєрів змінює всю гру для інженерів даних. Абстрагуючись від дрібниць кожного кроку та зосереджуючись на бажаному кінцевому стані, інженери даних отримують можливість примножити свою продуктивність та досягти результатів, які раніше здавалися недосяжними.

Роль агентів кодування

Агенти кодування, такі як Cursor, Claude Code та Snowflake's Cortex Code, за лічені місяці революціонізували уявлення про розробку програмного забезпечення, а отже, й інженерію даних. Протягом багатьох років команди інженерії даних тихо переймали найкращі практики життєвих циклів, визначених програмним забезпеченням. Вони розглядають інфраструктуру як код і створюють структуровані, версіоновані середовища, де конвеєри даних тісно нагадують безстатусний програмний код. Оскільки ці агенти кодування ШІ інтенсивно навчаються на задачах програмної інженерії, вони досить легко адаптуються і до цієї сучасної форми інженерії даних.

Безпека та масштабування з ШІ

Цей зсув у підході — до більш сучасного, декларативного мислення — створює правильні умови для функціонування інструментів ШІ. Але, що важливіше, він забезпечує необхідну мережу безпеки, щоб дозволити ШІ працювати в масштабі. У минулому виправлення конвеєра означало виконання сирих команд SQL безпосередньо у виробничому середовищі; якщо щось ламалося, було надзвичайно складно розслідувати, що пішло не так. Сьогодні сучасний підхід означає, що зміни перевіряються в системі контролю версій, тестуються та розгортаються лише як відомий добрий стан. Можливість легко тестувати зміни та відкочувати їх є суворою передумовою, перш ніж довіряти ШІ писати або керувати робочими процесами даних.

Довіра до ШІ не означає сліпої віри. Натомість, ключовим є побудова довіри до базового процесу інженерії даних. Організації вже запускають тисячі конвеєрів даних одночасно, досягаючи точки, де людський нагляд за кожною рухомою частиною практично неможливий.

Майбутнє інженерії даних

Незабаром ми перейдемо до агентного ШІ, де програмні агенти братимуть на себе більші частини фактичної побудови конвеєрів. Ролі інженерів даних знову підвищаться, відходячи від написання окремих скриптів до просунутого моделювання даних та системних вимог. Вони функціонуватимуть ближче до бізнесу, забезпечуючи доступність та якість даних для ШІ, аналітики та додатків. Зрештою, майбутнє інженерії даних не в написанні кращих скриптів для переміщення даних. Воно полягає в побудові стійких систем, які з'єднують їх.

Ресурс для адаптації

Саме тому провідний розробник-адвокат Гілберто Ернандес написав книгу «Build Pipelines for AI: An Essential Guide to Smarter Data Engineering». У ній він розглядає фреймворк ITD (ingestion-transformation-delivery) для конвеєрів даних та традиційні підходи, пов'язані з кожним кроком — як їхні переваги, так і недоліки. Він висвітлює сучасні інструменти та методи, які можуть допомогти командам інженерії даних адаптуватися до мінливого ландшафту та підготуватися до майбутнього.

Що це означає для розробників

Розробники даних переходять від рутинної роботи до стратегічного виконання, використовуючи декларативні підходи та передові практики розробки програмного забезпечення. Їхня роль еволюціонує до архітекторів систем, що забезпечують якість та доступність даних для ШІ та аналітики.

Ключові факти

  • Інженерія даних переживає два основні зрушення: функціональне (через ШІ) та формальне (методи роботи).

  • Штучний інтелект фундаментально переосмислює функцію інженерів даних через свій ненаситний попит на дані.

  • Інженери даних переходять від рутинної праці до стратегічного виконання, переймаючи найкращі практики розробки програмного забезпечення.

  • Сучасна інженерія даних використовує декларативний підхід до побудови конвеєрів для масштабування з ШІ, абстрагуючись від дрібниць.

  • Агенти кодування (наприклад, Cursor, Claude Code, Snowflake's Cortex Code) революціонізували розробку ПЗ та інженерію даних.

Джерела

Дані та аналітикаШтучний інтелектРозробка ПЗ

Попередні статті

Візуалізація еволюції ETL-пайплайну від простого скрипта до надійної системи інженерії даних.
12 червня 2026Дані та аналітика

Інженерія даних — це не лише скрипти: Уроки побудови ETL-пайплайну

Аналітик даних, що переходить в інженерію даних, ділиться досвідом побудови ETL-пайплайну. Початкове уявлення про інженерію даних як про написання скриптів змінилося після зіткнення з проблемами дублювання даних, їхньої втрати та необхідності автоматизації.

Ілюстрація, що зображує цифрову мережу, де творчі елементи (музичні ноти, абстрактні форми) з'єднані з вузлами даних та символами DOI, символізуючи інтеграцію мистецтва з машинозчитуваними знаннями для ШІ.
12 червня 2026Штучний інтелект

Представлено фреймворк Native AI Branding для цифрових сутностей

Дослідниця Інна Удалая розробила методологію Native AI Branding, що перетворює творчі проєкти на верифіковані цифрові сутності. Вона використовує постійні ідентифікатори, такі як DOI, для забезпечення стабільності даних у базах знань ШІ та покращення точності пошуку.

Абстрактна ілюстрація, що зображує захист даних та мобільність між розподіленими Kubernetes-середовищами, включаючи хмарні, локальні та периферійні кластери.
12 червня 2026Технології

CloudCasa розширює можливості захисту даних для користувачів Nutanix Kubernetes Platform

CloudCasa тепер доступний у каталозі партнерів Nutanix Kubernetes Platform (NKP), пропонуючи нативні для Kubernetes можливості резервного копіювання, відновлення, аварійного відновлення та міграції для користувачів NKP.

Наступні статті

Ілюстрація AI-агента для кодування Cortex Code, що допомагає розробнику працювати з корпоративними даними та кодом.
12 червня 2026Штучний інтелект

Snowflake представляє Cortex Code: AI-агент для кодування, що підвищує продуктивність завдяки розумінню корпоративних даних

Snowflake представила Cortex Code, AI-агент для кодування, розроблений для корпоративного стеку даних. Він значно підвищує продуктивність, спрощує операції з даними та надає контекстно-орієнтовану допомогу в локальних середовищах розробки, використовуючи природну мову.

Абстрактна ілюстрація, що показує контейнери Docker, які символізують робочі процеси Data Science, з елементами коду, даних та моделей, що переміщуються між ними, підкреслюючи відтворюваність та портативність.
13 червня 2026Дані та аналітика

Опанування Docker для Data Science: 5 Ключових Кроків

Docker вирішує проблеми відтворюваності та залежностей у Data Science, пакуючи код, бібліотеки та середовище в портативні контейнери. Цей матеріал описує п'ять кроків для ефективного використання Docker у проєктах з аналізу даних, від основ до розгортання в продакшені.

Стилізована ілюстрація, що зображує мережу точок даних і ліній, які сходяться до центрального, абстрактного представлення великої геопросторової моделі. На задньому плані ледь помітні силуети дронів та елементи доповненої реальності натякають на застосування. Загальний тон технічний та дещо таємничий, з акцентом на потік даних та геолокацію.
13 червня 2026Технології

Niantic Spatial та Vantor під пильною увагою через збір даних Pokemon Go для моделей геолокації та дронів

Співпраця Niantic Spatial та Vantor викликала питання щодо використання даних гравців Pokemon Go для тренування великих геопросторових моделей, що може мати застосування у сферах з обмеженим супутниковим зв'язком.