Штучний інтелект

Проблема інженерії даних: серце стратегії ШІ

A

AIJ Thought Leader

6 хв читання

Абстрактна ілюстрація складних конвеєрів даних, що живлять систему штучного інтелекту, з підкресленим вузьким місцем або фундаментальним елементом. Візуалізація потоків даних, що включають елементи потокової та пакетної обробки.

Чому конвеєри даних є вузьким місцем для ШІ

Керівництво інвестує в ШІ, команди фахівців з даних створюють ефективні моделі в лабораторії, бізнес-обґрунтування є переконливим, але ініціатива зупиняється між етапом підтвердження концепції та виробництвом. Причиною цього є конвеєри даних. Організації інвестують у можливості ШІ, розглядаючи базову інфраструктуру даних як другорядну проблему. Це призводить до того, що складний ШІ працює на застарілих фундаментах, які не були розроблені для його підтримки. Проблема інженерії даних є проблемою ШІ.

Коли інженерія даних тільки розвивалася, основною метою було створення звітів. Конвеєри даних переміщували інформацію з вихідних систем до сховищ даних, де аналітики могли робити запити. Затримка вимірювалася годинами або днями, що було прийнятно. ШІ кардинально змінює вимоги до затримки. Моделі, що прогнозують відтік клієнтів, потребують актуальних поведінкових даних. Системи виявлення шахрайства вимагають потоків транзакцій майже в реальному часі. Традиційні пакетні ETL-процеси не були розроблені для цього. Сучасні рішення для даних, що працюють майже в реальному часі, використовують архітектуру, де дані надходять безперервно, а логіка обробки працює постійно. Цей архітектурний зсув є необхідним для роботи ШІ, але він вносить складність, яку організації недооцінюють.

Проблема якості даних, яку ШІ посилює

ШІ не вирішує проблеми якості даних, а виявляє їх швидше. Звіт бізнес-аналітики, що агрегує дані з неякісного джерела, повільно видає неточні результати. Модель, навчена на тих самих неякісних даних, генерує неточні прогнози в масштабі та поширює помилки на кожне рішення, на яке вона впливає. Шкода відбувається швидше і її важче усунути.

Управління даними є однією з областей, де організації роблять найбільш послідовні помилки при підготовці до ШІ. Традиційне управління даними зосереджується на контролі доступу, безпеці та відповідності. ШІ додає новий вимір: походження даних моделі. Розуміння того, звідки походять навчальні дані, як вони були трансформовані та які перевірки якості пройшли, є важливим для довіри до результатів моделі та налагодження збоїв. У банківській справі та охороні здоров'я регуляторні вимоги до походження даних стають суворішими, оскільки регулятори визнають, що рішення ШІ потребують аудитованої основи даних. Створення масштабованих ETL-конвеєрів, які включають управління за задумом, а не як додаткову функцію, є однією з найефективніших інвестицій перед масштабуванням ШІ.

Сховища ознак та проблема узгодженості

Однією з менш помітних, але більш значущих інфраструктурних проблем у виробничому ШІ є підтримка узгодженості між тим, як ознаки обчислюються під час навчання моделі, і тим, як вони обчислюються під час висновку. Команда фахівців з даних створює модель, використовуючи історичні дані, а потім інша команда має реалізувати ті самі перетворення ознак у виробничому конвеєрі даних, часто з іншими інструментами та вимогами до затримки. Це призводить до систематичної деградації моделі, оскільки вона була навчена на ознаках, обчислених одним способом, а отримує ознаки, обчислені іншим.

Рішенням є сховище ознак: централізоване сховище, яке визначає, як обчислюється кожна ознака, зберігає ці визначення в одному місці та послідовно надає їх як середовищу навчання, так і середовищу висновку. Це не нова концепція, але вона ще не є стандартною практикою в більшості корпоративних середовищ даних, і неузгодженість, яку вона запобігає, є основним джерелом збоїв ШІ у виробництві.

Чого вчить досвід роботи в різних секторах

Досвід роботи в медіа, банківській справі та охороні здоров'я показує, що різні сектори мають принципово різні культури даних, і впровадження ШІ має це враховувати.

  • Медіа: Організації часто інвестують в інфраструктуру даних, мають культуру безперервної обробки даних і розуміють цінність даних у реальному часі. Вони зазвичай далі просунулися у впровадженні ШІ, оскільки основи інженерії даних вже закладені.
  • Банківська справа: Організації мають зрілу якість даних та управління, але регуляторне середовище створює обмеження на використання даних для ШІ, що вимагає ретельного архітектурного планування.
  • Охорона здоров'я: Проблеми з даними часто є найсерйознішими: фрагментовані джерела даних, непослідовні стандарти та застарілі системи, які ніколи не були розроблені для підтримки вимог інтеграції даних, необхідних для ШІ. Інженерна робота з підготовки даних для ШІ є більш суттєвою, ніж в інших секторах.

Спільним для всіх трьох секторів є те, що успіху ШІ передує успіх інженерії даних. Організації, які виконали фундаментальну роботу зі створення надійних, керованих, добре організованих платформ даних, є тими, хто може ввести ШІ в експлуатацію.

На чому варто зосередитися лідерам інженерії

Лідерам інженерії даних варто зосередитися на п'яти конкретних пріоритетах:

  1. Провести оцінку готовності конвеєрів даних перед тим, як брати на себе зобов'язання щодо дорожніх карт ШІ. Якщо конвеєри працюють на щоденних пакетних циклах, метрики якості даних не відстежуються систематично, а походження не документується, ці проблеми потрібно вирішити до масштабування ШІ.
  2. Створити можливості потокової обробки даних там, де це вимагають випадки використання ШІ. Не кожен конвеєр даних має бути потоковим, але кожен випадок використання ШІ з вимогами реального часу потребує інфраструктури, яка може доставляти дані з затримкою менше хвилини.
  3. Впровадити моніторинг якості даних як виробничу дисципліну. До конвеєрів даних слід ставитися як до виробничого програмного забезпечення: з автоматизованим тестуванням, безперервним моніторингом та процесами реагування на інциденти, що спрацьовують при погіршенні якості.
  4. Інвестувати у сховище ознак як основний компонент платформи даних. Це найнадійніший спосіб запобігти проблемі узгодженості між середовищами навчання та висновку. Ця інвестиція приносить дивіденди для кожної моделі, що вводиться у виробництво.
  5. Підвищувати грамотність у сфері ШІ в команді інженерів даних. Коли інженер даних розуміє, як модель споживає ознаки, він приймає кращі рішення щодо проектування. Коли бізнес-аналітик розуміє, що означає якість даних для точності моделі, він серйозніше ставиться до управління даними.

Фундамент визначає стелю

Найпоширеніше питання, яке виникає у організацій, що досліджують ШІ, полягає в тому, яку модель вони повинні використовувати. Важливіше питання полягає в тому, чи може їхня інфраструктура даних підтримувати обрану модель. Обмежуючим фактором є не доступність моделей, а готовність конвеєрів даних. Організації, які інвестують у фундаментальну роботу зі створення надійних, керованих, здатних працювати в реальному часі платформ даних, будуть тими, хто перетворить потенціал ШІ на бізнес-результати. Проблема інженерії даних є проблемою ШІ. Її вирішення вимагає такої ж ретельності, інвестицій та архітектурної дисципліни, яку організації застосовують до будь-якої критично важливої системи. Різниця полягає в тому, що вигода – це не просто операційна ефективність, а конкурентна перевага, яка зростає з часом.

Що це означає для розробників

Розробникам необхідно адаптуватися до архітектурних змін, переходячи від пакетної обробки до потокової, та освоювати інструменти для роботи з даними в реальному часі. Важливо приділяти увагу якості даних, походженню даних та впроваджувати сховища ознак для забезпечення узгодженості між навчанням та висновком моделей ШІ.

Ключові факти

  • Багато ініціатив ШІ зупиняються на шляху до виробництва через проблеми з конвеєрами даних, а не з моделями чи бізнес-логікою.

  • Традиційні пакетні ETL-процеси не відповідають вимогам ШІ до низької затримки та даних у реальному часі.

  • ШІ не вирішує проблеми якості даних, а виявляє їх швидше, посилюючи шкоду від неякісних даних.

  • Походження даних моделі та управління даними за задумом є критично важливими для довіри до результатів ШІ та відповідності регуляторним вимогам.

  • Сховища ознак є ключовим рішенням для забезпечення узгодженості обчислення ознак між середовищами навчання та висновку моделі.

Джерела

Джерело

The AI JournalAIJ Thought Leader

The Data Engineering Problem at the Heart of Your AI Strategy

4 червня 2026 · оновлено 4 червня 2026

Оригінал

Попередні статті

Сучасний дата-центр Google у Швеції, оточений зеленою природою, з елементами, що натякають на екологічні технології.
3 червня 2026Технології

Google розпочала будівництво нового дата-центру у Швеції

Google розпочала будівництво нового дата-центру в Хорндалі, Швеція, для підтримки своїх сервісів та задоволення зростаючого попиту на хмарні послуги. Об'єкт створюватиме робочі місця та використовуватиме екологічні технології, включаючи повітряне охолодження та рекуперацію тепла.

Абстрактна ілюстрація, що символізує штучний інтелект, який обробляє складний програмний код, з лініями даних та обчислювальними вузлами.
3 червня 2026Штучний інтелект

MiniMax представляє AI-модель M3 для складних завдань кодування

Китайський стартап MiniMax випустив свою флагманську AI-модель M3, призначену для кодування та автоматизованих робочих процесів. Вона обробляє до 1 млн токенів, знижує витрати та перевершує конкурентів у бенчмарках.

Ілюстрація, що зображує жваву технологічну конференцію з учасниками, які взаємодіють з голографічними даними та інтерфейсами ШІ, символізуючи майбутнє даних та штучного інтелекту.
3 червня 2026Дані та аналітика

Databricks оголошує програму та спікерів саміту Data + AI Summit 2026

Databricks представила повний розклад та список спікерів для Data + AI Summit 2026, найбільшої у світі конференції з даних та ШІ. Захід збере понад 30 000 учасників у Сан-Франциско та десятки тисяч онлайн для обговорення майбутнього даних та штучного інтелекту.

Наступні статті

Абстрактна ілюстрація, що символізує взаємодію великих даних та штучного інтелекту, з потоками інформації, що живлять інтелектуальні системи та генерують аналітичні висновки.
4 червня 2026Штучний інтелект

B.Tech. (CSE – Big Data and AI Analytics): Шлях до кар'єри в інтелектуальних системах

Програма B.Tech. (CSE – Big Data and AI Analytics) поєднує основи комп'ютерних наук зі спеціалізованими знаннями у сфері великих даних, машинного навчання та штучного інтелекту. Вона готує студентів до створення інтелектуальних систем та аналізу масивних наборів даних для прийняття рішень у різних галузях.

Ілюстрація, що зображує концепцію інженерії даних з елементами ШІ-асистента, потокової обробки даних та декларативних конвеєрів.
4 червня 2026Дані та аналітика

Qlik розширює агентну стратегію на інженерію даних з чотирма новими можливостями

Qlik розширює свою агентну стратегію на інженерію даних, представивши чотири нові можливості, що мають прискорити підготовку даних для ШІ-ініціатив та вирішити проблему ручної роботи.

Ілюстрація, що показує, як Snowflake Cortex Code (CoCo) прискорює розробку даних. У центрі стилізований логотип Snowflake, від якого розходяться елементи, що символізують швидку генерацію коду, dbt моделей, вирішення складних ієрархій та розробку ШІ-агентів, підкреслюючи інтеграцію та автоматизацію.
4 червня 2026Штучний інтелект

Snowflake Cortex Code: Контекстний ШІ для трансформації розробки даних

Snowflake Cortex Code (CoCo) інтегровано в процеси Atrium для прискорення розробки та оптимізації платформ даних. Завдяки розумінню контексту в Snowflake, CoCo значно підвищує швидкість та якість доставки рішень.