Проблема інженерії даних: серце стратегії ШІ

Чому конвеєри даних є вузьким місцем для ШІ

Керівництво інвестує в ШІ, команди фахівців з даних створюють ефективні моделі в лабораторії, бізнес-обґрунтування є переконливим, але ініціатива зупиняється між етапом підтвердження концепції та виробництвом. Причиною цього є конвеєри даних. Організації інвестують у можливості ШІ, розглядаючи базову інфраструктуру даних як другорядну проблему. Це призводить до того, що складний ШІ працює на застарілих фундаментах, які не були розроблені для його підтримки. Проблема інженерії даних є проблемою ШІ.

Коли інженерія даних тільки розвивалася, основною метою було створення звітів. Конвеєри даних переміщували інформацію з вихідних систем до сховищ даних, де аналітики могли робити запити. Затримка вимірювалася годинами або днями, що було прийнятно. ШІ кардинально змінює вимоги до затримки. Моделі, що прогнозують відтік клієнтів, потребують актуальних поведінкових даних. Системи виявлення шахрайства вимагають потоків транзакцій майже в реальному часі. Традиційні пакетні ETL-процеси не були розроблені для цього. Сучасні рішення для даних, що працюють майже в реальному часі, використовують архітектуру, де дані надходять безперервно, а логіка обробки працює постійно. Цей архітектурний зсув є необхідним для роботи ШІ, але він вносить складність, яку організації недооцінюють.

Проблема якості даних, яку ШІ посилює

ШІ не вирішує проблеми якості даних, а виявляє їх швидше. Звіт бізнес-аналітики, що агрегує дані з неякісного джерела, повільно видає неточні результати. Модель, навчена на тих самих неякісних даних, генерує неточні прогнози в масштабі та поширює помилки на кожне рішення, на яке вона впливає. Шкода відбувається швидше і її важче усунути.

Управління даними є однією з областей, де організації роблять найбільш послідовні помилки при підготовці до ШІ. Традиційне управління даними зосереджується на контролі доступу, безпеці та відповідності. ШІ додає новий вимір: походження даних моделі. Розуміння того, звідки походять навчальні дані, як вони були трансформовані та які перевірки якості пройшли, є важливим для довіри до результатів моделі та налагодження збоїв. У банківській справі та охороні здоров'я регуляторні вимоги до походження даних стають суворішими, оскільки регулятори визнають, що рішення ШІ потребують аудитованої основи даних. Створення масштабованих ETL-конвеєрів, які включають управління за задумом, а не як додаткову функцію, є однією з найефективніших інвестицій перед масштабуванням ШІ.

Сховища ознак та проблема узгодженості

Однією з менш помітних, але більш значущих інфраструктурних проблем у виробничому ШІ є підтримка узгодженості між тим, як ознаки обчислюються під час навчання моделі, і тим, як вони обчислюються під час висновку. Команда фахівців з даних створює модель, використовуючи історичні дані, а потім інша команда має реалізувати ті самі перетворення ознак у виробничому конвеєрі даних, часто з іншими інструментами та вимогами до затримки. Це призводить до систематичної деградації моделі, оскільки вона була навчена на ознаках, обчислених одним способом, а отримує ознаки, обчислені іншим.

Рішенням є сховище ознак: централізоване сховище, яке визначає, як обчислюється кожна ознака, зберігає ці визначення в одному місці та послідовно надає їх як середовищу навчання, так і середовищу висновку. Це не нова концепція, але вона ще не є стандартною практикою в більшості корпоративних середовищ даних, і неузгодженість, яку вона запобігає, є основним джерелом збоїв ШІ у виробництві.

Чого вчить досвід роботи в різних секторах

Досвід роботи в медіа, банківській справі та охороні здоров'я показує, що різні сектори мають принципово різні культури даних, і впровадження ШІ має це враховувати.

Медіа: Організації часто інвестують в інфраструктуру даних, мають культуру безперервної обробки даних і розуміють цінність даних у реальному часі. Вони зазвичай далі просунулися у впровадженні ШІ, оскільки основи інженерії даних вже закладені.
Банківська справа: Організації мають зрілу якість даних та управління, але регуляторне середовище створює обмеження на використання даних для ШІ, що вимагає ретельного архітектурного планування.
Охорона здоров'я: Проблеми з даними часто є найсерйознішими: фрагментовані джерела даних, непослідовні стандарти та застарілі системи, які ніколи не були розроблені для підтримки вимог інтеграції даних, необхідних для ШІ. Інженерна робота з підготовки даних для ШІ є більш суттєвою, ніж в інших секторах.

Спільним для всіх трьох секторів є те, що успіху ШІ передує успіх інженерії даних. Організації, які виконали фундаментальну роботу зі створення надійних, керованих, добре організованих платформ даних, є тими, хто може ввести ШІ в експлуатацію.

На чому варто зосередитися лідерам інженерії

Лідерам інженерії даних варто зосередитися на п'яти конкретних пріоритетах:

Провести оцінку готовності конвеєрів даних перед тим, як брати на себе зобов'язання щодо дорожніх карт ШІ. Якщо конвеєри працюють на щоденних пакетних циклах, метрики якості даних не відстежуються систематично, а походження не документується, ці проблеми потрібно вирішити до масштабування ШІ.
Створити можливості потокової обробки даних там, де це вимагають випадки використання ШІ. Не кожен конвеєр даних має бути потоковим, але кожен випадок використання ШІ з вимогами реального часу потребує інфраструктури, яка може доставляти дані з затримкою менше хвилини.
Впровадити моніторинг якості даних як виробничу дисципліну. До конвеєрів даних слід ставитися як до виробничого програмного забезпечення: з автоматизованим тестуванням, безперервним моніторингом та процесами реагування на інциденти, що спрацьовують при погіршенні якості.
Інвестувати у сховище ознак як основний компонент платформи даних. Це найнадійніший спосіб запобігти проблемі узгодженості між середовищами навчання та висновку. Ця інвестиція приносить дивіденди для кожної моделі, що вводиться у виробництво.
Підвищувати грамотність у сфері ШІ в команді інженерів даних. Коли інженер даних розуміє, як модель споживає ознаки, він приймає кращі рішення щодо проектування. Коли бізнес-аналітик розуміє, що означає якість даних для точності моделі, він серйозніше ставиться до управління даними.

Фундамент визначає стелю

Найпоширеніше питання, яке виникає у організацій, що досліджують ШІ, полягає в тому, яку модель вони повинні використовувати. Важливіше питання полягає в тому, чи може їхня інфраструктура даних підтримувати обрану модель. Обмежуючим фактором є не доступність моделей, а готовність конвеєрів даних. Організації, які інвестують у фундаментальну роботу зі створення надійних, керованих, здатних працювати в реальному часі платформ даних, будуть тими, хто перетворить потенціал ШІ на бізнес-результати. Проблема інженерії даних є проблемою ШІ. Її вирішення вимагає такої ж ретельності, інвестицій та архітектурної дисципліни, яку організації застосовують до будь-якої критично важливої системи. Різниця полягає в тому, що вигода – це не просто операційна ефективність, а конкурентна перевага, яка зростає з часом.

Що це означає для розробників

Розробникам необхідно адаптуватися до архітектурних змін, переходячи від пакетної обробки до потокової, та освоювати інструменти для роботи з даними в реальному часі. Важливо приділяти увагу якості даних, походженню даних та впроваджувати сховища ознак для забезпечення узгодженості між навчанням та висновком моделей ШІ.

Ключові факти

Багато ініціатив ШІ зупиняються на шляху до виробництва через проблеми з конвеєрами даних, а не з моделями чи бізнес-логікою.
Традиційні пакетні ETL-процеси не відповідають вимогам ШІ до низької затримки та даних у реальному часі.
ШІ не вирішує проблеми якості даних, а виявляє їх швидше, посилюючи шкоду від неякісних даних.
Походження даних моделі та управління даними за задумом є критично важливими для довіри до результатів ШІ та відповідності регуляторним вимогам.
Сховища ознак є ключовим рішенням для забезпечення узгодженості обчислення ознак між середовищами навчання та висновку моделі.