Дані та аналітика

Databricks Lakeflow та Agent Bricks: AI-орієнтований підхід до інженерії даних

J

Joanna Zouhour

7 хв читання

Ілюстрація, що зображує процес перетворення неструктурованих даних на цінні інсайти за допомогою AI, з абстрактними елементами, що символізують автоматизовану обробку даних.

Проблеми інженерів даних

Сучасні інженери даних все більше зосереджуються на використанні штучного інтелекту для покращення процесів ETL (Extract, Transform, Load) та створення надійних, готових до виробництва конвеєрів без додавання нової складності. Вони потребують AI, який дійсно спрощує робочі процеси, не додаючи розрізнених інструментів і не позбавляючи контексту. Команди даних часто стикаються з великою кількістю неструктурованих вхідних даних, таких як контракти, рахунки-фактури, транскрипти або відгуки. Їх обробка часто вимагає жонглювання крихкими моделями NLP, жорсткими правилами або ручним очищенням, що призводить до ненадійних результатів, повільного виконання та цінних інсайтів, заблокованих у документах.

Lakeflow: Уніфікована платформа з AI

Databricks Lakeflow пропонує уніфіковану платформу для інженерії даних з вбудованим та безпечним AI, який автоматизує весь процес обробки даних, розблоковує більше інсайтів та підтримує ширший спектр бізнес-завдань. Завдяки AI-згенерованому коду конвеєрів або оркестрації AI-навантажень, інженери даних, які використовують Lakeflow, можуть уникнути годин ручної «склеювальної» роботи та зосередитися на стратегічних та більш цінних патернах, що приносять реальний вплив на їхній бізнес. Lakeflow дозволяє легко впроваджувати та масштабувати AI-моделі, інтегруючи їх у конвеєр даних для автоматичного отримання бізнес-інсайтів.

Функції Agent Bricks AI: Інтеграція AI в ETL

За допомогою Databricks Lakeflow можна безперешкодно інтегрувати AI-трансформації у наявні робочі процеси через функції Databricks Agent Bricks AI. Ці функції дозволяють інтегрувати високоякісний AI безпосередньо в ETL-процес, автоматизуючи вилучення, трансформацію та класифікацію як неструктурованих, так і структурованих даних у масштабі. Існує кілька типів AI-функцій в Agent Bricks, деякі з яких не вимагають підказок і є специфічними для завдань, наприклад:

  • ai_extract: Вилучає конкретні сутності з вхідного тексту на основі наданих міток (наприклад, особа, місцезнаходження, організація).
  • ai_classify: Класифікує вхідний текст відповідно до наданих міток (наприклад, «терміново» проти «не терміново» або категорії тем).
  • ai_translate: Перекладає текст на вказану цільову мову.

ai_parse_document та ai_query: Нові можливості

Особливо відзначається нещодавно запущена AI-функція ai_parse_document, яка може бути використана для перетворення будь-яких неструктурованих даних у необхідні структуровані формати. Використовуючи мультимодальні фундаментальні моделі, ai_parse_doc дозволяє аналізувати текст, вилучати таблиці, обґрунтовувати цифри та перетворювати зображення на AI-згенеровані описи. Ця функція відкриває нові можливості для обробки даних, які раніше було майже неможливо аналізувати.

Також пропонується більш загальна функція ai_query(), що працює на платформі серверного пакетного висновку. Ця функція дозволяє виконувати AI-керовані трансформації великих наборів даних за допомогою будь-якої обраної великої мовної моделі (LLM) за один раз.

Серверний пакетний висновок: Швидкість та ефективність

Для максимізації продуктивності при обробці мільйонів рядків, серверний механізм пакетного висновку автоматично виділяє та масштабує обчислювальні ресурси та виконує робочі навантаження паралельно. Це усуває накладні витрати на кожен запит та забезпечує значно швидшу обробку, скорочуючи час виконання з годин до хвилин, одночасно покращуючи економічну ефективність для високооб'ємних AI-навантажень.

За допомогою Lakeflow можна легко впроваджувати AI-моделі та оркеструвати їх нативно у своєму рішенні для інженерії даних, використовуючи Lakeflow Jobs. AI-функції дозволяють підвищити ефективність оркестрації та розблокувати більше варіантів використання, таких як:

  • Генерація нових даних: Використання AI для написання резюме інсайтів клієнтів для прискорення звітності або прогнозування майбутніх доходів.
  • Структурування та організація даних: Проведення аналізу настроїв мільйонів багатомовних відгуків або автоматизація сегментації клієнтів за допомогою запитів природною мовою у масштабі.
  • Покращення якості даних: Використання нечіткого зіставлення та розв'язання сутностей для виправлення дублікатів та невідповідностей у масштабі.

Поєднання Lakeflow та Agent Bricks дозволяє запускати AI-моделі на єдиній, уніфікованій керованій платформі даних, щоб ваш AI та інсайти, які він вилучає, мали правильний бізнес- та корпоративний контекст.

Практичні застосування AI-функцій

Приклад 1: Аналіз розмовних транскриптів

Уявіть, що команді продажів потрібен надійний спосіб перетворювати довгі, неструктуровані транскрипти дзвінків на чіткі, дієві резюме. З сотнями дзвінків на день, багато з яких тривають 45-60 хвилин, ручний перегляд швидко стає неможливим. З Databricks можна використовувати вбудовані AI-функції для легкого та швидкого аналізу всіх цих транскриптів, вилучення ключових інсайтів та генерації рекомендацій щодо подальших дій. Замість створення окремого AI-сервісу або керування власними агентами, можна просто написати запит і запустити його як частину оркестратора за допомогою Lakeflow Jobs. AI-модель потім впроваджується безпосередньо в керовану та уніфіковану платформу інженерії даних, де ви отримуєте масштабовану пакетну обробку, яка залишається повністю інтегрованою з наявними робочими процесами конвеєрів продажів, зберігаючи при цьому правильний бізнес- та корпоративний контекст.

Після завантаження транскриптів дзвінків у конвеєр, можна застосувати AI-функції для перетворення неструктурованого тексту на корисні сигнали:

  • ai_analyze_sentiment для визначення загального настрою дзвінка (позитивний, негативний, нейтральний).
  • ai_extract для вилучення ключової інформації з дзвінків, включаючи ім'я клієнта, назву компанії, посаду, номер телефону тощо.
  • ai_classify для категоризації типу дзвінка (терміновість, тема тощо).

Це забезпечує структуровану основу для подальшої аналітики та автоматизації. Потім можна використовувати ai_query для узагальнення кожного дзвінка за допомогою обраної AI-моделі (наприклад, «databricks-meta-llama-3-3-70b-instruct» LLM). Ці запити створюють послідовні, високоякісні резюме, які команди продажів та облікових записів можуть швидко переглядати. Персоналізовані подальші дії можуть бути згенеровані в тому ж робочому процесі та передані безпосередньо в CRM або інструменти продажів у масштабі.

Приклад 2: Оптимізація обробки страхових претензій

Уявіть, що ви створюєте конвеєр обробки претензій для страхової компанії, якій потрібні швидші та послідовніші затвердження. Сьогодні претензії часто надходять електронною поштою з неструктурованими вкладеннями, такими як відскановані документи, фотографії та PDF-файли, що ускладнює їх завантаження та обробку у масштабі. За допомогою Agent Bricks та Lakeflow інженери даних можуть використовувати ai_parse_document та ai_query для автоматичного вилучення, нормалізації та консолідації даних з вхідних електронних листів як частини своїх ETL-конвеєрів. Це забезпечує надійну, наскрізну автоматизацію, яка зменшує ручний перегляд, прискорює прийняття рішень та безперешкодно інтегрується в наявні робочі процеси даних.

Використовуючи Lakeflow та Agent Bricks, можна завантажувати файли електронної пошти у своє сховище даних (lakehouse), а потім вилучати необхідні дані за допомогою:

  • ai_query для читання тіла електронного листа та вилучення ключової інформації (наприклад: ім'я, дата народження, адреса, номер соціального страхування).
  • ai_query з моделлю, яка може читати конкретний тип зображення, що надходить. Ця AI-функція генеруватиме текст, що описує прикріплене зображення, та вилучатиме його метадані.
  • ai_parse_document для читання будь-якого PDF (jpg або png), прикріпленого до електронного листа.

Після вилучення даних можна знову використовувати ai_query для консолідації всієї інформації в файл, який можна повторно використовувати в іншому робочому процесі або безпосередньо передати команді (аналітику BI, команді AI/ML тощо).

Реальні кейси використання

Багато клієнтів Databricks та інженерів даних успішно вирішили різні бізнес-завдання — ціноутворення, успіх клієнтів та маркетинг — використовуючи AI та Lakeflow для розблокування інсайтів та підвищення продуктивності.

  • Kard, фінтех-компанія з Нью-Йорка, використовує функції Agent Bricks AI для живлення масштабованої, точної системи категоризації транзакцій, яка замінює ручні та непослідовні застарілі методи. Цей сучасний підхід дозволяє Kard ефективно обробляти мільярди транзакцій, надавати персоналізовані винагороди та забезпечувати багатші інсайти, що підвищують лояльність та бізнес-цінність.
  • Команда інженерів даних у Banco Bradesco, одному з найбільших банків Латинської Америки, зіткнулася з вузькими місцями продуктивності через тривалі процеси кодування, налагодження та документування. Завдяки впровадженню Databricks Assistant вони скоротили час кодування на 50% та надали можливість як технічним, так і нетехнічним користувачам генерувати та усувати несправності коду за допомогою природної мови — демократизуючи доступ до даних, зменшуючи витрати та прискорюючи прийняття рішень на основі даних.
  • Locala, глобальна омніканальна рекламна платформа, використовувала Lakeflow Jobs для оркестрації складних конвеєрів навчання LLM, з якими її попередній планувальник, Airflow, не міг впоратися. Завдяки оптимізації ETL, навчання та експериментів з моделями, а також вибору обчислювальних ресурсів, Lakeflow Jobs усунув операційний тягар керування складними робочими процесами, дозволивши одному спеціалісту з даних створити GenAI Assistant, який став ключовою функцією продажів для компанії ad-tech.

Майбутні розробки

Незабаром Databricks Genie дозволить використовувати природну мову для створення та налагодження конвеєрів на платформі інженерії даних.

Що це означає для розробників

Databricks Lakeflow та Agent Bricks надають інженерам даних інструменти для автоматизації ETL-процесів за допомогою вбудованого AI, дозволяючи створювати надійні конвеєри без додавання складності. Це звільняє їх від рутинної роботи, даючи змогу зосередитися на стратегічних завданнях та швидше отримувати цінні бізнес-інсайти з даних.

Ключові факти

  • Databricks Lakeflow – уніфікована платформа для інженерії даних з вбудованим AI.

  • Lakeflow автоматизує обробку даних та розблоковує більше інсайтів.

  • Agent Bricks AI Functions інтегрують високоякісний AI безпосередньо в ETL-процеси.

  • Функції включають ai_extract, ai_classify, ai_translate, ai_parse_document, ai_query().

  • ai_parse_document використовує мультимодальні моделі для перетворення неструктурованих даних у структуровані формати.

Джерела

Джерело

DatabricksJoanna Zouhour

An AI-First Approach to Data Engineering with Lakeflow and Agent Bricks

24 лютого 2026

Оригінал

Попередні статті

Абстрактна ілюстрація, що показує, як сирі дані перетворюються на структуровані активи за допомогою платформи Osmos, інтегрованої в екосистему Microsoft Fabric.
21 травня 2026Дані та аналітика

Microsoft купує Osmos для прискорення автономної інженерії даних у Fabric

Microsoft оголосила про придбання Osmos, платформи для інженерії даних на базі агентного ШІ. Цей крок має на меті спростити складні робочі процеси з даними та інтегрувати можливості Osmos у Microsoft Fabric, допомагаючи організаціям перетворювати сирі дані на готові для аналітики та ШІ активи в OneLake.

Студенти працюють над проєктами під час хакатону, обговорюючи рішення біля ноутбуків у сучасному просторі.
21 травня 2026Розробка ПЗ

Студенти коледжу Lake Forest продемонстрували навички кодування та роботи з даними на першому хакатоні

Коледж Lake Forest провів свій перший хакатон, де студенти застосували навички кодування та роботи з даними. Переможці поділилися своїми враженнями від навчання, командної роботи та подолання синдрому самозванця.

Абстрактне зображення, що символізує агентну інженерію даних, де інтелектуальні системи оптимізують потоки даних та конвеєри, з елементами штучного інтелекту та автоматизації.
21 травня 2026Дані та аналітика

definity представляє платформу агентної інженерії даних та залучає $12 млн у раунді Серії A

Компанія definity представила свою нову платформу агентної інженерії даних, призначену для оптимізації озерних сховищ та конвеєрів даних Spark. Одночасно було оголошено про залучення $12 млн у раунді фінансування Серії A, що довело загальний обсяг інвестицій до $16.5 млн.

Наступні статті

Ілюстрація, що зображує спіралі ДНК, переплетені з бінарним кодом, символізуючи зберігання даних у ДНК та процеси корекції помилок.
21 травня 2026Технології

Оцінка сучасних кодів корекції помилок для зберігання даних у ДНК

Дослідження систематично порівнює шість кодеків корекції помилок для зберігання даних у ДНК, вивчаючи їхню ефективність у різних сценаріях, включаючи вплив кластеризації зчитувань та стійкість до втрати послідовностей.

Абстрактна ілюстрація потоку даних через корпоративні системи, де інженерія даних створює структурований контекст для ШІ-агента, а оркестрація керує його діями.
21 травня 2026Штучний інтелект

Штучний інтелект не вирішить проблеми з даними: інженерія даних — ось ключ

Сучасні інвестиції в ШІ зосереджені на моделях, але справжні проблеми криються в якості та контексті даних. Інженерія даних та оркестрація є критично важливими для надійного функціонування ШІ-агентів в корпоративному середовищі.

Ілюстрація, що зображує інженера даних, який працює серед абстрактних елементів хмарної інфраструктури, кластерів Kubernetes, потоків даних та моделей ШІ, символізуючи складність та взаємозв'язок сучасних систем даних.
21 травня 2026Дані та аналітика

Майбутнє Data Engineering: Виклики, Тенденції та Роль Лідерів

Деклан Гоуран з IAS ділиться поглядом на кар'єру в data engineering, виклики галузі, розвиток команд та прогнози на найближчі місяці, включаючи поширення data mesh, MLOps та AI-орієнтованих архітектур.