Databricks Lakeflow та Agent Bricks: AI для інженерії даних

Проблеми інженерів даних

Сучасні інженери даних все більше зосереджуються на використанні штучного інтелекту для покращення процесів ETL (Extract, Transform, Load) та створення надійних, готових до виробництва конвеєрів без додавання нової складності. Вони потребують AI, який дійсно спрощує робочі процеси, не додаючи розрізнених інструментів і не позбавляючи контексту. Команди даних часто стикаються з великою кількістю неструктурованих вхідних даних, таких як контракти, рахунки-фактури, транскрипти або відгуки. Їх обробка часто вимагає жонглювання крихкими моделями NLP, жорсткими правилами або ручним очищенням, що призводить до ненадійних результатів, повільного виконання та цінних інсайтів, заблокованих у документах.

Lakeflow: Уніфікована платформа з AI

Databricks Lakeflow пропонує уніфіковану платформу для інженерії даних з вбудованим та безпечним AI, який автоматизує весь процес обробки даних, розблоковує більше інсайтів та підтримує ширший спектр бізнес-завдань. Завдяки AI-згенерованому коду конвеєрів або оркестрації AI-навантажень, інженери даних, які використовують Lakeflow, можуть уникнути годин ручної «склеювальної» роботи та зосередитися на стратегічних та більш цінних патернах, що приносять реальний вплив на їхній бізнес. Lakeflow дозволяє легко впроваджувати та масштабувати AI-моделі, інтегруючи їх у конвеєр даних для автоматичного отримання бізнес-інсайтів.

Функції Agent Bricks AI: Інтеграція AI в ETL

За допомогою Databricks Lakeflow можна безперешкодно інтегрувати AI-трансформації у наявні робочі процеси через функції Databricks Agent Bricks AI. Ці функції дозволяють інтегрувати високоякісний AI безпосередньо в ETL-процес, автоматизуючи вилучення, трансформацію та класифікацію як неструктурованих, так і структурованих даних у масштабі. Існує кілька типів AI-функцій в Agent Bricks, деякі з яких не вимагають підказок і є специфічними для завдань, наприклад:

ai_extract: Вилучає конкретні сутності з вхідного тексту на основі наданих міток (наприклад, особа, місцезнаходження, організація).
ai_classify: Класифікує вхідний текст відповідно до наданих міток (наприклад, «терміново» проти «не терміново» або категорії тем).
ai_translate: Перекладає текст на вказану цільову мову.

ai_parse_document та ai_query: Нові можливості

Особливо відзначається нещодавно запущена AI-функція ai_parse_document, яка може бути використана для перетворення будь-яких неструктурованих даних у необхідні структуровані формати. Використовуючи мультимодальні фундаментальні моделі, ai_parse_doc дозволяє аналізувати текст, вилучати таблиці, обґрунтовувати цифри та перетворювати зображення на AI-згенеровані описи. Ця функція відкриває нові можливості для обробки даних, які раніше було майже неможливо аналізувати.

Також пропонується більш загальна функція ai_query(), що працює на платформі серверного пакетного висновку. Ця функція дозволяє виконувати AI-керовані трансформації великих наборів даних за допомогою будь-якої обраної великої мовної моделі (LLM) за один раз.

Серверний пакетний висновок: Швидкість та ефективність

Для максимізації продуктивності при обробці мільйонів рядків, серверний механізм пакетного висновку автоматично виділяє та масштабує обчислювальні ресурси та виконує робочі навантаження паралельно. Це усуває накладні витрати на кожен запит та забезпечує значно швидшу обробку, скорочуючи час виконання з годин до хвилин, одночасно покращуючи економічну ефективність для високооб'ємних AI-навантажень.

За допомогою Lakeflow можна легко впроваджувати AI-моделі та оркеструвати їх нативно у своєму рішенні для інженерії даних, використовуючи Lakeflow Jobs. AI-функції дозволяють підвищити ефективність оркестрації та розблокувати більше варіантів використання, таких як:

Генерація нових даних: Використання AI для написання резюме інсайтів клієнтів для прискорення звітності або прогнозування майбутніх доходів.
Структурування та організація даних: Проведення аналізу настроїв мільйонів багатомовних відгуків або автоматизація сегментації клієнтів за допомогою запитів природною мовою у масштабі.
Покращення якості даних: Використання нечіткого зіставлення та розв'язання сутностей для виправлення дублікатів та невідповідностей у масштабі.

Поєднання Lakeflow та Agent Bricks дозволяє запускати AI-моделі на єдиній, уніфікованій керованій платформі даних, щоб ваш AI та інсайти, які він вилучає, мали правильний бізнес- та корпоративний контекст.

Практичні застосування AI-функцій

Приклад 1: Аналіз розмовних транскриптів

Уявіть, що команді продажів потрібен надійний спосіб перетворювати довгі, неструктуровані транскрипти дзвінків на чіткі, дієві резюме. З сотнями дзвінків на день, багато з яких тривають 45-60 хвилин, ручний перегляд швидко стає неможливим. З Databricks можна використовувати вбудовані AI-функції для легкого та швидкого аналізу всіх цих транскриптів, вилучення ключових інсайтів та генерації рекомендацій щодо подальших дій. Замість створення окремого AI-сервісу або керування власними агентами, можна просто написати запит і запустити його як частину оркестратора за допомогою Lakeflow Jobs. AI-модель потім впроваджується безпосередньо в керовану та уніфіковану платформу інженерії даних, де ви отримуєте масштабовану пакетну обробку, яка залишається повністю інтегрованою з наявними робочими процесами конвеєрів продажів, зберігаючи при цьому правильний бізнес- та корпоративний контекст.

Після завантаження транскриптів дзвінків у конвеєр, можна застосувати AI-функції для перетворення неструктурованого тексту на корисні сигнали:

ai_analyze_sentiment для визначення загального настрою дзвінка (позитивний, негативний, нейтральний).
ai_extract для вилучення ключової інформації з дзвінків, включаючи ім'я клієнта, назву компанії, посаду, номер телефону тощо.
ai_classify для категоризації типу дзвінка (терміновість, тема тощо).

Це забезпечує структуровану основу для подальшої аналітики та автоматизації. Потім можна використовувати ai_query для узагальнення кожного дзвінка за допомогою обраної AI-моделі (наприклад, «databricks-meta-llama-3-3-70b-instruct» LLM). Ці запити створюють послідовні, високоякісні резюме, які команди продажів та облікових записів можуть швидко переглядати. Персоналізовані подальші дії можуть бути згенеровані в тому ж робочому процесі та передані безпосередньо в CRM або інструменти продажів у масштабі.

Приклад 2: Оптимізація обробки страхових претензій

Уявіть, що ви створюєте конвеєр обробки претензій для страхової компанії, якій потрібні швидші та послідовніші затвердження. Сьогодні претензії часто надходять електронною поштою з неструктурованими вкладеннями, такими як відскановані документи, фотографії та PDF-файли, що ускладнює їх завантаження та обробку у масштабі. За допомогою Agent Bricks та Lakeflow інженери даних можуть використовувати ai_parse_document та ai_query для автоматичного вилучення, нормалізації та консолідації даних з вхідних електронних листів як частини своїх ETL-конвеєрів. Це забезпечує надійну, наскрізну автоматизацію, яка зменшує ручний перегляд, прискорює прийняття рішень та безперешкодно інтегрується в наявні робочі процеси даних.

Використовуючи Lakeflow та Agent Bricks, можна завантажувати файли електронної пошти у своє сховище даних (lakehouse), а потім вилучати необхідні дані за допомогою:

ai_query для читання тіла електронного листа та вилучення ключової інформації (наприклад: ім'я, дата народження, адреса, номер соціального страхування).
ai_query з моделлю, яка може читати конкретний тип зображення, що надходить. Ця AI-функція генеруватиме текст, що описує прикріплене зображення, та вилучатиме його метадані.
ai_parse_document для читання будь-якого PDF (jpg або png), прикріпленого до електронного листа.

Після вилучення даних можна знову використовувати ai_query для консолідації всієї інформації в файл, який можна повторно використовувати в іншому робочому процесі або безпосередньо передати команді (аналітику BI, команді AI/ML тощо).

Реальні кейси використання

Багато клієнтів Databricks та інженерів даних успішно вирішили різні бізнес-завдання — ціноутворення, успіх клієнтів та маркетинг — використовуючи AI та Lakeflow для розблокування інсайтів та підвищення продуктивності.

Kard, фінтех-компанія з Нью-Йорка, використовує функції Agent Bricks AI для живлення масштабованої, точної системи категоризації транзакцій, яка замінює ручні та непослідовні застарілі методи. Цей сучасний підхід дозволяє Kard ефективно обробляти мільярди транзакцій, надавати персоналізовані винагороди та забезпечувати багатші інсайти, що підвищують лояльність та бізнес-цінність.
Команда інженерів даних у Banco Bradesco, одному з найбільших банків Латинської Америки, зіткнулася з вузькими місцями продуктивності через тривалі процеси кодування, налагодження та документування. Завдяки впровадженню Databricks Assistant вони скоротили час кодування на 50% та надали можливість як технічним, так і нетехнічним користувачам генерувати та усувати несправності коду за допомогою природної мови — демократизуючи доступ до даних, зменшуючи витрати та прискорюючи прийняття рішень на основі даних.
Locala, глобальна омніканальна рекламна платформа, використовувала Lakeflow Jobs для оркестрації складних конвеєрів навчання LLM, з якими її попередній планувальник, Airflow, не міг впоратися. Завдяки оптимізації ETL, навчання та експериментів з моделями, а також вибору обчислювальних ресурсів, Lakeflow Jobs усунув операційний тягар керування складними робочими процесами, дозволивши одному спеціалісту з даних створити GenAI Assistant, який став ключовою функцією продажів для компанії ad-tech.

Майбутні розробки

Незабаром Databricks Genie дозволить використовувати природну мову для створення та налагодження конвеєрів на платформі інженерії даних.

Що це означає для розробників

Databricks Lakeflow та Agent Bricks надають інженерам даних інструменти для автоматизації ETL-процесів за допомогою вбудованого AI, дозволяючи створювати надійні конвеєри без додавання складності. Це звільняє їх від рутинної роботи, даючи змогу зосередитися на стратегічних завданнях та швидше отримувати цінні бізнес-інсайти з даних.

Ключові факти

Databricks Lakeflow – уніфікована платформа для інженерії даних з вбудованим AI.
Lakeflow автоматизує обробку даних та розблоковує більше інсайтів.
Agent Bricks AI Functions інтегрують високоякісний AI безпосередньо в ETL-процеси.
Функції включають ai_extract, ai_classify, ai_translate, ai_parse_document, ai_query().
ai_parse_document використовує мультимодальні моделі для перетворення неструктурованих даних у структуровані формати.