Інженерія даних та DataOps: Основи, ETL, OLAP, хмарні рішення

Що таке інженерія даних та її важливість

Інженерія даних – це процес проєктування, створення, підтримки та експлуатації систем та інфраструктури для зберігання, обробки та аналізу великих, складних наборів даних. Ця галузь набула значної важливості через зростання "великих даних" (big data) та посилення залежності від бізнес-моделей, керованих даними.

Зростання попиту на інженерів даних

Попит на інженерів даних зріс настільки швидко, що, за даними Gensigma, організації потрібно щонайменше 10 інженерів даних на кожних трьох фахівців з обробки даних (data scientists). Світовий ринок послуг у сфері великих даних та інженерії даних демонструє значне зростання, за оцінками, від 18% до 31% щорічно з 2017 по 2026 рік. Компанії FAANG (тепер MAANGO), такі як Facebook (Meta), Amazon, Apple, Netflix, Google та Oracle, відіграли ключову роль у цьому розвитку, інвестуючи значні кошти та час у найм та розвиток талантів та технологій в інженерії даних.

Сучасні компанії значною мірою покладаються на дані для покращення своїх продуктів та послуг, розуміючи дії та поведінку користувачів. Це вимагає від них значної залежності від інженерів даних для проєктування, створення та підтримки інфраструктури та систем, які забезпечують збір, зберігання та аналіз великих та складних наборів даних.

Збір та зберігання даних

У сучасному цифровому світі майже кожна онлайн-дія генерує інформацію, яка збирається та зберігається підприємствами. Ця інформація зберігається в системах управління базами даних (СУБД).

Реляційні бази даних

Реляційні бази даних зберігають дані у форматі, схожому на електронну таблицю, з рядками та стовпцями. Вони часто використовуються для зберігання структурованих даних, таких як замовлення клієнтів або інвентар. Прикладами реляційних баз даних є MySQL, PostgreSQL, MariaDB, Microsoft SQL Server та Oracle Database.

Нереляційні бази даних (NoSQL)

Нереляційні бази даних (також відомі як NoSQL) зберігають дані у різних форматах, таких як пари ключ-значення, документи та графи. Вони часто використовуються для обробки великих обсягів неструктурованих або напівструктурованих даних, наприклад, тих, що генеруються соціальними мережами. Вони добре підходять для застосунків, що вимагають високого рівня гнучкості та масштабованості.

Багато компаній, включаючи Amazon, Google, Facebook, Twitter, Netflix, Uber, Airbnb, LinkedIn, Indeed та Dropbox, використовують як реляційні, так і нереляційні бази даних для зберігання та управління різноманітними даними.

Взаємодія з базами даних: SQL та мови програмування

Для взаємодії з базами даних та вилучення інформації використовується мова структурованих запитів (SQL). SQL дозволяє легко спілкуватися з базою даних та отримувати потрібні дані за допомогою простих команд, а також виконувати операції вставки, оновлення та видалення даних.

Крім SQL, для підключення до баз даних та виконання більш складних операцій запитів можна використовувати різні мови програмування, такі як Python, Java, JavaScript, R, Julia, Scala, за умови, що вони підтримують базове підключення до бази даних.

Процес інженерії даних (DataOps)

Після зберігання даних наступним кроком є їх використання для вирішення складних бізнес-завдань. Це може бути досягнуто шляхом створення метрик для дашбордів, моделей машинного навчання та інших рішень. Процес перетворення сирих даних у базі даних на кінцеве рішення відомий як "інженерія даних". Цей процес, також відомий як DataOps, може складатися з кількох кроків і відрізнятися від компанії до компанії залежно від її конкретних потреб.

OLTP та OLAP: Ключові системи

Реляційні бази даних розроблені для швидшого читання, запису та оновлення даних, а не для глибокого аналізу. Для отримання інсайтів з даних потрібна інша система, оптимізована для аналітичної роботи – OLAP.

Online Transaction Processing (OLTP)

OLTP – це тип системи баз даних, розроблений для підтримки висококонкурентних, інтенсивних за даними транзакцій. Вона зазвичай використовується для обробки великих обсягів даних, які постійно вставляються, оновлюються та видаляються, наприклад, у роздрібних або фінансових застосунках. Системи OLTP зазвичай реалізуються за допомогою реляційних СУБД та використовують SQL для маніпуляції даними та обробки запитів.

Online Analytical Processing (OLAP)

OLAP – це тип системи баз даних, розроблений для швидкого запитування та аналізу даних. Вона зазвичай використовується для підтримки бізнес-аналітики (BI) та діяльності з прийняття рішень, таких як інтелектуальний аналіз даних, статистичний аналіз та звітність. Системи OLAP розроблені для підтримки складних запитів та обчислень на великих наборах даних, часто включаючи агрегації та згортання даних за кількома вимірами.

Переміщення даних: Процес ETL

Для аналізу даних, що зберігаються в системі OLTP (наприклад, Postgres або MySQL), їх необхідно перенести до системи OLAP або сховища даних, такого як Snowflake. Цей процес називається ETL (extract, transform, load – вилучення, перетворення, завантаження). ETL передбачає вилучення даних з одного або кількох джерел, їх перетворення на основі бізнес-логіки або дизайну сховища даних, а потім завантаження в одне конкретне цільове місце.

Традиційні та сучасні підходи до ETL

Традиційно ETL-конвеєри розроблялися шляхом написання їх з нуля. Однак постійно розробляються нові підходи та інструменти. Наприклад, замість розробки повного ETL-конвеєра з нуля, можна використовувати платформи та інструменти, такі як AWS Glue та Fivetran, які надають повністю кероване середовище для вилучення, завантаження та перетворення даних у сховищі даних. Ці інструменти розроблені для економії часу та зусиль, які б знадобилися для ручного написання ETL-конвеєра.

Дилема обробки даних: Пакетна проти обробки в реальному часі

Різні підприємства мають різні вимоги до обробки даних. Деякі потребують перегляду даних у реальному часі, тоді як інші – лише періодично. Існують дві основні техніки обробки:

Пакетна обробка

Пакетна обробка передбачає збереження даних, коли вони надходять через події. Наприклад, компанія може використовувати пакетну обробку для періодичного вилучення даних зі своєї транзакційної бази даних та завантаження їх у сховище даних для аналізу та генерації звітів про поведінку клієнтів, продажі та інші бізнес-метрики.

Обробка в реальному часі

Обробка в реальному часі передбачає постійне зберігання даних, коли вони надходять через події в реальному часі. Наприклад, компанії, що використовують GPS-трекери у своїх транспортних засобах (як Uber), аналізують дані про місцезнаходження, швидкість та інші параметри майже в реальному часі, щоб надавати пасажирам актуальні оновлення.

Фреймворки для обробки великих даних

Для обробки великих обсягів даних, коли одного комп'ютера недостатньо, використовуються кілька комп'ютерів для розподілу та обробки даних частинами. Для пакетної обробки існують фреймворки, такі як Hadoop, Apache Storm та DataTorrent RTS. Для потокової обробки в реальному часі використовуються такі інструменти, як Apache Kafka, ActiveMQ та AWS Kinesis.

Ландшафт великих даних та хмарні обчислення

Обробка великих обсягів даних вимагає потужних систем. У минулому компанії будували та підтримували власні сервери в локальних центрах обробки даних, що часто призводило до проблем з обладнанням та необхідності регулярного обслуговування.

Переваги переходу до хмари

Багато підприємств переносять свої операції в хмару, щоб уникнути проблем, пов'язаних з поломками обладнання та регулярними оновленнями програмного забезпечення. У хмарі компаніям потрібно платити лише за ті ресурси, які вони дійсно використовують, і вони можуть масштабувати свої сервери для задоволення будь-якого попиту. Постачальники хмарних послуг також надають різні види послуг для управління великими обсягами даних та спрощення процесів зберігання та обробки. Трьома провідними постачальниками хмарних платформ є Amazon Web Services (AWS), Google Cloud Platform (GCP) та Microsoft Azure.

Сучасний стек даних та індустрія інженерії даних

Після того, як бізнес або компанія має свою архітектуру, що працює на хмарній платформі, і встановила ETL-конвеєри та сховище даних, вони можуть використовувати ці дані для аналітики та застосунків машинного навчання. Після цього інженери даних та інженери AI/ML зможуть створювати та впроваджувати моделі машинного навчання у виробництво, дозволяючи компанії розробляти та отримувати глибокі інсайти.

Проблеми та рішення: Поява сучасного стека даних

Індустрія інженерії даних швидко розвивається, і з цим пов'язані численні виклики. Однією з поширених проблем є складність міграції даних з локальних систем до хмарних сховищ, що може бути дуже складним і трудомістким. Це створює можливості для компаній виявляти прогалини на ринку та розробляти нові інструменти для задоволення цих потреб. Саме це призвело до розробки "Сучасного стека даних" (Modern Data Stack), який є набором сучасних інструментів та технологій для вирішення цих проблем.

Висновок

Інженерія даних – це дуже важлива галузь, яка відіграє життєво важливу роль у допомозі підприємствам, компаніям, стартапам та організаціям отримувати цінні інсайти з наявних у них даних. Оволодівши навичками збору, зберігання та аналізу даних, інженери даних можуть вирішувати реальні бізнес-завдання та значно прискорювати зростання бізнесу. Безперервне навчання та вдосконалення навичок є важливими для конкурентоспроможності в цій галузі, що швидко розвивається.

Що це означає для розробників

Для розробників ця інформація підкреслює зростаючий попит на інженерів даних та важливість оволодіння навичками збору, зберігання та аналізу даних. Розуміння OLTP, OLAP, ETL-процесів, пакетної та реального часу обробки, а також роботи з хмарними платформами та сучасним стеком даних є ключовим для створення ефективних рішень.

Ключові факти

Інженерія даних – це процес проєктування, створення, підтримки та експлуатації систем для зберігання, обробки та аналізу великих, складних наборів даних.
Попит на інженерів даних значно зріс, і організації потребують щонайменше 10 інженерів даних на кожних трьох фахівців з обробки даних.
Існують два основні типи баз даних: реляційні (для структурованих даних) та нереляційні (NoSQL, для неструктурованих/напівструктурованих даних).
ETL (Extract, Transform, Load) – це процес вилучення, перетворення та завантаження даних з одного або кількох джерел у цільове місце, наприклад, сховище даних.
Хмарні обчислення пропонують масштабованість, економічну ефективність та спрощують управління великими обсягами даних, з провідними провайдерами AWS, GCP та Azure.