Шлях від аналітика даних до інженера даних: 12-місячний план

Перехід від аналітики до інженерії даних

Автор, який працює IT-системним аналітиком у стартапі, розпочинає 12-місячний шлях самостійного навчання, щоб стати інженером даних. Це рішення зумовлене кількома факторами, зокрема високою оплатою праці в інженерії даних та зростаючою цікавістю до того, як дані потрапляють на робочий стіл аналітика. З розвитком штучного інтелекту, який робить аналітичну роботу швидшою та легшою, виникло питання про те, що може запропонувати фахівець, який здатен будувати та розуміти глибинніші системи.

Маючи досвід в аналізі даних, включаючи SQL, Power BI, Python (Pandas, NumPy, Polars), очищення даних та дослідницький аналіз, автор прагне до більших викликів. Фінальним поштовхом стало відео від Data With Baraa, яке представило структуровану дорожню карту з інженерії даних.

Чому саме інженерія даних?

Інженерія даних розташована «вище за течією» від аналітики. Вона зосереджена на створенні систем, які уможливлюють аналіз, включаючи конвеєри даних, архітектуру зберігання, оркестрацію робочих процесів та обробку великих обсягів даних. Ці основи є фундаментом, на якому будується все інше. Автор виявив, що інфраструктурна робота приваблює його більше, ніж чистий аналіз.

Існує також практичний аргумент: ролі інженерів даних стабільно входять до числа найбільш високооплачуваних у галузі даних. Оскільки інструменти ШІ вдосконалюються в автоматизації аналітичного рівня, попит на фахівців, які можуть створювати та підтримувати надійну інфраструктуру даних, лише зростатиме.

Публічний шлях та виклики

Автор вирішив навчатися публічно, документуючи свій прогрес. Це допомагає краще зрозуміти матеріал, підтримує відповідальність та створює портфоліо, яке виходить за рамки резюме. Однак є й виклики: схильність до «синдрому блискучого об'єкта» (постійний пошук нових захоплень), необхідність підтримувати послідовність без підтримки на роботі (оскільки стартап не використовує ці інструменти) та баланс між роботою та навчанням, цілячись на 3-4 години щоденного навчання.

План навчання

Автор не починає з нуля, маючи базові знання SQL та Python. План навчання включає такі етапи:

SQL: Глибше, ніж аналітика. Поглиблене вивчення оптимізації запитів, індексування, роботи з дуже великими наборами даних та написання SQL для продуктивності. Це важливо, оскільки все в інженерії даних зрештою торкається SQL.
Python: Від дослідницького до готового до виробництва. Перехід від Python для ноутбуків до написання чистого, структурованого, багаторазового коду, включаючи функції, модулі, обробку помилок та скрипти. Python є «клеєм» для більшості сучасних стеків інженерії даних.
Git та GitHub: Правильний контроль версій. Вивчення розгалужень, запитів на злиття (pull requests) та належного управління кодом. Контроль версій є фундаментальним для роботи інженера.
Apache Spark та PySpark: Обробка великих даних. Вивчення Apache Spark, одного з найпоширеніших рушіїв для обробки великих обсягів даних, та PySpark (API для Python). Це вимагає зміни мислення від обробки на одній машині до розподіленої обробки. Spark є майже неминучим для роботи з великими даними у виробничому середовищі.
Apache Airflow: Оркестрація конвеєрів даних. Використання Airflow для планування, моніторингу та обробки збоїв у конвеєрах даних. Airflow є безкоштовним, відкритим, хмарно-незалежним та широко використовуваним інструментом, який навчає основним концепціям оркестрації.
Databricks: Платформа даних. Поглиблене вивчення Databricks, яка побудована на Spark, має високий попит і пропонує безкоштовну Community Edition. Роботодавці цінують досвід роботи з конкретними платформами.

Структура та цілі

Хоча план розрахований на 12 місяців, автор готовий витратити більше часу, щоб ґрунтовно зрозуміти матеріал. Загальний підхід полягає в послідовному вивченні кожного навику та створенні чогось практичного з отриманих знань. Прогрес відстежуватиметься за допомогою дорожньої карти Notion від Data With Baraa. Мета — присвячувати навчанню 3-4 години на день, що включатиме структуроване навчання, створення проєктів та написання про отримані знання.

Кінцева мета — отримати високооплачувану роль інженера даних, стати авторитетним голосом у цій галузі, документувати шлях без приховування труднощів та, можливо, зробити шлях зрозумілішим для інших. Ця стаття є офіційним початком подорожі, яка буде регулярно документуватися в серії статей та на YouTube-каналі автора.

Що це означає для розробників

Ця новина показує, що розробникам та аналітикам даних варто розглянути перехід до інженерії даних, оскільки ШІ автоматизує аналітичні завдання, а попит на фахівців з інфраструктури зростає. Вона також надає конкретний план навчання з ключовими технологіями, такими як SQL, Python, Git, Spark, Airflow та Databricks, що є цінним орієнтиром для тих, хто прагне розвивати свої навички у цій галузі.

Ключові факти

IT-системний аналітик розпочинає 12-місячний шлях самостійного навчання для переходу в інженерію даних.
Мотивація включає високу оплату праці, цікавість до інфраструктури даних та вплив ШІ на аналітику.
Інженерія даних зосереджена на створенні систем для аналізу, таких як конвеєри, сховища та оркестрація.
План навчання включає поглиблене вивчення SQL, Python для виробництва, Git/GitHub, Apache Spark/PySpark, Apache Airflow та Databricks.
Навчання відбувається публічно для відповідальності та створення портфоліо, незважаючи на виклики.