
Роль інженерії даних у боротьбі з криптозлочинністю
TRM надає блокчейн-інтелект, який допомагає фінансовим установам, криптобізнесам та державним установам виявляти, розслідувати та реагувати на фінансові злочини, пов'язані з криптовалютами. Продукти компанії використовуються для відстеження потоків, пов'язаних із шахрайством, хакерськими атаками та фінансуванням тероризму. Команда інженерії даних TRM володіє та керує платформою даних, яка є самообслуговуваною системою. Вона дозволяє командам компанії приймати необроблені дані блокчейну та розвідувальні дані, перетворюючи їх на надійні, доступні для запитів набори даних у петабайтному масштабі на десятках блокчейнів. Це забезпечує актуальність, коректність та продуктивність, на які покладаються слідчі.
Досягнення 2025 року
У 2025 році платформа даних TRM досягла значних успіхів:
- Масштабне покриття блокчейнів: Платформа тепер підтримує понад 55 блокчейнів, що дозволяє TRM виконувати складні обчислення ризиків, включаючи відстеження потоків коштів через адреси, сутності та ланцюги, а також крос-ланцюгові обміни. Лише у 2025 році було додано понад 20 нових блокчейнів. Процес інтеграції нового ланцюга тепер є переважно самообслуговуваним і вимірюється днями, а не кварталами.
- Нові продукти для слідчих: На основі цієї інфраструктури було випущено понад 25 нових продуктів даних, таких як Universal Wallet Screening, Entity Screening, Portfolio Balance, Unlimited Custom Entities та Risk Indicator Trends. Ці продукти є новими можливостями та API, які клієнти використовують для блокування ризикованих транзакцій у реальному часі, моніторингу високоризикових сутностей та розуміння ризиків у всьому графіку криптоактивності.
- Фундаментальне сховище даних у екзабайтному масштабі: Фундаментальне сховище даних TRM зберігає петабайти блокчейн- та розвідувальних даних, обробляючи приблизно 1 екзабайт даних щорічно через конвеєри та аналітичні навантаження. Шар оркестрації з понад 750 Airflow DAG координує мільйони завдань щодня, щоб підтримувати актуальність, надійність та готовність наборів даних платформи для робочих процесів слідчих.
- Lakehouse-платформа петабайтного масштабу: Була запущена платформа наступного покоління: StarRocks + Iceberg lakehouse. Вона дозволяє виконувати швидкий та економічно ефективний аналіз петабайтних наборів даних блокчейну, що зберігаються у хмарному об'єктному сховищі. Шар обслуговування платформи тепер працює з понад 6 петабайтами даних блокчейн-інтелекту, а завантаження великих наборів даних все ще займає години замість днів.
- Високопродуктивна інфраструктура: Також була випущена високопродуктивна інфраструктура, здатна обробляти пропускну здатність запису масштабу Solana (~90K TPS).
- Агенти ШІ для операцій з платформою даних: Компанія почала впроваджувати агентів ШІ, які допомагають у моніторингу якості даних, сортуванні інцидентів та оптимізації платформи.
Принципи роботи команди
Команда інженерії даних TRM будує та експлуатує платформу, яка підтримує повний життєвий цикл даних. Це дозволяє командам TRM приймати необроблені дані та перетворювати їх на аналітику та API, на які покладаються слідчі. Основні принципи роботи включають:
- SLO замість "відчуттів": Вимірюється актуальність, коректність та повнота даних, а не лише час безвідмовної роботи. Пропуски в конвеєрах розглядаються як інциденти.
- Самообслуговування за замовчуванням: Інтеграція нового блокчейну або продукту даних все частіше відбувається за стандартизованим робочим процесом: визначення схем і тестів, підключення до загальних конвеєрів, а платформа бере на себе основну роботу.
- ШІ + автоматизація насамперед: Робочі процеси, керовані ШІ, вбудовуються в управління витратами, моніторинг якості даних та сортування інцидентів, щоб інженери більше часу приділяли архітектурі.
- Відкриті компроміси: Команда працює з чіткими цілями щодо економічної ефективності, управління інцидентами, спостережуваності, якості даних та швидкості розробки.
Місія та вплив
Робота TRM зосереджена на глибокій інфраструктурі на рівні платформи — розподілених системах, моделюванні даних, оптимізації запитів та розробці систем, орієнтованих на ШІ. Мета полягає в тому, щоб надати "хорошим гравцям" структурну перевагу. Якщо системи не встигають за масштабом і складністю блокчейн-активності, слідчі відстають.
Що це означає для розробників
Для розробників, зокрема інженерів з продуктів, науковців з даних, аналітиків та дослідників загроз, платформа TRM є самообслуговуваною системою, що дозволяє швидко інтегрувати нові блокчейни та розробляти продукти. Вона надає API для блокування транзакцій та моніторингу, а також використовує ШІ для автоматизації рутинних операцій, дозволяючи інженерам зосередитися на архітектурі та інноваціях.
Ключові факти
-
TRM надає блокчейн-інтелект для боротьби з криптофінансовими злочинами.
-
Платформа даних TRM підтримує понад 55 блокчейнів, додавши 20+ у 2025 році.
-
Інтеграція нового блокчейну займає дні, а не квартали.
-
Випущено понад 25 нових продуктів даних у 2025 році, включаючи Universal Wallet Screening та Risk Indicator Trends.
-
Фундаментальне сховище даних обробляє ~1 екзабайт даних щорічно.
Джерела
Попередні статті

Система ШІ ERA автоматизує написання наукового коду, перевершуючи людські розробки
Дослідники Google та Гарварду створили ERA — систему ШІ, що автоматично пише наукове програмне забезпечення. Вона перевершує людські розробки та прискорює наукові відкриття, автоматизуючи повний цикл розробки коду.

Knobel Hall: Новий центр комп'ютерних наук та аналізу даних у Denison майже готовий
Масштабна реновація Doane Hall, тепер Knobel Hall та King Center for Data and Innovation, наближається до завершення. Будівля готує Denison до інтеграції даних у навчальний план, відкриття очікується восени 2026 року.

Dataverse стає платформою даних для AI-агентів: Нові можливості для бізнесу, розробників та творців
Microsoft Dataverse еволюціонує в платформу даних для AI-агентів, надаючи їм не лише доступ до даних, а й глибоке розуміння бізнес-контексту. Це включає інтеграцію з Microsoft 365 Copilot, бізнес-навички для творців та плагін для агентів кодування.
Наступні статті

Інженерія даних у 2026 році: Еволюція під впливом агентів ШІ
У 2026 році інженерія даних переживає подвійну трансформацію: до більшої автоматизації завдяки агентам ШІ та посиленого контролю. Це вимагає переосмислення архітектур та процесів.

Оптимізація OpenAI Codex: Досвід та Порівняння з Claude Code
Автор ділиться досвідом використання OpenAI Codex для просунутих завдань кодування, порівнює його з Anthropic Claude Code та розкриває техніки для підвищення продуктивності.

Docker для Python та проєктів з даними: Практичний посібник
Дізнайтеся, як Docker вирішує проблеми залежностей у Python-проєктах та проєктах з даними. Цей матеріал охоплює контейнеризацію скриптів, розгортання ML-моделей за допомогою FastAPI, створення багатосервісних пайплайнів з Docker Compose та планування завдань за допомогою cron-контейнерів.