
Нещодавно стартап xAI Ілона Маска був викритий у прямому використанні вихідних даних флагманської моделі Claude від Anthropic для навчання своєї моделі Grok протягом останніх кількох місяців.
"Підпільне" отримання даних
За даними The Information, хоча Anthropic відкликала офіційний доступ xAI до API у січні 2026 року, інженери xAI згодом перейшли на "підпільний" метод. Вони продовжували видобувати дані через особисті облікові записи та сторонній проміжний сервіс Blackbox AI.
Раніше Ілон Маск визнав у суді, що xAI "частково" використовувала моделі OpenAI для навчання. Він назвав цю практику використання вихідних даних провідних моделей для синтетичної передачі даних "галузевим стандартом".
Внутрішні проблеми та залежність
Зовнішні залежності не змогли приховати внутрішні проблеми в xAI. Наразі команда попереднього навчання скоротилася до менш ніж п'яти осіб. Кілька співзасновників, включаючи чотирьох керівників Grok code, залишили компанію за останні місяці.
Нещодавно сталася серйозна помилка, коли співробітник випадково видалив ключові навчальні дані, що призвело до втрати двох-трьох тижнів роботи. Це змушує xAI наразі покладатися на тимчасову оренду обчислювальних ресурсів у SpaceX для таких компаній, як Google.
Контекст індустрії генеративного ШІ
Цей інцидент поставив xAI в центр суперечок і відображає загальну тривогу в індустрії генеративного ШІ на тлі скорочення високоякісних навчальних даних. Наразі, оскільки відповідні дані з відкритим вихідним кодом досягають своєї межі, використання "дистиляції знань" та "прикордонної екстракції синтетичних даних" для покращення продуктивності моделі стало "сірим ярликом" для новачків, щоб наздогнати провідних гравців.
Поточна технічна залежність xAI та відтік основного персоналу вказують на те, що модель простого нарощування обчислювальної потужності та покладання на зовнішні дані стикається з вузьким місцем. AI-єдинороги терміново потребують більш стабільної підтримки у фундаментальних інноваціях та організаційній стабільності.
Що це означає для розробників
Ця ситуація підкреслює ризики покладання на "сірі ярлики" для отримання даних, такі як "дистиляція знань" та "прикордонна екстракція синтетичних даних", що може призвести до нестабільності та суперечок. Розробникам варто враховувати, що фундаментальні інновації та організаційна стабільність є ключовими для довгострокового успіху, а не лише нарощування обчислювальної потужності чи використання зовнішніх даних.
Ключові факти
-
xAI була викрита у прямому використанні вихідних даних моделі Claude від Anthropic для навчання своєї моделі Grok.
-
Це відбувалося протягом останніх кількох місяців, навіть після того, як Anthropic відкликала офіційний доступ xAI до API у січні 2026 року.
-
Інженери xAI продовжували видобувати дані "підпільно" через особисті облікові записи та сторонній сервіс Blackbox AI.
-
Ілон Маск раніше визнав використання моделей OpenAI та назвав практику використання вихідних даних провідних моделей для синтетичної передачі даних "галузевим стандартом".
-
Команда попереднього навчання xAI скоротилася до менш ніж п'яти осіб, а кілька співзасновників, включаючи чотирьох керівників Grok code, залишили компанію.
Джерела
Попередні статті

Єврокомісія представила проєкти типових контрактів для Закону про дані та хмарних послуг
Європейська Комісія опублікувала проєкти типових договірних умов (MCTs) та стандартних договірних положень (SCCs), розроблених для спрощення впровадження Закону про дані, особливо для малих та середніх підприємств, а також для регулювання хмарних контрактів.

ЄС посилює фокус на екологічності хмарних технологій та центрів обробки даних
Європейська Комісія активно досліджує заходи для підвищення енергоефективності та циркулярної економіки в хмарних обчисленнях і центрах обробки даних, прагнучи до вуглецевої нейтральності до 2030 року та зміцнення цифрового суверенітету.

Snowflake Connect: Інженерія даних для готовності до ШІ
Snowflake Connect: Data Engineering зосереджується на вирішенні проблем, що перешкоджають успіху ШІ-проєктів. Захід пропонує рішення для створення надійної основи даних, що забезпечує готовність до ШІ, використовуючи інтеграції та нові інструменти.
Наступні статті

FAU запускає новий центр для омікс-технологій та інженерії даних
Університет Флориди Атлантик (FAU) відкрив Центр омікс-технологій та інженерії даних (CODE) – міждисциплінарний дослідницький хаб, що поєднує інженерію, комп'ютерні науки та медицину для вирішення складних завдань у біології та охороні здоров'я.

EDB представляє CloudNativePG 1.29 та рішення для захисту даних на KubeCon Europe
EnterpriseDB (EDB) оголосила про випуск спільнотою CloudNativePG 1.29, провідного оператора Postgres з відкритим вихідним кодом для Kubernetes, а також представила ексклюзивне корпоративне рішення для захисту даних. Ці інновації спрямовані на зменшення залежності від гіперскейлерів та підтримку суверенного ШІ.

Новий підхід до паралельного програмування: дані як активні учасники обчислень
Дослідження Франкена пропонує дата-орієнтовану парадигму для паралельного програмування, де дані активно виконують обчислення та взаємодіють локально, зменшуючи потребу в явній координації процесів.