GLM-5.2 Z.ai: відкриті ваги, топ кодування, ризики API

Вступ

Компанія Z.ai, раніше відома як Zhipu AI, що базується в Пекіні, сьогодні публічно випустила повні ваги своєї моделі GLM-5.2 за ліцензією MIT на платформах Hugging Face та ModelScope. Цей процес завершує етап, що розпочався 13 червня з запуску підписки на кодинговий план компанії. Разом з вагами компанія представила свою першу офіційну таблицю бенчмарків, яка показує, що 753-мільярднопараметрична модель типу Mixture-of-Experts посідає друге місце у світі на Code Arena і відстає від Claude Opus 4.8 лише на один відсотковий пункт у трьох незалежних оцінках кодування з довгим горизонтом.

Продуктивність та бенчмарки

GLM-5.2 позиціонується як найсильніша доступна модель кодування з відкритим вихідним кодом. На бенчмарку Terminal-Bench 2.1, орієнтованому на автономне термінальне кодування, GLM-5.2 набрала 81.0 бала, наблизившись до 85.0 балів Claude Opus 4.8. На SWE-bench Pro, який перевіряє здатність моделей вирішувати реальні проблеми програмної інженерії, GLM-5.2 отримала 62.1 бала, випередивши GPT-5.5 (58.6) та свого попередника GLM-5.1 (58.4). На трьох бенчмарках агентного кодування з довгим горизонтом (FrontierSWE, PostTrainBench та SWE-Marathon) GLM-5.2 відстає від Claude Opus 4.8 приблизно на один-тринадцять відсоткових пунктів залежно від завдання, але стабільно перевершує GPT-5.5 і залишається найвищою серед моделей з відкритим вихідним кодом.

Незалежне підтвердження надійшло від Code Arena Arena.ai, лідерборду в стилі Elo, побудованого на сліпих попарних голосуваннях людей. Він розмістив GLM-5.2 на другому місці в загальному заліку з результатом 1595 балів, що є першим серед усіх моделей, доступних для використання, оскільки Claude Fable 5 було вилучено з вибірки Arena після заборони на експорт. Z.ai також посіла перше місце на Design Arena, яка оцінює естетичну якість у вихідних даних веб-дизайну.

Архітектурні інновації

Модель GLM-5.2 є моделлю типу Mixture-of-Experts, що пояснює, як вона досягає 753 мільярдів параметрів, залишаючись практично розгортаною: лише приблизно 40 мільярдів цих параметрів активуються для будь-якого заданого входу. Навчена мережа шлюзів направляє кожен вхідний токен до двох найбільш релевантних спеціалізованих підмереж ("експертів") із сотень.

Z.ai вирішила проблему пам'яті для кешу ключів-значень стандартного трансформера за допомогою набору спільно розроблених методів архітектури моделі та інфраструктури висновку. На рівні моделі IndexShare повторно використовує той самий розрахунок індексу уваги для кожних чотирьох розріджених шарів уваги, зменшуючи операції з плаваючою комою на токен у 2.9 рази при повній довжині контексту в один мільйон токенів. Покращення шару прогнозування кількох токенів дозволяє виконувати розрахунок індексу один раз на першому кроці декодування, при цьому всі наступні кроки повторно використовують результат.

На рівні інфраструктури техніка LayerSplit розподіляє кеш ключів-значень між GPU, так що кожна карта зберігає лише підмножину шарів трансформера, а не повний кеш. Система HiSparse доповнює LayerSplit, активно вивантажуючи записи кешу для неактивних областей контексту в пам'ять хоста, зберігаючи при цьому нещодавно доступні області в високошвидкісній пам'яті GPU. Загальний результат пропускної здатності, згідно з технічною документацією Z.ai, становить покращення від трьох до 192 відсотків порівняно з GLM-5.1 у діапазоні довжин контексту від 32 000 до одного мільйона токенів, причому найбільші прирости спостерігаються при найдовших контекстах.

Z.ai також підтвердила, що інфраструктура висновку моделі працює на вітчизняних китайських платформах прискорювачів, включаючи чипи Huawei Ascend, а також чипи від Cambricon, Moore Threads та кількох інших китайських виробників.

Ризики даних та "відкритий код"

Ліцензія MIT на GLM-5.2 надає розробникам право завантажувати, модифікувати, доналаштовувати та комерційно розгортати ваги моделі без обмежень та без повідомлення Z.ai. Це означає, що ваги, встановлені на власних серверах, не можуть бути відключені директивою уряду США чи Китаю, що безпосередньо вирішує ризик відкликання доступу, продемонстрований забороною на експорт Fable 5 минулого тижня.

Однак це не стосується іншого, структурно відмінного ризику. Z.ai є пекінською компанією, зареєстрованою та діючою відповідно до китайського законодавства. Національний закон Китаю про розвідку, прийнятий у 2017 році, у статті 7 вимагає від усіх китайських організацій та громадян "підтримувати, допомагати та співпрацювати з державною розвідувальною роботою відповідно до закону". Закон про безпеку даних 2021 року вимагає від китайських компаній співпрацювати з урядовими запитами на дані. Закон про кібербезпеку 2017 року включає вимоги щодо локалізації даних та зобов'язує технічну співпрацю з органами громадської безпеки та розвідки. Міністерство внутрішньої безпеки США (DHS) попередило, що ця правова база може змусити китайські компанії надавати дані від осіб або підприємств США та зберігати факт такої співпраці в таємниці.

Ці юридичні зобов'язання застосовуються щоразу, коли дані проходять через хмарну інфраструктуру Z.ai, включаючи API GLM-5.2 та підписку на GLM Coding Plan. Розробник, який використовує кінцеву точку API Z.ai для роботи з кодуванням, надсилає свій код та підказки через сервери, які контролює Z.ai, і ці дані підпадають під дію китайського законодавства незалежно від місця розташування розробника, заявленої політики конфіденційності Z.ai та ліцензії MIT на самі ваги моделі.

Самостійне розміщення та вимоги

Шлях до уникнення цього ризику — самостійне розміщення (self-hosting). Завантажені ваги, запущені на інфраструктурі, якою ви володієте або яку контролюєте, не надсилають дані до Z.ai. Але самостійне розміщення GLM-5.2 з повною точністю вимагає приблизно 1488 гігабайт (близько 1.5 терабайта) пам'яті GPU. Рекомендована конфігурація розгортання — вісім паралельно працюючих GPU NVIDIA H200. Більшість команд розробників та значна частина середніх підприємств не мають такої інфраструктури. Для тих, хто має, сьогоднішній випуск ваг вперше робить можливим розгортання моделі кодування передового класу з справжнім суверенітетом даних. Для тих, хто не має, практичним вибором є API Z.ai, з повним урахуванням вищезгаданого юридичного контексту.

Геополітичний контекст та зв'язки Z.ai

Z.ai чітко заявила, що випуск GLM-5.2 з відкритим вихідним кодом є свідомою відповіддю на те, що вона описує як геополітичне обмеження доступу до ШІ. Час випуску підкреслює це повідомлення: компанія анонсувала GLM-5.2 13 червня, на наступний день після того, як Міністерство торгівлі США наказало Anthropic відключити Fable 5 та Mythos 5 для всіх іноземних громадян.

Zhipu AI була додана до "Entity List" Бюро промисловості та безпеки США у січні 2025 року, посилаючись на роль компанії у "просуванні військової модернізації Китайської Народної Республіки через розробку та інтеграцію передових досліджень штучного інтелекту". Аналіз OpenAI у червні 2025 року зазначив, що керівництво Zhipu регулярно взаємодіє з офіційними особами Комуністичної партії Китаю, включаючи прем'єр-міністра Лі Цяна, та оцінив державні інвестиції в компанію у понад 1.4 мільярда доларів. У травні 2025 року Національний центр звітів про кібербезпеку Китаю, пов'язаний з громадською безпекою, виявив, що споживчий додаток Zhipu збирає дані користувачів понад дозволене. У травні 2026 року законодавці Палати представників США розпочали офіційне розслідування ризиків кібербезпеки, що створюються моделями ШІ китайського походження в критичній інфраструктурі, назвавши Zhipu AI серед компаній, що перебувають під пильним контролем.

Що це означає для розробників

Для розробників, особливо за межами США, які втратили доступ до моделей Anthropic, GLM-5.2 є найпотужнішою доступною моделлю кодування з відкритою ліцензією. Однак використання API Z.ai вимагає врахування ризиків, пов'язаних із китайським законодавством про дані, що робить самостійне розміщення ваг бажаним, але інфраструктурно складним варіантом.

Ключові факти

Z.ai (раніше Zhipu AI) випустила повні ваги моделі GLM-5.2 за ліцензією MIT.
GLM-5.2 — це 753-мільярднопараметрична модель типу Mixture-of-Experts.
Модель посідає друге місце на Code Arena та є найсильнішою відкритою моделлю кодування.
Використання API Z.ai несе ризики для даних через китайське законодавство (Національний закон про розвідку, Закон про безпеку даних, Закон про кібербезпеку).
Самостійне розміщення ваг вимагає близько 1.5 ТБ пам'яті GPU (наприклад, 8x NVIDIA H200).