LLM та кодувальні агенти: Кошмар безпеки для розробників

Зростання поверхні атаки з LLM та кодувальними агентами

Використання великих мовних моделей (LLM) та кодувальних агентів радикально збільшує так звану «поверхню атаки» — простір для потенційних вразливостей у системах. Це створює нові виклики для кібербезпеки, яка традиційно є грою «кішки-мишки» між зловмисниками та захисниками.

Вроджені проблеми надійності LLM

LLM мають вроджені проблеми з надійністю. Якщо використовувати LLM для написання коду, це може призвести до «галюцинацій» — помилок або непередбачуваних результатів, подібних до тих, що спостерігаються в інших сферах їх застосування. Це лише початок проблеми.

Атаки ін'єкцією промптів

Однією з відомих проблем є атаки ін'єкцією промптів, коли зловмисник надає шкідливий ввід, щоб змусити систему виконати дії, не передбачені розробником. Наприклад, чат-бот автосалону був обманутий, щоб запропонувати автомобіль за 1 долар, погодившись на абсурдну умову. Хоча такі «когнітивні прогалини» можна частково усунути за допомогою захисних механізмів, з появою агентів ситуація ускладнюється.

Небезпека кодувальних агентів

Особливе занепокоєння викликають агенти, які починають використовувати розробники. Ці агенти часто отримують значні повноваження та доступ до широкого спектру інструментів, що відкриває величезні вразливості безпеки. Дослідження, представлені на конференції Black Hat, показали, як зловмисники можуть використовувати нові варіації ін'єкції промптів для компрометації таких систем.

Приховані шкідливі інструкції

Багато експлойтів, продемонстрованих дослідниками Nvidia, ґрунтуються на тому, що LLM-базовані кодувальні агенти мають доступ до публічних джерел, таких як GitHub. Зловмисники можуть використовувати це, залишаючи там шкідливі інструкції, щоб обманом змусити кодувальні агенти виконувати зловмисні дії в системі розробника.

Приклади прихованих інструкцій:

Невидимий текст: Шкідливі промпти можуть бути приховані білим текстом на білому тлі, непомітним для людини, але помітним для LLM.
Пробіли: У репозиторії GitHub можна приховати інструкції за допомогою пробілів на правому краю вікна, які користувач, ймовірно, не помітить. Коли агент завантажує репозиторій і виконує дії на основі коду, шкідлива інструкція виконується.
Файли ReadMe: Шкідливі промпти також можуть бути приховані у файлах ReadMe або інших місцях, де вони можуть бути непомітними для людини, але інтерпретовані LLM.

Slopsquatting та ASCII Smuggling

Ще один метод — «slopsquatting», коли зловмисники створюють шкідливі програмні пакети під назвами, які LLM «галюцинують» як існуючі, чекаючи, поки розробники їх впровадять.

Дослідники також продемонстрували техніку ASCII Smuggling, яка дозволяє приховувати шкідливий код у «файлах правил» (системних промптах для кодувальних інструментів), роблячи його невидимим для користувача, але доступним для інтерпретації LLM. Це дозволяє виконувати зловмисні команди в системі, що використовує такий інструмент, як Cursor.

Режим «Auto-Run» та RCE

Ризик особливо зростає, коли інструменти, такі як Cursor, використовуються в режимі «Auto-Run» (раніше «YOLO Mode»), де агент може виконувати команди та записувати файли без запиту підтвердження. Навіть якщо цей режим вимкнено, розробник, поспішаючи, може випадково схвалити шкідливу зміну коду.

Кінцевою метою цих атак є «віддалене виконання коду» (RCE), що дозволяє зловмиснику повністю контролювати систему: завантажувати дані, видаляти файли, переписувати їх, моніторити активність тощо. Якщо зловмисник отримує дані у генеративну AI-систему, її вихідним даним не можна довіряти.

Експлуатація інструментів розробки

Дослідник кібербезпеки Натан Хаміель та Нільс Амієт продемонстрували ще одну варіацію атак, експлуатуючи інструменти розробки, а не самі кодувальні агенти. У своїй демонстрації вони використали популярний інструмент CodeRabbit, який є найпопулярнішим AI-додатком на GitHub та GitLab. Вони скористалися здатністю CodeRabbit викликати інструменти та його підвищеними дозволами в середовищах GitHub клієнтів.

Шляхом розміщення файлу конфігурації в репозиторії коду, який викликав один з інструментів, вони змогли вставити власний код, що дозволило їм виконувати код у системі CodeRabbit. Це надало їм доступ до секретів програми, включаючи приватний ключ GitHub CodeRabbit та унікальний ідентифікатор встановлення для репозиторіїв. В результаті вони отримали доступ до понад мільйона репозиторіїв GitHub, не лише для читання, а й для зміни коду. Це могло б призвести до атак на ланцюг поставок програмного забезпечення, встановлення бекдорів або поширення шкідливого програмного забезпечення.

Заходи пом'якшення ризиків

Натан Хаміель запропонував техніку пом'якшення ризиків під назвою RRT (Refrain, Restrict, Trap):

Refrain (Утримуватися): Утримуватися від використання LLM у високоризикових або критично важливих для безпеки сценаріях.
Restrict (Обмежувати): Обмежувати виконання, дозволи та рівні доступу, наприклад, які файли може читати та виконувати дана система.
Trap (Перехоплювати): Перехоплювати вхідні та вихідні дані системи, шукаючи потенційні атаки або витік конфіденційних даних.

Також рекомендується зменшувати ступінь автономії, яку надають агентам (наприклад, не дозволяти їм встановлювати код без ретельної перевірки людиною), додавати додаткові захисні механізми та мінімізувати доступ агентів до файлів.

Поради для розробників

Дослідники наголошують, що до кодувальних агентів на основі LLM слід ставитися як до «лінивих, сп'янілих роботів», а не як до високоінтелектуальних систем. Хоча повна відмова від використання агентних інструментів кодування є найкращим захистом, це може бути нереалістично через їхню привабливість. Проте, усвідомлення ризиків та впровадження обережних практик є критично важливим.

Що це означає для розробників

Розробникам слід усвідомити, що використання LLM-агентів значно збільшує ризики безпеки, включаючи можливість віддаленого виконання коду. Важливо обмежувати автономію агентів, ретельно перевіряти код та впроваджувати механізми контролю для захисту своїх систем та даних.

Ключові факти

LLM та кодувальні агенти радикально збільшують поверхню атаки.
LLM мають вроджені проблеми з надійністю, що призводить до «галюцинацій» у коді.
Атаки ін'єкцією промптів можуть змусити LLM виконувати небажані дії.
Кодувальні агенти, що мають значні повноваження, створюють величезні вразливості.
Зловмисники можуть приховувати шкідливі інструкції у публічних джерелах (наприклад, GitHub) або за допомогою технік, як ASCII Smuggling.