TestSprite: Перевірка коду ШІ-агентами та дані про регресії

Штучний інтелект може створювати функціональні додатки за одну ніч, але також може непомітно ламати те, що вже було створено. Донедавна ніхто не вимірював, як часто це відбувається. Компанія TestSprite, що базується в Сіетлі, вирішила цю проблему, випустивши інструмент з відкритим кодом та опублікувавши дані.

TestSprite CLI: Автономна перевірка коду для ШІ-агентів

TestSprite представила TestSprite CLI — безкоштовний інструмент з відкритим кодом, який дозволяє ШІ-агенту перевіряти власну роботу, перш ніж вважати завдання виконаним. Цей інструмент розроблений для агентів, які працюють без нагляду, часто протягом годин або ночі, і функціонують у терміналі.

CLI працює як команда, яку агент запускає самостійно, без участі людини. Агент описує поведінку, а TestSprite запускає її на живому додатку, імітуючи дії реального користувача. У разі збою інструмент повертає пакет даних, що містить крок, який не спрацював, скріншоти, ймовірну першопричину та запропоноване виправлення. Агент читає ці дані, виправляє код і запускає перевірку знову. Кожен успішний тест зберігається, що дозволяє розширювати покриття та виявляти регресії, які агенти рідко шукають самостійно.

TestSprite CLI доступний для встановлення за допомогою однієї команди (npm install -g @testsprite/cli) для Node.js 20 або вище. Він підтримує такі ШІ-агенти, як Claude Code від Anthropic, OpenAI Codex та Google Antigravity. Інструмент випущено під ліцензією Apache 2.0, щоб спільнота розробників могла його розширювати та інтегрувати верифікацію в будь-який робочий процес агента.

CoderCup: Дані про регресії та саморозвиток ШІ-агентів

Разом із запуском CLI, TestSprite провела публічний конкурс CoderCup, де передові ШІ-агенти, включаючи Claude Code, OpenAI Codex та Google Antigravity, створювали один і той же десятифазний додаток за ідентичними правилами, а TestSprite виступала в ролі арбітра. Дані, отримані в ході конкурсу, виявили раніше не відстежувані показники, такі як успішність з першої спроби, виправлення після виявлення помилок, невиправлені помилки та регресії.

Два ключові висновки CoderCup:

Саморозвиток агентів: Один агент розпочав фазу з нульовою кількістю працюючих цільових функцій і завершив її після 10 раундів читання зворотного зв'язку від TestSprite та виправлення помилок, досягнувши приблизно 80% успішних функцій на тій самій базовій моделі.
Повсюдні регресії: Навіть найсильніший агент, виміряний TestSprite, ламав близько 12% раніше працюючих функцій за один запуск, тоді як у слабших агентів цей показник наближався до 25%. Це є основною причиною, чому розробникам доводиться контролювати нібито автономних агентів.

Дані також вказують на те, що менші та дешевші моделі можуть досягти тієї ж функціональної повноти, що й передові, після десятка або більше раундів верифікації, при цьому витрачаючи менше часу та коштів. TestSprite стверджує, що основне навантаження припадає на верифікатор, а не на сиру потужність моделі.

TestSprite також опублікувала повну специфікацію завдань CoderCup, критерії оцінки, результати по фазах та репозиторій на codercup.ai, дозволяючи будь-кому клонувати проєкт та повторно запускати фази для перевірки роботи.

Що це означає для розробників

Розробники тепер можуть інтегрувати TestSprite CLI у свої робочі процеси, дозволяючи ШІ-агентам автономно перевіряти код і виправляти помилки. Це може зменшити потребу в постійному нагляді за агентами та прискорити розробку, особливо з огляду на те, що верифікація виявилася важливішою за сиру потужність моделі.

Ключові факти

TestSprite open-sourced TestSprite CLI, безкоштовний інструмент для самоперевірки коду ШІ-агентами.
CLI дозволяє агентам перевіряти свою роботу, виявляти помилки, отримувати скріншоти та пропозиції щодо виправлень без участі людини.
TestSprite опублікувала дані з конкурсу CoderCup, що демонструють, як ШІ-агенти ламають до 25% раніше працюючого коду.
Дані CoderCup показали, що агенти можуть самостійно еволюціонувати, виправляючи помилки на основі зворотного зв'язку.
Конкурс виявив, що верифікація є ключовим фактором, дозволяючи меншим і дешевшим моделям досягати тієї ж функціональності, що й передові.

Джерела

AI Coding Agents Keep Breaking Their Own Code. TestSprite Open-Sourced the Fix and Published the Data to

TestSprite випустила інструмент для перевірки коду ШІ-агентами та дані про їхні регресії

TestSprite CLI: Автономна перевірка коду для ШІ-агентів

CoderCup: Дані про регресії та саморозвиток ШІ-агентів

Що це означає для розробників

Ключові факти

Джерела

Попередні статті

Kubernetes у Data Science: Незамінний Інструмент для Розробників та Дослідників

AI-інструмент для кодування видалив базу даних компанії під час «катастрофічного збою»

Jupyter Notebook у контексті ШІ: Інтерактивний інструмент для розробки та аналізу