Штучний інтелект

TestSprite випустила інструмент для перевірки коду ШІ-агентами та дані про їхні регресії

S

Spencer Hulse

3 хв читання

Абстрактне зображення ШІ-агента, що перевіряє та виправляє помилки в коді на екрані, символізуючи автоматизовану верифікацію.

Штучний інтелект може створювати функціональні додатки за одну ніч, але також може непомітно ламати те, що вже було створено. Донедавна ніхто не вимірював, як часто це відбувається. Компанія TestSprite, що базується в Сіетлі, вирішила цю проблему, випустивши інструмент з відкритим кодом та опублікувавши дані.

TestSprite CLI: Автономна перевірка коду для ШІ-агентів

TestSprite представила TestSprite CLI — безкоштовний інструмент з відкритим кодом, який дозволяє ШІ-агенту перевіряти власну роботу, перш ніж вважати завдання виконаним. Цей інструмент розроблений для агентів, які працюють без нагляду, часто протягом годин або ночі, і функціонують у терміналі.

CLI працює як команда, яку агент запускає самостійно, без участі людини. Агент описує поведінку, а TestSprite запускає її на живому додатку, імітуючи дії реального користувача. У разі збою інструмент повертає пакет даних, що містить крок, який не спрацював, скріншоти, ймовірну першопричину та запропоноване виправлення. Агент читає ці дані, виправляє код і запускає перевірку знову. Кожен успішний тест зберігається, що дозволяє розширювати покриття та виявляти регресії, які агенти рідко шукають самостійно.

TestSprite CLI доступний для встановлення за допомогою однієї команди (npm install -g @testsprite/cli) для Node.js 20 або вище. Він підтримує такі ШІ-агенти, як Claude Code від Anthropic, OpenAI Codex та Google Antigravity. Інструмент випущено під ліцензією Apache 2.0, щоб спільнота розробників могла його розширювати та інтегрувати верифікацію в будь-який робочий процес агента.

CoderCup: Дані про регресії та саморозвиток ШІ-агентів

Разом із запуском CLI, TestSprite провела публічний конкурс CoderCup, де передові ШІ-агенти, включаючи Claude Code, OpenAI Codex та Google Antigravity, створювали один і той же десятифазний додаток за ідентичними правилами, а TestSprite виступала в ролі арбітра. Дані, отримані в ході конкурсу, виявили раніше не відстежувані показники, такі як успішність з першої спроби, виправлення після виявлення помилок, невиправлені помилки та регресії.

Два ключові висновки CoderCup:

  1. Саморозвиток агентів: Один агент розпочав фазу з нульовою кількістю працюючих цільових функцій і завершив її після 10 раундів читання зворотного зв'язку від TestSprite та виправлення помилок, досягнувши приблизно 80% успішних функцій на тій самій базовій моделі.
  2. Повсюдні регресії: Навіть найсильніший агент, виміряний TestSprite, ламав близько 12% раніше працюючих функцій за один запуск, тоді як у слабших агентів цей показник наближався до 25%. Це є основною причиною, чому розробникам доводиться контролювати нібито автономних агентів.

Дані також вказують на те, що менші та дешевші моделі можуть досягти тієї ж функціональної повноти, що й передові, після десятка або більше раундів верифікації, при цьому витрачаючи менше часу та коштів. TestSprite стверджує, що основне навантаження припадає на верифікатор, а не на сиру потужність моделі.

TestSprite також опублікувала повну специфікацію завдань CoderCup, критерії оцінки, результати по фазах та репозиторій на codercup.ai, дозволяючи будь-кому клонувати проєкт та повторно запускати фази для перевірки роботи.

Що це означає для розробників

Розробники тепер можуть інтегрувати TestSprite CLI у свої робочі процеси, дозволяючи ШІ-агентам автономно перевіряти код і виправляти помилки. Це може зменшити потребу в постійному нагляді за агентами та прискорити розробку, особливо з огляду на те, що верифікація виявилася важливішою за сиру потужність моделі.

Ключові факти

  • TestSprite open-sourced TestSprite CLI, безкоштовний інструмент для самоперевірки коду ШІ-агентами.

  • CLI дозволяє агентам перевіряти свою роботу, виявляти помилки, отримувати скріншоти та пропозиції щодо виправлень без участі людини.

  • TestSprite опублікувала дані з конкурсу CoderCup, що демонструють, як ШІ-агенти ламають до 25% раніше працюючого коду.

  • Дані CoderCup показали, що агенти можуть самостійно еволюціонувати, виправляючи помилки на основі зворотного зв'язку.

  • Конкурс виявив, що верифікація є ключовим фактором, дозволяючи меншим і дешевшим моделям досягати тієї ж функціональності, що й передові.

Джерела

Штучний інтелектРозробка ПЗПрограмування

Джерело

Grit Daily NewsSpencer Hulse

AI Coding Agents Keep Breaking Their Own Code. TestSprite Open-Sourced the Fix and Published the Data to

23 червня 2026 · оновлено 23 червня 2026

Оригінал

Попередні статті

Абстрактна ілюстрація, що показує взаємопов'язані контейнери та поди Kubernetes, які символізують оркестрацію та масштабованість у Data Science.
24 червня 2026Штучний інтелект

Kubernetes у Data Science: Незамінний Інструмент для Розробників та Дослідників

Kubernetes, платформа для оркестрації контейнерів, стає ключовим інструментом у Data Science. Вона оптимізує робочі процеси, автоматизує розгортання та масштабування, допомагаючи вченим з даними та ML-інженерам зосередитися на створенні моделей та експериментах.

Ілюстрація, що зображує хаос у серверній кімнаті з пошкодженим сервером та абстрактним символом ШІ, що символізує збій системи.
23 червня 2026Штучний інтелект

AI-інструмент для кодування видалив базу даних компанії під час «катастрофічного збою»

Експеримент інженера-програміста з інструментом «vibe coding» на базі ШІ призвів до видалення робочої бази даних компанії, що викликало занепокоєння щодо надійності автономних ШІ-агентів у виробничих середовищах.

Ілюстрація, що показує інтерактивне середовище Jupyter Notebook з кодом Python для машинного навчання та візуалізацією даних, що відображається поруч.
23 червня 2026Штучний інтелект

Jupyter Notebook у контексті ШІ: Інтерактивний інструмент для розробки та аналізу

Jupyter Notebook є веб-інтерфейсом для інтерактивного програмування та аналізу даних, що відіграє ключову роль у розробці ШІ, дослідженні та освіті завдяки своїй гнучкості та можливостям візуалізації.