Справка
Проверка по кейсам

Проверка по кейсам (Agent Evaluations)

Наборы кейсов для проверки работы агентов: задаёте ввод и ожидаемый вывод, запускаете прогон — система сравнивает фактические ответы с ожидаемыми.

Введение

Проверка по кейсам — это harness для тестирования работы чат-ботов на фиксированных примерах: вы задаёте ввод (сообщение) и ожидаемый структурированный вывод (JSON), запускаете прогон — система выполняет каждый тест-кейс через агента и сравнивает фактический ответ с ожидаемым.

Требование: агент должен иметь включённый структурированный вывод (JSON schema). Без этого кнопка «Проверка по кейсам» на карточке агента будет неактивна.

Ключевые понятия

Набор кейсов — коллекция тест-кейсов для одного агента.
Тест-кейс — пара «ввод» (input) + «ожидаемый вывод» (expected_output).
Запуск — один прогон всех тест-кейсов набора. В результате: пройдено/провалено, кредиты, время.
Результат — результат одного тест-кейса в рамках запуска (фактический вывод, статус, метрики).

Режимы сравнения

subset — проверяются только ключи из expected_output. Лишние ключи в фактическом ответе игнорируются. По умолчанию при импорте.
exact — точное совпадение всех ключей и значений.

Создание и наполнение наборов кейсов

Карточка агента → «Проверка по кейсам» → «Создать набор кейсов».
Импорт тест-кейсов: из Google Таблиц (OAuth, URL, выбор листа и колонок) или из файла (CSV/XLSX). Колонка message — ввод, остальные — поля expected_output.

Запуск оценки

Кнопка «Запустить» на странице набора создаёт новый запуск. Все тест-кейсы выполняются параллельно в фоне. Результаты обновляются в реальном времени. Время «с/тест» — среднее время выполнения одного тест-кейса (из отдельных выполнений), а не общее время, делённое на количество.

Повтор, скрытие и отмена

Повторить только проваленные — создаёт отдельный новый запуск только с проваленными тест-кейсами (экономия времени и кредитов после доработки агента).
Скрыть — убирает запуск из списка и статистики, но он остаётся виден по «Показать скрытые» и учитывается в использовании кредитов.
Отменить — останавливает выполняющийся запуск. Уже завершённые тест-кейсы сохраняются.
Повторить застрявшие — если запуск «завис» (тест-кейсы в процессе более 5 минут), повторная постановка незавершённых в очередь.