Оценка агентов (Agent Evaluations)
Наборы тестов для проверки работы агентов: задаёте ввод и ожидаемый вывод, запускаете прогон — система сравнивает фактические ответы с ожидаемыми.
Введение
Оценка агентов — это harness для тестирования работы чат-ботов на фиксированных примерах: вы задаёте ввод (сообщение) и ожидаемый структурированный вывод (JSON), запускаете прогон — система выполняет каждый тест-кейс через агента и сравнивает фактический ответ с ожидаемым.
Требование: агент должен иметь включённый структурированный вывод (JSON schema). Без этого кнопка «Наборы тестов» на карточке агента будет неактивна.
Ключевые понятия
- Набор тестов — коллекция тест-кейсов для одного агента.
- Тест-кейс — пара «ввод» (
input) + «ожидаемый вывод» (expected_output). - Запуск — один прогон всех тест-кейсов набора. В результате: пройдено/провалено, кредиты, время.
- Результат — результат одного тест-кейса в рамках запуска (фактический вывод, статус, метрики).
Режимы сравнения
- subset — проверяются только ключи из
expected_output. Лишние ключи в фактическом ответе игнорируются. По умолчанию при импорте. - exact — точное совпадение всех ключей и значений.
Создание и наполнение наборов
- Карточка агента → «Наборы тестов» → «Создать набор тестов».
- Импорт тест-кейсов: из Google Таблиц (OAuth, URL, выбор листа и колонок) или из файла (CSV/XLSX). Колонка
message— ввод, остальные — поляexpected_output.
Запуск оценки
Кнопка «Запустить» на странице набора создаёт новый запуск. Все тест-кейсы выполняются параллельно в фоне. Результаты обновляются в реальном времени. Время «с/тест» — среднее время выполнения одного тест-кейса (из отдельных выполнений), а не общее время, делённое на количество.
Повтор, скрытие и отмена
- Повторить только проваленные — создаёт отдельный новый запуск только с проваленными тест-кейсами (экономия времени и кредитов после доработки агента).
- Скрыть — убирает запуск из списка и статистики, но он остаётся виден по «Показать скрытые» и учитывается в использовании кредитов.
- Отменить — останавливает выполняющийся запуск. Уже завершённые тест-кейсы сохраняются.
- Повторить застрявшие — если запуск «завис» (тест-кейсы в процессе более 5 минут), повторная постановка незавершённых в очередь.