Оценка агентов (Agent Evaluations)

Наборы тестов для проверки работы агентов: задаёте ввод и ожидаемый вывод, запускаете прогон — система сравнивает фактические ответы с ожидаемыми.

Введение

Оценка агентов — это harness для тестирования работы чат-ботов на фиксированных примерах: вы задаёте ввод (сообщение) и ожидаемый структурированный вывод (JSON), запускаете прогон — система выполняет каждый тест-кейс через агента и сравнивает фактический ответ с ожидаемым.

Требование: агент должен иметь включённый структурированный вывод (JSON schema). Без этого кнопка «Наборы тестов» на карточке агента будет неактивна.

Ключевые понятия

  • Набор тестов — коллекция тест-кейсов для одного агента.
  • Тест-кейс — пара «ввод» (input) + «ожидаемый вывод» (expected_output).
  • Запуск — один прогон всех тест-кейсов набора. В результате: пройдено/провалено, кредиты, время.
  • Результат — результат одного тест-кейса в рамках запуска (фактический вывод, статус, метрики).

Режимы сравнения

  • subset — проверяются только ключи из expected_output. Лишние ключи в фактическом ответе игнорируются. По умолчанию при импорте.
  • exact — точное совпадение всех ключей и значений.

Создание и наполнение наборов

  1. Карточка агента → «Наборы тестов» → «Создать набор тестов».
  2. Импорт тест-кейсов: из Google Таблиц (OAuth, URL, выбор листа и колонок) или из файла (CSV/XLSX). Колонка message — ввод, остальные — поля expected_output.

Запуск оценки

Кнопка «Запустить» на странице набора создаёт новый запуск. Все тест-кейсы выполняются параллельно в фоне. Результаты обновляются в реальном времени. Время «с/тест» — среднее время выполнения одного тест-кейса (из отдельных выполнений), а не общее время, делённое на количество.

Повтор, скрытие и отмена

  • Повторить только проваленные — создаёт отдельный новый запуск только с проваленными тест-кейсами (экономия времени и кредитов после доработки агента).
  • Скрыть — убирает запуск из списка и статистики, но он остаётся виден по «Показать скрытые» и учитывается в использовании кредитов.
  • Отменить — останавливает выполняющийся запуск. Уже завершённые тест-кейсы сохраняются.
  • Повторить застрявшие — если запуск «завис» (тест-кейсы в процессе более 5 минут), повторная постановка незавершённых в очередь.
Мы используем cookies для улучшения работы сайта. Продолжая пользоваться сайтом, вы соглашаетесь с политикой использования cookies.