Расширенные настройки
Тонкая настройка параметров поиска и генерации ответов бота
Введение
Расширенные настройки позволяют точно настроить параметры поиска в датасетах и генерации ответов бота. Эти параметры влияют на качество и релевантность ответов, особенно при работе с большими базами знаний.
Настройки находятся в разделе "Расширенные настройки" при создании или редактировании бота.
Если параметры не указаны, используются значения по умолчанию, которые подходят для большинства случаев.
Температура
Температура управляет креативностью и случайностью ответов модели. Диапазон: от 0 до 2.
- Низкие значения (0-0.3) — более точные и детерминированные ответы, меньше креативности
- Средние значения (0.4-0.7) — баланс между точностью и креативностью
- Высокие значения (0.8-2.0) — более креативные ответы, но выше риск фантазий и неточностей
Рекомендации:
- Для точных ответов на основе документов: 0.1-0.3
- Для консультаций и объяснений: 0.4-0.7
- Для творческих задач: 0.8-1.2
Для ботов с базой знаний рекомендуется использовать низкие значения (0.1-0.3), чтобы ответы были точными и основанными на документах.
Top K (вектор)
Top K определяет, сколько фрагментов документов (чанков) взять из семантического (векторного) поиска. Семантический поиск находит документы по смыслу, а не только по ключевым словам.
Рекомендуемые значения: 5-40
- Низкие значения (5-10) — только самые релевантные фрагменты, быстрее обработка
- Средние значения (15-25) — хороший баланс между релевантностью и полнотой
- Высокие значения (30-40) — больше фрагментов для анализа, но может быть избыточно
Если у вас большая база знаний и нужно найти информацию по разным аспектам вопроса, используйте более высокие значения. Для узкоспециализированных баз знаний достаточно меньших значений.
Top N BM25
Top N BM25 определяет, сколько фрагментов документов взять из ключевого поиска (BM25). BM25 находит документы по ключевым словам и терминам.
Рекомендуемые значения: 10-100
- Низкие значения (10-20) — только документы с точными совпадениями ключевых слов
- Средние значения (30-50) — хороший баланс между точностью и полнотой
- Высокие значения (60-100) — больше документов для анализа, полезно для широких запросов
BM25 дополняет семантический поиск, находя документы по конкретным терминам и ключевым словам. Комбинация векторного поиска (Top K) и ключевого поиска (Top N BM25) дает лучшие результаты.
Переранжирование
Переранжирование улучшает качество результатов поиска, пересортировывая найденные документы по релевантности к запросу.
Минимальный скор переранжирования
Порог от 0 до 1, ниже которого документы отфильтровываются после переранжирования. Документы с низким скором считаются нерелевантными и не используются для формирования ответа.
- Низкие значения (0.1-0.3) — более мягкая фильтрация, больше документов используется
- Средние значения (0.4-0.6) — баланс между полнотой и релевантностью
- Высокие значения (0.7-0.9) — строгая фильтрация, только очень релевантные документы
Если параметр не указан, используется значение по умолчанию.
Количество документов после переранжирования
Максимальное количество документов, которые будут использованы после переранжирования. Это финальный набор документов, на основе которых формируется ответ.
- Низкие значения (3-5) — только самые релевантные документы, более точные ответы
- Средние значения (5-10) — хороший баланс между точностью и полнотой
- Высокие значения (10-20) — больше контекста для ответа, но может быть избыточно
Если параметр не указан, используется значение по умолчанию.
Рекомендации по настройке
Для точных ответов на основе документов
- Температура: 0.1-0.3
- Top K: 10-20
- Top N BM25: 20-40
- Минимальный скор: 0.5-0.7
- Количество после переранжирования: 5-8
Для широких запросов и общих вопросов
- Температура: 0.3-0.5
- Top K: 20-30
- Top N BM25: 40-60
- Минимальный скор: 0.3-0.5
- Количество после переранжирования: 8-12
Для больших баз знаний
- Top K: 25-35
- Top N BM25: 50-80
- Минимальный скор: 0.4-0.6
- Количество после переранжирования: 10-15
Общие советы
- Начните с значений по умолчанию и настраивайте по результатам
- Тестируйте разные комбинации параметров на реальных запросах
- Следите за качеством ответов и корректируйте параметры
- Для большинства случаев значения по умолчанию работают хорошо
Связанные темы
- Датасеты — подключение баз знаний к боту
- Ингестия документов — подготовка документов для поиска
- Обзор чат-ботов — общая информация о создании ботов