Датасеты для ботов
Подключение баз знаний к чат-боту для ответов на основе ваших документов
Введение
Датасеты — это базы знаний, содержащие документы, которые бот использует для поиска информации и формирования ответов. Привязка датасетов к боту позволяет ему отвечать на вопросы на основе ваших документов, а не только на общие знания модели.
Бот автоматически ищет релевантную информацию в привязанных датасетах при каждом запросе пользователя и использует найденные документы для формирования ответа.
Привязка датасетов
Чтобы привязать датасет к боту:
- Откройте форму создания или редактирования бота
- Раскройте раздел "Датасеты"
- Выберите один или несколько датасетов из списка, установив галочки напротив нужных
- Сохраните изменения
Если у вас еще нет датасетов, создайте их в разделе Датасеты перед привязкой к боту.
Использование нескольких датасетов
Вы можете привязать к боту несколько датасетов одновременно. Это полезно, если:
- У вас есть разные категории документов (например, документация по продуктам, FAQ, политики)
- Вы хотите объединить информацию из разных источников
- Вам нужно разделить информацию по темам или проектам
При использовании нескольких датасетов бот ищет информацию во всех привязанных датасетах и объединяет найденные результаты для формирования ответа.
Рекомендуется группировать связанные документы в один датасет для лучшей организации и более точного поиска.
Как бот ищет в датасетах
При каждом запросе пользователя бот:
- Анализирует вопрос пользователя
- Ищет релевантные фрагменты документов во всех привязанных датасетах
- Использует семантический поиск (векторный) и ключевой поиск (BM25) для нахождения наиболее релевантных частей
- Переранжирует найденные результаты для выбора наиболее подходящих
- Использует найденную информацию для формирования ответа
Параметры поиска (количество результатов, пороги релевантности) можно настроить в разделе Расширенные настройки.
Рекомендации
- Качество важнее количества — лучше иметь несколько хорошо структурированных датасетов, чем один большой с неорганизованной информацией
- Актуальность данных — регулярно обновляйте документы в датасетах, чтобы бот работал с актуальной информацией
- Структурированность — документы должны быть хорошо структурированы и содержать четкую информацию
- Релевантность — привязывайте только те датасеты, которые содержат информацию, релевантную для задач бота
- Тестирование — протестируйте бота с разными комбинациями датасетов, чтобы найти оптимальную конфигурацию
Связанные темы
- Датасеты и RAG — создание и управление датасетами
- Ингестия документов — загрузка документов в датасеты
- Расширенные настройки — параметры поиска в датасетах
- Настройки встраивания — отображение источников в ответах
- Обзор чат-ботов — общая информация о создании ботов