Обход сайтов
Автоматический сбор документов с веб-сайтов для добавления в базу знаний
Введение
Обход сайтов (crawling) позволяет автоматически собирать документы с веб-сайтов и добавлять их в датасет. Система посещает указанные URL, извлекает содержимое страниц и обрабатывает его как документы.
Обход сайтов полезен для:
- Создания базы знаний из документации на сайте
- Сбора информации с публичных ресурсов
- Автоматического обновления базы знаний при изменении сайта
Запуск обхода
Чтобы запустить обход сайта:
- Откройте датасет
- Найдите раздел "Обход сайтов" или "Crawl"
- Укажите начальный URL для обхода
- Настройте параметры обхода (если доступны)
- Запустите обход
Система начнет посещать страницы, начиная с указанного URL, и добавлять их содержимое в датасет.
Мониторинг обхода
Во время обхода вы можете отслеживать:
- Количество посещенных страниц
- Количество добавленных документов
- Статус обхода (в процессе, завершен, ошибка)
- Ошибки при обработке страниц
Информация об обходе доступна на странице датасета или в разделе выполнения обхода.
Остановка обхода
Вы можете остановить обход в любой момент:
- Откройте информацию о текущем обходе
- Нажмите "Остановить обход"
- Подтвердите остановку
После остановки обход прекратится, но уже собранные документы останутся в датасете.
Реиндексация собранных документов
После обхода сайта вы можете запустить реиндексацию всех собранных документов:
- Откройте информацию об обходе
- Нажмите "Реиндексировать"
- Система обработает все документы, собранные в рамках этого обхода
Реиндексация полезна, если нужно обновить индексы или повторить обработку документов.