Обход сайтов

Автоматический сбор документов с веб-сайтов для добавления в базу знаний

Введение

Обход сайтов (crawling) позволяет автоматически собирать документы с веб-сайтов и добавлять их в датасет. Система посещает указанные URL, извлекает содержимое страниц и обрабатывает его как документы.

Обход сайтов полезен для:

  • Создания базы знаний из документации на сайте
  • Сбора информации с публичных ресурсов
  • Автоматического обновления базы знаний при изменении сайта

Запуск обхода

Чтобы запустить обход сайта:

  1. Откройте датасет
  2. Найдите раздел "Обход сайтов" или "Crawl"
  3. Укажите начальный URL для обхода
  4. Настройте параметры обхода (если доступны)
  5. Запустите обход

Система начнет посещать страницы, начиная с указанного URL, и добавлять их содержимое в датасет.

Мониторинг обхода

Во время обхода вы можете отслеживать:

  • Количество посещенных страниц
  • Количество добавленных документов
  • Статус обхода (в процессе, завершен, ошибка)
  • Ошибки при обработке страниц

Информация об обходе доступна на странице датасета или в разделе выполнения обхода.

Остановка обхода

Вы можете остановить обход в любой момент:

  1. Откройте информацию о текущем обходе
  2. Нажмите "Остановить обход"
  3. Подтвердите остановку

После остановки обход прекратится, но уже собранные документы останутся в датасете.

Реиндексация собранных документов

После обхода сайта вы можете запустить реиндексацию всех собранных документов:

  1. Откройте информацию об обходе
  2. Нажмите "Реиндексировать"
  3. Система обработает все документы, собранные в рамках этого обхода

Реиндексация полезна, если нужно обновить индексы или повторить обработку документов.

Связанные темы

Мы используем cookies для улучшения работы сайта. Продолжая пользоваться сайтом, вы соглашаетесь с политикой использования cookies.