Ингестия документов

Загрузка и обработка документов для добавления в базу знаний

Введение

Ингестия — это процесс загрузки и обработки документов для добавления их в базу знаний. Документы обрабатываются, индексируются и становятся доступны для поиска чат-ботами.

Документы можно загружать несколькими способами в зависимости от источника данных.

Способы загрузки

Загрузка файлов

Вы можете загрузить файлы напрямую:

  1. Откройте датасет
  2. Нажмите "Добавить документ" или "Загрузить файл"
  3. Выберите файл на вашем компьютере
  4. Дождитесь завершения обработки

Добавление через URL

Для загрузки веб-страниц:

  1. Откройте датасет
  2. Нажмите "Добавить URL" или используйте функцию обхода сайтов
  3. Введите URL страницы
  4. Система загрузит и обработает содержимое страницы

Подробнее: Обход сайтов

Ввод текста

Для небольших текстов можно ввести их вручную:

  1. Откройте датасет
  2. Нажмите "Добавить текст"
  3. Введите или вставьте текст
  4. Сохраните документ

Поддерживаемые форматы

Система поддерживает следующие форматы документов:

  • PDF — документы PDF
  • DOCX — документы Microsoft Word
  • TXT/Markdown — текстовые файлы и Markdown
  • HTML — веб-страницы
  • CSV — таблицы в формате CSV

Текст извлекается из документов, таблицы распознаются. Изображения и другие медиа-файлы не обрабатываются.

Обработка документов

После загрузки документы проходят обработку:

  1. Извлечение текста — текст извлекается из файла
  2. Разбиение на чанки — документ разбивается на фрагменты для поиска
  3. Индексация — создаются индексы для быстрого поиска
  4. Векторизация — создаются векторные представления для семантического поиска

Статус обработки отображается на странице датасета. После завершения обработки документы становятся доступны для поиска.

При необходимости можно повторить обработку (реиндексацию) документа.

Связанные темы

Мы используем cookies для улучшения работы сайта. Продолжая пользоваться сайтом, вы соглашаетесь с политикой использования cookies.