Ингестия документов
Загрузка и обработка документов для добавления в базу знаний
Введение
Ингестия — это процесс загрузки и обработки документов для добавления их в базу знаний. Документы обрабатываются, индексируются и становятся доступны для поиска чат-ботами.
Документы можно загружать несколькими способами в зависимости от источника данных.
Способы загрузки
Загрузка файлов
Вы можете загрузить файлы напрямую:
- Откройте датасет
- Нажмите "Добавить документ" или "Загрузить файл"
- Выберите файл на вашем компьютере
- Дождитесь завершения обработки
Добавление через URL
Для загрузки веб-страниц:
- Откройте датасет
- Нажмите "Добавить URL" или используйте функцию обхода сайтов
- Введите URL страницы
- Система загрузит и обработает содержимое страницы
Подробнее: Обход сайтов
Ввод текста
Для небольших текстов можно ввести их вручную:
- Откройте датасет
- Нажмите "Добавить текст"
- Введите или вставьте текст
- Сохраните документ
Поддерживаемые форматы
Система поддерживает следующие форматы документов:
- PDF — документы PDF
- DOCX — документы Microsoft Word
- TXT/Markdown — текстовые файлы и Markdown
- HTML — веб-страницы
- CSV — таблицы в формате CSV
Текст извлекается из документов, таблицы распознаются. Изображения и другие медиа-файлы не обрабатываются.
Обработка документов
После загрузки документы проходят обработку:
- Извлечение текста — текст извлекается из файла
- Разбиение на чанки — документ разбивается на фрагменты для поиска
- Индексация — создаются индексы для быстрого поиска
- Векторизация — создаются векторные представления для семантического поиска
Статус обработки отображается на странице датасета. После завершения обработки документы становятся доступны для поиска.
При необходимости можно повторить обработку (реиндексацию) документа.
Связанные темы
- Документы — управление документами в датасете
- Обход сайтов — автоматический сбор документов
- Датасеты — обзор датасетов