跳到主要内容

预处理

预处理 Pipeline 主要用于定义文档在放入知识库时的处理流程,会在文档上传并入库时生效,包括文档解析、文本分块、向量化等环节。

用户可以按文档类型或业务需求定制处理策略,满足多来源文档接入下的差异化处理要求,确保知识内容在入库阶段被正确解析、切分与索引,从而提升后续检索的召回质量。

使用方式

一个知识库可关联多个预处理 Pipeline,以适应不同文件类型的处理需求。文件上传时,系统将按顺序匹配适用的预处理规则,若均未命中则回退至默认 Pipeline

  • 平台内置默认规则:系统提供开箱即用的默认预处理 Pipeline,可直接使用或导入参考。
  • 自定义与覆盖:支持新建自定义 Pipeline,也可复制默认 Pipeline 进行修改;默认 Pipeline 支持删除操作。
  • 规则匹配机制:按优先级顺序匹配预处理规则,匹配到即执行对应流程,未匹配则走默认处理。

建议:调整预处理配置后,可通过上传测试文件验证处理效果。

创建预处理 Pipeline

  1. 在预处理列表页点击 “新增” 按钮,弹出创建窗口。
  2. 填写基本信息:
    • 名称:预处理 Pipeline名称。
    • 启用:勾选后预处理生效,可被知识库关联使用。
    • 描述:补充说明该预处理的适用场景或配置要点。
  3. 点击 “确认” 完成创建,系统将自动跳转至预处理编辑画布界面。

节点功能详解

进入画布编辑界面后,可从节点库拖拽所需节点至画布,通过连线组合出完整的文件预处理流程。

节点库按功能分为以下类别:文本提取文本分块字段提取后处理插件数据处理

提示

  • 每个预处理流程的末尾均需添加相应的存储节点,确保各阶段处理结果正确持久化至数据库。
  • 关于节点更多的详细说明,请点击任一节点的配置页面的右上角的 “”进入说明文档查看。

文本提取节点

从各类文件格式中提取原始文本内容,作为后续处理的基础。

节点名称功能描述
存储文件文本将文件提取的内容存储到数据库。
DOCX 文件文本使用 pandoc 库从 docx 文件中提取内容。
视频文件文本从视频文件中提取内容。
图像描述生成从图片文件中提取内容。
音频文件文本从音频文件中提取内容。
表格文件文本使用 pandas 库从表格文件中提取内容。
PDF 文件文本使用 pypdf 库从 PDF 文件中提取内容。
Markdown 文件文本从 markdown 文件中提取内容。
TXT 文件文本从 txt 文件中提取内容。
Azure-OCR 解析 PDF 文件使用 Azure Document Intelligence 布局/读取模式提取内容。仅支持 .pdf 格式,可自动清理噪音数据。
多模态 LLM 解析 PDF 文件使用 LLM OCR 模型提取内容。
Spire 文件转换使用 Spire 库进行文件格式转换。
LibreOffice 文件转换使用 LibreOffice 库进行文件格式转换。

文本分块节点

将提取的长文本按指定策略切分为多个段落或片段,便于后续索引与检索。

节点名称功能描述
固定字符数分块按固定大小拆分文档。
固定字符数切分(附带页码信息)按固定大小拆分文档,同时携带页面起始位置信息。
表格类文件分块将表格文档拆分为段落。
按页分块将文档按页切分为段落。
按标题分块按标题将文档拆分为段落。
存储文件分段将分段数据存储到数据库。

字段提取节点

从文档内容或元数据中提取关键信息,生成摘要、关键词或结构化字段。

节点名称功能描述
存储段落增强数据将文档段落扩展增强数据存储到文档索引中。
存储文档元数据将提取的文档信息存储到文档索引中。
元数据提取使用 LLM 从文档中提取元数据。
关键词提取使用 LLM 对文档的每个段落进行关键词提取。
段落元数据提取使用 LLM 从每个文档段落中提取元数据。
段落总结生成对段落进行摘要。
表格高级总结生成使用 LLM 生成表级摘要及分组级叙述摘要。
图片描述生成使用图片描述增强段落。
文档摘要生成对整个文档进行摘要。
表格行记录总结生成使用表格描述增强段落。

后处理节点

对分块后的文本进行分词、向量化等后续处理,完成索引前的准备工作。

节点名称功能描述
存储分块分词将分段词元数据存储到数据库。
基于 SpaCy 为分块分词使用 SpaCy 分词器进行分词。
向量化分块数据并存储使用模型对段落进行嵌入,并将嵌入向量存储到向量数据库。

数据处理节点

提供流程控制与变量处理能力,用于构建更复杂的预处理逻辑。

节点名称功能描述
变量聚合器将多个变量分组聚合为输出变量,支持“取首个非空值”和“合并为列表”两种策略。聚合行为通过 set_output_mapping() 动态配置。
条件节点根据条件对流程进行分支控制。条件判断逻辑由管道引擎在外部处理,节点本身不产生输出数据。
模板使用 Jinja2 模板语法对各变量进行处理和格式化。

试运行

配置完成后,可通过试运行功能验证预处理流程是否按预期执行。系统支持从本地上传或从知识库中选择文件进行测试。

提示:为确保测试效率,建议上传文件大小不超过 5MB、页数不超过 20 页。

  • 查看日志:点击“查看日志”可展开每个节点的详细输入与输出内容,便于逐节点排查问题,精准定位处理异常的具体环节。
  • 片段预览:支持预览处理后的文本片段,直观判断分块、提取等环节的效果是否符合预期。
  • 数据下载:受展示限制,预览区默认仅显示前 10 条数据。如需完整数据,可点击 “下载” 按钮获取全部处理结果。