跳到主要内容

RAG Pipeline

RAG Pipeline 是知识库能力的流程编排中心，用于将“文件处理、知识检索、插件扩展”三类能力串联为一条可配置、可复用、可调优的 RAG 执行链路。

它的核心价值是让企业不再依赖单一固定流程，而是可以根据不同文档类型、不同 Agent 和不同业务目标，灵活设计并持续优化检索增强生成（RAG）流程。

💡 提示：此功能只支持 V4.2 及以上版本。

核心特征

流程可编排：将预处理、检索、重排、变量处理等能力以节点方式组合，按需构建业务链路。
能力可解耦：预处理、检索、插件三部分独立配置、独立迭代，降低整体调整成本。
策略可复用：支持内置默认流程与自定义流程并存，便于复制模板后快速落地。
执行可观测：支持试运行、日志查看和节点级输入输出定位，便于调优与排障。
扩展可持续：通过插件机制接入私有算法或第三方服务，满足企业级定制需求。

RAG Pipeline 的能力构成

RAG Pipeline 由以下三类能力组成：

⚠️ 权限说明：RAG Pipeline 的创建、修改与发布操作均需管理员权限。普通用户仅可使用管理员已授权发布的 Pipeline。

检索 Pipeline

用于定义知识召回策略与执行逻辑，是 RAG 问答效果的关键环节。

支持基础编排与高级编排两种模式，覆盖从标准检索到复杂多路召回场景。
可结合过滤、重排、分词、模板、插件等节点，精细控制召回质量。
可按 Agent 维度配置并继承上下文参数，实现不同智能体的差异化检索策略。

预处理 Pipeline

用于定义文件入库前的解析、切分、增强与向量化流程，是知识可检索性的基础保障。

支持按文件类型匹配不同预处理规则，未命中时回退默认流程。
覆盖文本提取、文本分块、字段提取、后处理、数据处理与插件扩展等能力。
支持试运行与结果预览，帮助在正式入库前验证处理效果。

插件 Pipeline

用于扩展平台默认能力，通过自定义 Python 代码或上传插件包接入个性化处理逻辑。

支持手动创建与本地包上传两种方式，适配不同开发习惯。
可用于预处理或检索环节，满足私有算法、外部 API、第三方服务集成需求。
提供独立运行测试能力，便于插件调试与版本迭代。

应用场景

多源文档治理：针对 PDF、Office、表格、音视频等不同内容设计差异化预处理策略。
多 Agent 精准问答：为不同业务智能体配置独立检索流程，避免“一套策略通用所有场景”。
持续调优运营：通过试运行与日志追踪定位瓶颈，持续优化召回质量与响应效果。
企业私有化扩展：通过插件接入企业内部系统、私有模型能力或行业专用算法。

使用建议

初次使用可优先采用内置默认 Pipeline，先建立可运行的标准链路。
建议按“预处理质量 → 检索策略 → 插件扩展”的顺序逐步优化，降低调试复杂度。
每次调整后通过试运行和日志验证效果，再逐步发布到生产环境。

核心特征
RAG Pipeline 的能力构成
应用场景
使用建议