RAG Pipeline
RAG Pipeline 是知识库能力的流程编排中心,用于将“文件处理、知识检索、插件扩展”三类能力串联为一条可配置、可复用、可调优的 RAG 执行链路。
它的核心价值是让企业不再依赖单一固定流程,而是可以根据不同文档类型、不同 Agent 和不同业务目标,灵活设计并持续优化检索增强生成(RAG)流程。
💡 提示:此功能只支持 V4.2 及以上版本。
核心特征
- 流程可编排:将预处理、检索、重排、变量处理等能力以节点方式组合,按需构建业务链路。
- 能力可解耦:预处理、检索、插件三部分独立配置、独立迭代,降低整体调整成本。
- 策略可复用:支持内置默认流程与自定义流程并存,便于复制模板后快速落地。
- 执行可观测:支持试运行、日志查看和节点级输入输出定位,便于调优与排障。
- 扩展可持续:通过插件机制接入私有算法或第三方服务,满足企业级定制需求。
RAG Pipeline 的能力构成
RAG Pipeline 由以下三类能力组成:
⚠️ 权限说明:RAG Pipeline 的创建、修改与发布操作均需管理员权限。普通用户仅可使用管理员已授权发布的 Pipeline。
检索 Pipeline
用于定义知识召回策略与执行逻辑,是 RAG 问答效果的关键环节。
- 支持基础编排与高级编排两种模式,覆盖从标准检索到复杂多路召回场景。
- 可结合过滤、重排、分词、模板、插件等节点,精细控制召回质量。
- 可按 Agent 维度配置并继承上下文参数,实现不同智能体的差异化检索策略。
预处理 Pipeline
用于定义文件入库前的解析、切分、增强与向量化流程,是知识可检索性的基础保障。
- 支持按文件类型匹配不同预处理规则,未命中时回退默认流程。
- 覆盖文本提取、文本分块、字段提取、后处理、数据处理与插件扩展等能力。
- 支持试运行与结果预览,帮助在正式入库前验证处理效果。
插件 Pipeline
用于扩展平台默认能力,通过自定义 Python 代码或上传插件包接入个性化处理逻辑。
- 支持手动创建与本地包上传两种方式,适配不同开发习惯。
- 可用于预处理或检索环节,满足私有算法、外部 API、第三方服务集成需求。
- 提供独立运行测试能力,便于插件调试与版本迭代。
应用场景
- 多源文档治理:针对 PDF、Office、表格、音视频等不同内容设计差异化预处理策略。
- 多 Agent 精准问答:为不同业务智能体配置独立检索流程,避免“一套策略通用所有场景”。
- 持续调优运营:通过试运行与日志追踪定位瓶颈,持续优化召回质量与响应效果。
- 企业私有化扩展:通过插件接入企业内部系统、私有模型能力或行业专用算法。
使用建议
- 初次使用可优先采用内置默认 Pipeline,先建立可运行的标准链路。
- 建议按“预处理质量 → 检索策略 → 插件扩展”的顺序逐步优化,降低调试复杂度。
- 每次调整后通过试运行和日志验证效果,再逐步发布到生产环境。