Dify ナレッジパイプラインとは？RAG精度と運用を左右する設計（失敗例つき）

2026/3/19 9:192026/3/19 11:43

はじめに

RAGチャットボットを本番稼働させて数週間後、「なぜか古い情報を答え続ける」「特定部署のドキュメントが別部署にも見えてしまった」――こうした事故は、設計段階の判断ミスが後から表面化したものです。

2025年9月にDifyが公開した「ナレッジパイプライン（Knowledge Pipeline）」は、こうした問題の根本原因であるデータ取り込み工程を可視化・制御しやすくする仕組みです。本記事では、パイプラインの構造から実務設計のポイント、よくある失敗パターンと評価指標まで、現場担当者が意思決定できる粒度で解説します。

💡

この記事はこんな方におすすめです

AI導入やDXをリードするAI推進担当者

セキュアなRAG運用設計が求められる情シス担当者

チャットボットの回答精度に課題を感じている業務部門の方

はじめに目次 1. ナレッジパイプラインとは何か 2. 従来のナレッジ機能との違い 3. パイプラインを構成する主要な工程 4. データ種類別：チャンク分割の推奨設計（チェックリスト）チャンク設計チェックリスト 5. 埋め込みモデルとハイブリッド検索の選び方実務でよく候補に挙がる埋め込みモデル例ハイブリッド検索が有効なケース 6. メタデータ設計で検索精度と権限管理を両立する推奨メタデータフィールドメタデータを活用した権限制御の設計 7. よくある3つの事故と原因・対策事故1：古い情報を正しいものとして回答し続ける事故2：正しい情報があるのに回答できない（検索ミス）事故3：別部署のドキュメントが参照されてしまう（権限漏れ）8. RAG品質を測る評価指標 - 実務上の目安 -9. 更新運用の設計 - 陳腐化を防ぐ仕組み -棚卸しチェックリスト（四半期推奨）10. まとめ - 設計フェーズで決まる8割 -Dify導入・ナレッジパイプライン設計のご支援サービス紹介サービスのお問い合わせ合わせて読みたい関連記事出典・免責事項

1. ナレッジパイプラインとは何か

Difyが2025年9月に公開した「ナレッジパイプライン」は、RAGにおけるデータ取り込み工程（ETL：Extract → Transform → Load）をワークフロー形式で設計・管理できる機能です。

従来、Difyのナレッジ機能ではファイルをアップロードすると自動でベクトル化される「ブラックボックス」的な処理でした。ナレッジパイプラインではこの処理をノード単位で分解・制御できるようになり、「なぜこのチャンクが拾われないのか」「どの段階で精度が落ちているのか」をトレースしやすくなりました。

一言で言えば： 「RAGのデータ準備工程をGUIで可視化・設計できる機能」

2. 従来のナレッジ機能との違い

比較軸	従来のナレッジ機能	ナレッジパイプライン
処理の可視性	ブラックボックス	ノードごとに確認・調整が可能
チャンク戦略	固定設定のみ	ノードで柔軟に変更可能
データソース	ファイルアップロード中心	プラグインやコネクタ経由で各種クラウド（Google Drive等）に接続可能
マルチモーダル	テキスト中心	プラグイン構成により画像・表・スキャン文書にも対応可能
デバッグ	困難	ノード単位でテスト実行や観測が可能

「以前は精度が上がらない理由がわからなかった」という声が多い背景には、この可視性の欠如があります。パイプラインはそこに直接答える設計変更です。

3. パイプラインを構成する主要な工程

Knowledge Pipelineは、一般に以下のような工程（ノード）で構成されます。実際のノード構成は、利用するテンプレートやプラグインによって柔軟に変化します。

データソース（Data Source） ローカルファイルや、コネクタ経由でGoogle Drive・Notion・Confluenceなどの外部データソースに接続します。

抽出・整形（Data Processing / Extractor & Chunker）

抽出（Extractor）： PDFや画像からテキストや構造データを抽出します。画像やスキャン文書への対応も進んでいますが、実際の精度は利用するExtractorやOCRプラグイン（LlamaParse、Unstructured等）の構成に左右されます。

チャンク化（Chunker）： 抽出したテキストを検索単位に分割します。分割方式・サイズ・オーバーラップを設定する、最も精度に影響する工程です。

(※構成によっては、ここでLLMを用いてメタデータを付与・要約する処理（Enricher的な役割）を挟むことも可能です)

ナレッジベース設定（Knowledge Base Node） 処理されたデータをベクトルDB等に格納します。Difyはバックエンド構成によって各種ベクトルDBや検索基盤を利用でき、自己ホスト環境では構成に応じてQdrant / Weaviate / Milvus / pgvectorなどを採用できます。

入力・テスト（User Input Field / Test & Publish） 構築したパイプラインに対し、テストクエリを投げてチャンクの抽出結果をプレビューし、調整を行います。

▼さらに詳しく知りたい方はこちら

※画像や表を含む複雑なドキュメントを知識化するアプローチについては、こちらの記事もご覧ください。

画像や表も知識にできる！新たなRAG構築フレームワーク「RAG-Anything」を試してみる - TECH BLOG

マルチモーダルなコンテンツをナレッジに格納できる「RAG-Anything」を実際に試し、従来のRAGとの違いを比較しています。

https://blog.elcamy.com/posts/ccdeca6b/

4. データ種類別：チャンク分割の推奨設計（チェックリスト）

「とりあえずデフォルト設定」が最も多い失敗の入り口です。データの性質ごとに分割戦略を変えることが、RAG精度の最大の改善ポイントになります。

チャンク設計チェックリスト

FAQ・Q&Aドキュメント

1チャンク = 1問1答に揃える

チャンクサイズ：200〜400文字

オーバーラップ：不要（問答間に意味的連続性がないため）

マニュアル・手順書

手順の「ステップ番号」でセクション区切りを設定

チャンクサイズ：400〜600文字

オーバーラップ：50〜100文字（手順の前後文脈を保持）

メタデータに「版番号」「更新日」を付与する

規程・契約書・法務文書

条番号・項番号で分割（セクション単位）

チャンクサイズ：600〜1000文字（条文の文脈を保持）

オーバーラップ：100〜150文字

定義語・用語集を別チャンクとして独立登録

表・数値データ（Excel・CSV）

テーブル1行 = 1チャンクとなるよう構造化

チャンクサイズ：小さめ（200文字以下）

カラム名をすべてのチャンクに含める（検索ヒット率向上）

数値範囲クエリはベクトル検索が苦手なため、メタデータフィルタリング併用

社内チャット・メール履歴

個人情報・PII（氏名、連絡先）を匿名化してから取り込む

スレッド単位でチャンクを構成（バラバラにしない）

5. 埋め込みモデルとハイブリッド検索の選び方

実務でよく候補に挙がる埋め込みモデル例

以下は、Elcamyの実務経験に基づく埋め込みモデルの候補例です。最適解は、対象文書の言語・コスト制約・レイテンシ・自己ホスト要件などで変わります。

条件の目安	候補モデルの例	特徴
クラウド利用・高精度	text-embedding-3-large（OpenAI）	多言語対応・安定した精度
日英混在・マルチ対応	bge-m3（オープンソース）	多言語対応、ローカルホスト可能
軽量・ローカル動作	nomic-embed-text	計算リソースを抑えられる
検索精度の底上げ	bge-reranker-v2-m3 等（併用）	初回検索後の再スコアリング