page icon

Dify ナレッジパイプラインのテンプレート一覧

9月23日、Difyの新機能「ナレッジパイプライン(Knowledge Pipeline)」がリリースされました。煩雑な企業データをLLM向けの高品質なコンテキストへと変換する、RAG(Retrieval-Augmented Generation)データ処理パイプラインです。
従来のRAGシステムの課題の1つとして「処理プロセスのブラックボックス化」が挙げられます。このナレッジパイプラインでは、元データからコンテキストへの変換プロセス全体を可視化・コントロールすることができるようになっています。
 
この記事では、予め用意されたパイプラインのテンプレートについて紹介します。

環境

  • Dify クラウド版 v1.9.1

テンプレート

v1.9.1では5種類のテンプレートが提供されています。
パイプラインチャンク戦略概要
インテリジェントQ&A生成Q&Aドキュメントから重要情報を自動抽出して質問応答ペアを生成し、長文ドキュメントを正確な知識ポイントに変換します。
文書形式変換親子このテンプレートはDOCX・XLSX・PPTXなどのOffice形式のファイルをMarkdownに変換し、処理効率と互換性を向上させます。
一般文書処理汎用ドキュメントを汎用段落ブロックに分割し、経済的なインデックスを採用。大量のドキュメントの高速処理に適しています。
長文書処理親子親子階層型チャンキング戦略を採用。具体的なコンテンツを正確に特定しながら、完全なコンテキストを保持。技術文書や研究レポートなどの長編資料に最適です。
Q&A表データ抽出Q&A表から指定列を抽出して構造化された質問応答ペアを生成。自然言語でのデータ検索を可能にします。

1. インテリジェントQ&A生成

 

2. 文書形式変換

 

3. 一般文書処理

 

4. 長文書処理

 

5. Q&A表データ抽出

データソース(インプット)

Excel()およびCSVファイル()のみ利用可能

プロセス

プロセスの全体像
  • FILEブロック: データソースとしてファイルをアップロード
  • Q&A PROCESSORブロック: Q&A形式のデータ(質問と回答のペア)をナレッジに取り込む専用の変換器
  • KNOWLEDGE BASEブロック: パイプラインで処理・変換されたデータを最終的にナレッジベースに保存
 
準備
  1. FILEブロックでアップロードするファイル形式(拡張子)に, , を指定する
  1. KNOWLEDGE BASEブロックに埋め込みモデルとRerankモデルを設定する
  1. アプリを公開する
 
実行手順
今回は以下のようなCSVファイルを使います。1列目に質問、2列目に回答を記載しています。
  1. 「ドキュメント」タブからファイルを追加する
  1. 質問列と回答列の番号を指定し、ナレッジベースへの保存を開始
    1. ⚠️
      Dify上での列番号「0」は、ファイルの「1」列目を指します。
      「プレビューチャンク」を押すと事前にどのようにナレッジに登録されるか確認できます。
  1. ナレッジベースへの保存が完了

ナレッジベース(アウトプット)

以下のように、チャンクごとに質問と回答がセットになったQ&A形式で保存されます。

サマリー

ファイル形式、ユースケースごとにパイプラインの使い分けをまとめます。
  1. インテリジェントQ&A生成
  1. 文書形式変換
  1. 一般文書処理
  1. 長文書処理
  1. Q&A表データ抽出

ファイル形式ごとの使い分け

ファイル形式12345

ユースケースごとの使い分け

ユースケース12345

おわりに

この記事のまとめ
 

参考