
Dify ナレッジパイプラインのテンプレート一覧
v1.9.1では5種類のテンプレートが提供されています。
パイプライン | チャンク戦略 | 概要 |
---|---|---|
インテリジェントQ&A生成 | Q&A | ドキュメントから重要情報を自動抽出して質問応答ペアを生成し、長文ドキュメントを正確な知識ポイントに変換します。 |
文書形式変換 | 親子 | このテンプレートはDOCX・XLSX・PPTXなどのOffice形式のファイルをMarkdownに変換し、処理効率と互換性を向上させます。 |
一般文書処理 | 汎用 | ドキュメントを汎用段落ブロックに分割し、経済的なインデックスを採用。大量のドキュメントの高速処理に適しています。 |
長文書処理 | 親子 | 親子階層型チャンキング戦略を採用。具体的なコンテンツを正確に特定しながら、完全なコンテキストを保持。技術文書や研究レポートなどの長編資料に最適です。 |
Q&A表データ抽出 | Q&A | 表から指定列を抽出して構造化された質問応答ペアを生成。自然言語でのデータ検索を可能にします。 |
1. インテリジェントQ&A生成
2. 文書形式変換
3. 一般文書処理
4. 長文書処理
5. Q&A表データ抽出
データソース(インプット)
Excel( 、)およびCSVファイル()のみ利用可能
プロセス
プロセスの全体像

- FILEブロック: データソースとしてファイルをアップロード
- Q&A PROCESSORブロック: Q&A形式のデータ(質問と回答のペア)をナレッジに取り込む専用の変換器
- KNOWLEDGE BASEブロック: パイプラインで処理・変換されたデータを最終的にナレッジベースに保存
準備
- FILEブロックでアップロードするファイル形式(拡張子)に, , を指定する

- KNOWLEDGE BASEブロックに埋め込みモデルとRerankモデルを設定する

- アプリを公開する
実行手順
今回は以下のようなCSVファイルを使います。1列目に質問、2列目に回答を記載しています。
- 「ドキュメント」タブからファイルを追加する



- 質問列と回答列の番号を指定し、ナレッジベースへの保存を開始

Dify上での列番号「0」は、ファイルの「1」列目を指します。
「プレビューチャンク」を押すと事前にどのようにナレッジに登録されるか確認できます。

- ナレッジベースへの保存が完了

ナレッジベース(アウトプット)
以下のように、チャンクごとに質問と回答がセットになったQ&A形式で保存されます。
