Difyで徹底検証!AIモデルを変えたら出力がどう変わるのか試してみた

はじめに

AIで文章を生成する際、「どのAIモデルを使うか?」というのは意外と見落とされがちですが、出力される文章の品質やトーンには大きな違いがあります。AIモデルそれぞれに強みがあるため、目的に応じたモデル選択が重要です。
そこで今回は、ノーコードでAIアプリを構築できるDifyを使って、「ファクトチェック+法的リスクチェック+リライト」のワークフローを構築し、使用するAIモデルを切り替えたときの出力結果がどう変わるのかを徹底比較してみました。

目次

概要

今回は、下記のようにAIモデルの出力結果を比較していきます。

Difyワークフローの構成

今回作成したワークフローは、以下の3ステップで構成されています。
  1. ユーザーがブログ記事原稿を入力
  1. ファクトチェック・法的リスクのチェック
  1. リライトして最終原稿を出力
この中で、「ファクトチェック・法的リスクチェック」と「リライト」の処理を担う「LLMノード」において、使用するモデルを以下の3種類に切り替えて比較します。
  • GPT‑3.5 Turbo
  • GPT-4o
  • GPT-4.1
 

なぜこの3モデルを比較対象に選んだのか?

現在、OpenAIのAPIを通じて利用できるGPT系モデルにはいくつかのバリエーションがあります。その中でこれらを選んだ理由は、「精度・表現力・コスト」のバランスが最も異なる代表モデルであり、実際の業務やブログ生成シーンでも採用候補として現実的に検討されることが多いためです。
具体的には以下のような立ち位置になります:
モデル特徴選定理由
GPT‑3.5 Turbo非常に高速・低コスト ただし誤情報や浅い表現が目立つ場合も。コストを最優先したい企業や、ドラフト生成を大量に行うケースで実際に使われている
GPT‑4o高精度・自然な文体・高速応答が特徴の「万能型」 ただし、コストは高い表現力と実用性のバランスが非常に良く、ユーザビリティも高いため、実務でも人気
GPT‑4.1最も高い精度・構成力・法規対応力 コストはGPT-4oより安価 ただし応答はやや遅い正確性や専門性が最重視される分野(法律、医療、公共向け記事)において有力候補
つまり、本比較は「安価だが精度に課題があるGPT‑3.5」「万能で実務的なGPT‑4o」「精度特化のGPT‑4.1」を並べることで、目的に応じたモデルの使い分け指針を示すことを目的としています。
 

ワークフロー作成手順

完成図

下記を目指して作成します。
  1. 開始ノード:ファクトチェック・法的リスクチェック・リライトしたい原稿を入力
  1. ファクトチェック・公開判断:ファクトチェック・法的リスクチェックを実行
  1. リライト&概要作成:原稿をリライトし、ブログ記事の概要を作成
  1. 終了:「リライト&概要作成」の結果を出力する
 

事前準備

  • Dify へのサインアップ
  • OpenAI APIまたはGemini APIのAPIキーの取得
    • Gemini APIの場合
        1. ここにアクセスし、「APIキーを作成」を選択します。
        1. 「新しいプロジェクトでAPIキーを作成」を押します。
        1. APIキーをコピーします。
    • Open AI APIの場合
      • サインアップした後、こちらからAPIキーを作成し、保存します。
  • APIキーのセットアップ
 
 

1.開始ノード

「+」から入力フィールドを作成します。
今回はブログ記事をそのままコピペするため、「段落」を選択して下記を入力し保存します。
  • 変数名:編集時に使用する際の変数の名前
  • ラベル名:ユーザーから見える部分
  • 最大長:入力する文字の上限
  • 必須:☑すると入力必須となります。お好みで
 

2.LLMノード①(ファクトチェック・法的リスクチェック)

「+」から開始ノードに続くLLMノードを作成します。
下記を入力
  • AIモデル:ここでAIモデルの選択が可能です。
  • コンテキスト:下の「SYSTEM」で入力する変数を入力
  • SYSTEM:プロンプトを入力します。
プロンプト例
 

3.LMMノード②(リライト)

「+」からLLMノード①に続くLLMノード②を作成します。
  • AIモデル:AIモデルを選択
  • コンテキスト:下の「SYSTEM」で入力する変数を入力
    • ※複数ある場合は、特に参照させたい情報の変数を入力
  • SYSTEM:LLMノード①の出力結果(=[x]text)をもとに、開始ノードで入力した本文(=[x]blog)をリライトするように「変数」を使用したプロンプトにしています。
プロンプト例
 

4.終了ノード

LLMノード②の出力結果を、ユーザーがへの最終的な出力として選択して完了です。
ノードの出力結果(=生成内容)は、「出力変数」から確認できます。
 
 

出力の比較方法:各モデルで同一の原稿を処理する

モデルの変更方法

LLMノードの「AIモデル」の部分をクリックし、左側に出てきた「モデル」をクリックし、AIモデルを選択します。
 

モデルごとの比較条件

今回の検証では、モデルごとの「出力傾向の違い」を正確に比較するために、以下のように条件を統一しました。
  • 「ファクトチェック・法的リスクチェック」と「リライト」の両方を、同一モデルで実施
  • 出力のばらつきを抑えるため、主要パラメータも統一
パラメータファクトチェック・法的リスクチェック (設定理由)リライト (設定理由)機能
Temperature0.2  創造性を抑え、事実に忠実な回答を優先させるため。0.7  語調や言い回しを豊かにして自然な文章へ書き換えるため、適度にランダム性を持たせる。出力のランダム性創造性を調整 低:事実重視・安定 高:表現が多様に
Top P1  出力分布をカットせず、網羅的に事実を拾わせるため。1  多様な表現候補を保持しつつ、温度で創造性を調整する。単語選択の「広がりの範囲」 例) 1:すべての候補を考慮 0.9:上位90%の確率を持つ単語に限定 ※Top PはTemperatureと組み合わせて使うことが多い
Presence Penalty既定値 0  新トピック導入よりも正確性を重視するためペナルティ不要。既定値 0  語彙の重複より文体の自然さを優先、ペナルティ不要。「新しい話題(語彙)」の導入をどれくらい避けさせるか 0:自然なトピック展開 高:話題のブレを抑え、同じテーマを維持
Frequency Penalty既定値 0  繰り返しを制御する必要が小さく、事実列挙の妨げを避ける。既定値 0  表現の幅を確保しつつ、温度で調整できるため不要。同じ単語やフレーズの繰り返しを避けさせる調整 0:自由な出力。文章の流れを保つ 高:繰り返しを減らす(冗長になりにくい)
Max Tokens1000  チェック結果に根拠や修正文を含めても収まる長さ。1000  原稿全文を書き換えても十分な余裕を確保。出力の最大長を指定
Response Formattext  構造より読める指摘文を重視。text  リライトした自然文をそのまま返すため。出力の形式 ・:自然な文章形式で返す ・:構造化データ形式で返す
JSON Schema―  構造化レスポンスを求めていないため不要。―  構造化レスポンスを求めていないため不要。のときに返すべき項目と構造を指定するテンプレート
Stop sequences―  特定文字列で強制停止させる必要がないので不要。ー 特定文字列で強制停止させる必要がないので不要。特定の文字列が出力されたら即座に応答を終了させる設定
 

使用する原稿

下記の原稿を入力し、出力結果を比較します。
📝
日本では、自転車は歩道を走るのが原則とされており、車道を走るのはむしろ危険行為にあたります。 また、横断歩道では、歩行者がいても車が優先されるため、車は一時停止する必要はありません。 さらに、右折信号が青のときは、歩行者がいても先に車が右折して構いません。ドライバーはスムーズな交通の流れを守ることが大切です。 こうした日常の交通ルールを正しく理解することが、事故を防ぐ第一歩になります。
※この記述には下記3点の誤りがあるため、ファクトチェック・法的リスクチェックで正しい内容に修正されるか確かめます。
#誤っている内容正しいルール主な根拠
1自転車は歩道が原則、車道は危険行為自転車は原則「車道の左側」を通行。歩道は特例時のみOK。(警視庁)
2歩行者がいても車が優先横断歩道に歩行者がいたら、車は必ず一時停止。(警察庁)
3歩行者がいても右折してOK歩行者が渡っている間は、右折車は待つ必要あり。(警察庁)
 

評価軸

今回は下記の評価軸で比較していきます。
評価軸評価要素
内容の信頼度誤解を与えないか、法律や規則に照らして正しいか
構成・わかりやすさ「一読して理解できる」文章になっているか
表現力・魅力度読み手の興味を引き、読みやすいかどうか
コストAPI料金

出力結果

GPT‑3.5 Turbo

全文
【リライト案】: タイトル:日本の交通ルールとは?自転車や横断歩道での挙動について
はじめに 日本では、自転車は基本的に歩道を走るべきであり、車道を走ることは危険です。横断歩道では、歩行者がいても車は必ず一時停止しなければなりません。正しい交通ルールを守ることが事故防止の第一歩です。
【概要】 日本の交通ルールでは、自転車は歩道を走行し、横断歩道では車が歩行者を優先する。正しい挙動を守り、安全な交通を確保しましょう。
 

GPT-4o

全文
【Step 3: リライト案】

タイトル

日本の交通ルールを正しく理解しよう

はじめに

日本の交通ルールは、私たちの日常生活の中で非常に重要な役割を果たしています。正しいルールを理解することは、事故を防ぎ、安全な社会を築くための第一歩です。ここでは、自転車の走行ルールや横断歩道での車両の対応、右折信号に関する正確なルールについて説明します。

自転車の走行ルール

日本では、自転車は原則として車道を走行することが義務付けられています。しかし、13歳未満の子供や70歳以上の高齢者が運転する場合、または歩道に自転車通行可の標識がある場合など、特定の条件下では歩道を走行することが認められています。

横断歩道での車両の対応

横断歩道に歩行者がいる場合、車両は必ず一時停止し、歩行者を優先しなければなりません。これは、日本の道路交通法で明確に定められたルールです。

右折信号について

右折信号が青の場合でも、横断歩道に歩行者がいる場合は、歩行者が優先されます。ドライバーは歩行者の安全を最優先に考え、慎重に行動することが求められます。

おわりに

交通ルールを正しく理解し、守ることは、私たちの安全を守るために欠かせないことです。これらのルールを日常生活に取り入れ、安心して交通を利用できる社会を目指しましょう。
【概要】 日本の交通ルールを理解していますか?自転車の走行から横断歩道での対応、右折信号まで、誤解しがちなルールを正しく解説します。
 

GPT-4.1

全文
【Step 3: リライト案】
タイトル
知っておきたい!日本の正しい交通ルールと安全な歩行・自転車利用のポイント
はじめに
毎日の生活の中で身近な道路交通ルール。ときには思い込みで間違ったルールを守っていないこともあります。ここでは日本での自転車や車、歩行者に関する正しい交通ルールをわかりやすくまとめます。正しい知識を身につけて、安全で快適な毎日を送りましょう。
自転車は「車道通行が原則」
日本の道路交通法では、自転車は原則として車道を通行することが定められています。歩道は、高齢者や児童が運転している場合や、標識・標示などで明示的に許可されている場合など、例外的にのみ通行が認められています。歩道を走るのが当たり前と思っていた方は、今一度ルールを確認しましょう。
横断歩道は歩行者が優先
横断歩道では、歩行者がいる場合、すべての車両(自転車も含む)は必ず一時停止し、歩行者の横断を優先しなければなりません。歩行者が横断しようとしている場合も同様です。違反すると罰則の対象になるだけでなく、重大な事故につながる恐れもあります。
右折信号でも歩行者優先
右折信号が青の場合でも、横断歩道を渡っている歩行者がいれば、車は必ず歩行者の通行を妨げてはいけません。歩行者の安全が最優先となることを意識しましょう。
まとめ
日常の交通ルールを正しく理解し守ることが、事故を防ぎ、自分や周囲の安全を守る第一歩です。今一度、基本的な交通ルールを見直して、安全運転・安全歩行を心がけましょう。
【概要】
自転車は車道通行が原則、横断歩道や信号での歩行者優先など、日本の正しい交通ルールをわかりやすく解説します。安全な毎日のために必見!
 

比較結果とモデルごとの特徴

評価表(◎優/○良/△可/×問題)

モデル内容の信頼度構成・わかりやすさ表現力・魅力度料金 (100万トークン当たり:入力/出力)※
GPT‑3.5 Turbo×誤情報あり$0.50 / $1.50
GPT‑4o$2.50 / $10
GPT‑4.1$2.00 / $8.00
GPT‑3.5 Turbo:圧倒的に低コストだが、正確性と構成で劣る。人手チェック必須。 ・GPT‑4o:読者が読みやすい表現力と高速性。価格は一番高い。 ・GPT‑4.1:最高精度・構成力。コストは4oよりやや安い。
 

情報の正確さ

モデル評価主な正確・不正確ポイントコメント
GPT‑3.5 Turbo(致命的な誤りを含む)❌「自転車=歩道が“原則”」と記述 → 実際は車道通行が原則(道交法17条) ⭕ 「横断歩道では歩行者優先」→ 正確1行目から交通ルールを取り違えており、記事全体の信頼性を損ねるレベル
GPT‑4o中〜高⭕ 自転車は車道通行が原則/歩道は例外条件付き ⭕ 横断歩道で歩行者優先 ⭕ 青右折矢印でも歩行者優先基本的事実はすべて正確。 例外条件は「13歳未満・70歳以上・歩道標識」など主要なものを網羅しており実用上問題なし。
GPT‑4.1⭕ 上記に加え「歩道通行可」の標識・高齢者・児童例外を明示 ⭕ 違反時の罰則リスクにも触れている事実誤認なし。 例外の条件付けや注意喚起まで含め、記事単体で十分に正しい知識が得られるレベル
 

総評と所感

モデル強み注意点
GPT‑3.5 Turbo生成が速くコストが最小。致命的な誤情報(自転車は歩道原則)があり、構成・見出しも不足。ファクト重視のブログには不向き。
GPT‑4o表現が自然で読者フレンドリー。 最低限の法規も正確。 右折信号など追加情報で実用度が高い。深掘りはやや浅い。 専門性を高めたい場合は追加プロンプトが必要。 APIコストは最も高い。
GPT‑4.1構成・正確性とも最も高水準。 例外要件や罰則に触れ、専門性と読みやすさを両立。GPT‑4oほどの軽快さ・親しみやすさは若干劣る。 APIコストは4oより安価
 

ブログに活かすヒント

  1. 正確性が最優先なら GPT‑4.1 を採用し、GPT‑4o を補助的に利用(要約・トーン調整)。
  1. 読者体験とコストを両立させたい場合は GPT‑4o が最適。
  1. GPT‑3.5 Turbo のみで済ませる場合は、必ず人間側のファクトチェックを挟むか、GPT‑4系で追加検証ノードを置く。
 
 

モデル選択のポイントまとめ

利用目的推奨モデル理由
下書き量産・社内メモ・コスト低減が目的のドラフト作成GPT‑3.5 Turbo生成が高速かつ圧倒的に低コスト。 正確性は要チェックだが、ラフ案や大量生成タスクに最適
読みやすさ・共感・マーケ訴求が重視の一般向けブログ 広報記事GPT‑4o口語と説明文のバランスが良く、キャッチーな表現が得意。 速度とコストも GPT‑4.1 より抑えられ、運用しやすい
正確性・専門性が最優先の公式ブログ 法規解説 外部レポートGPT‑4.1誤情報が少なく深掘り説明が得意。 段落構成も整っており、出典を添えた信頼性の高い記事を書ける

まとめ

Difyで構築した「ファクトチェック&リライトワークフロー」において、使用するAIモデルを変えるだけで、文章のトーン・構成・信頼性が大きく変わることが明らかになりました。
中でも GPT-4.1 は、高精度かつコスト効率にも優れており、事実性が求められるビジネス文書や公式ブログに最適です。対して GPT-4o は、やや高コストながら、自然で親しみやすい表現や応答の速さが特徴で、読みやすさや訴求力を重視する場面で効果を発揮します。
目的や予算に応じて最適なモデルを選択し、Difyワークフローに組み込むことで、信頼性と表現力を両立した高品質なコンテンツ運用が可能になります。
 

関連リンク

 
AIを活用したワークフロー構築や、LLM選定にお悩みの方は、株式会社Elcamyまでお気軽にご相談ください。目的や組織の環境に合った最適なご提案をさせていただきます。

サービス紹介

Dify の構築や、ワークフローの作成は、見た目以上に複雑で思っていたより大変な部分も多いんです。でも、ご安心ください。弊社のサービスで、そんな面倒な作業も丸投げできちゃいます。
「自分たちで全部やるのは時間もないし無理だな」と感じたとき、ぜひお任せください。本当にやりたいことに集中できるよう、しっかりサポートいたします。お気軽にご相談ください!

お問い合わせ

お客様の社内DX、内製化、新規事業開発・事業成長等における課題解決をサポートします。まずはお気軽にご相談ください。
 

採用

ここまでお読みいただき、ありがとうございます。私たちが日々大切にしていること、会社のカルチャーやメンバーの想いを少しでも感じ取っていただけたら嬉しいです。
株式会社Elcamyでは、AI・機械学習・分析に情熱を持ち、新しい価値を一緒に生み出していける仲間を募集中です。テクノロジーの最前線で共に成長し、挑戦する喜びを分かち合える環境がここにはあります。
「ちょっと興味がある」「話を聞いてみたい」と思った方は、ぜひ一度こちらの募集職種ページをご覧ください。
▼募集中の職種はこちら
あなたとお話できることを、私たちメンバー一同、心より楽しみにしています!