I. イントロダクション:AIアプリ開発は次のステージへ! [第10話の振り返り]
1-1. 第10話の振り返り:私たちは「賢いAI」を作る土台を築きました
皆さん、こんにちは!中年からのAI再スタート、連載第11話へようこそ!
プログラミングどころかAIも未経験だった私たちが、前回の第10話ではついにAIアプリの「脳みそ」をパワーアップさせました。そう、**PDFなどの資料を学習させる「知識ベース」**をDifyに組み込み、高度な情報検索や専門的な質問に答えられるAIアプリの基本形を完成させたのです。
ここまで来られた皆さん、本当に素晴らしいです!
しかし、知識は入った。でも、このAIはまだちょっと無愛想ではないですか?専門知識は豊富だけど、なんだか話しかけにくい。せっかくすごい能力を身につけたのに、ユーザーが使い始めで迷ってしまったらもったいないですよね。
1-2. 第11話のゴール:「見た目」と「動作」をプロレベルにする
今回から目指すのは、**「知識」だけでなく、「使いやすさ」と「人間らしさ」**を磨くことです。
今回学ぶDifyの2大機能は、皆さんのAIアプリをプロレベルに引き上げます。
- ビジョン機能:AIに画像を見せて、瞬時に内容を判断させる力(AIに**『目』**を与える)。
- オープナー機能:ユーザーが話しかける前に、AIが自動で挨拶・質問を促す仕組み(AIに**『口』**を与える)。
さあ、「無愛想な天才」だったAIを、「親切で賢い相棒」に変身させましょう!
II. 🖼️ Difyの「ビジョン(Vision)」機能:AIに『目』を与えて世界を認識させる
2-1. ビジョン機能の仕組み:「画像」という新しい入力方法
AIといえば「文章(テキスト)で質問する」のが当たり前だと思っていませんか?
実は、Difyのビジョン機能を使えば、プログラミング知識ゼロでも、AIに画像認識能力を持たせられるんです!私も初めて知った時は本当に驚きました。
ビジョン機能とは、ユーザーが送った画像をAIモデルが受け付け、その画像に何が写っているのか、どんな状況なのかを分析・言語化し、それを元に回答を出力する仕組みです。
【比喩で解説】
この仕組みは、AIが初めて高性能な「カメラ付きの目」を持つようなものです。これまでは文章という「耳」だけで世界を理解していましたが、これからは画像という「目」からも情報を得られるようになります。
2-2. 応用アイデア:副業収益化に直結する「何ができそうか」
ビジョン機能の設定は簡単ですが、重要なのは「何ができるか」よりも「今後、何ができそうか」を想像することです。これは将来の収益化に直結します。
【Dify操作画面解説】ビジョン機能を有効にする設定箇所

ビジョン機能を有効にするには、ビジョン項目の右にあるトグルボタンをクリックしてオンにします。そうすると、チャットボットのメッセージ欄にファイルアイコンが表示され、画像ファイルのアップロードが可能になります。
※ビジョン機能を有効にするには、画面右上のモデル選択で「gpt-4o」などビジョン対応のモデルを選択している必要があります。以下は使い方の例になります。
- 例1(時短・効率化): 領収書や資料の写真を撮影 → 瞬時にデータ入力や要約を自動で行うAI。
- 例2(専門家サポート): 現場の写真や設計図を撮影 → 欠陥箇所や改善点を自動で指摘するAI
ビジョンには以下の設定項目があります。
| カテゴリ | 内容 | オプション | 説明 |
|---|---|---|---|
| 解像度 | 画像処理の品質設定 | 高 | より正確な分析が可能だが処理に時間がかかる |
| 低 | 処理速度は速いが認識精度が下がる | ||
| アップロード方法 | 画像のアップロード形式 | 両方 | ユーザーの端末と画像URLの両方から画像を アップロード可能 |
| ローカルアップロード | ユーザーの端末からのみ画像をアップロード可能 | ||
| URL | インターネット上の画像URLの指定のみ可能 | ||
| アップロード制限 | 一度にアップロードできる画像の数 |
※ビジョン機能については、利用シーンに合わせて適切な設定を行いましょう。特に画像アップロード数は必ず制限しておくことをおすすめします。制限がないと、大量の画像がモデルに渡される可能性があります。画像処理はAPIのトークン消費量が多いため、意図しないAPI利用料の増加につながる恐れがあります。そのため、用途に応じて必要最小限の設定にするべきです。
各解像度における目安のコストは以下の通りです。
| 解像度 | 処理画像枚数 | 画像サイズ | 消費トークン | 料金 (150 円/USD) |
|---|---|---|---|---|
| 低 | 1枚 | 任意 | 85トークン(固定) | 約 0.064 円 |
| 10枚 | 任意 × 10枚 | 850トークン | 約 0.64 円 | |
| 高 | 1枚 | 1920 px(横) × 1080 px(縦) | 2,125トークン(タイル数 12) | 約 1.59 円 |
| 10枚 | 1920 px(横) × 1080 px(縦) × 10枚 | 21,250トークン | 約 15.9 円 |
ビジョンの設定を変更するには、ビジョン項目の右にある「設定」アイコンをクリックします。

III. 💬 Difyの「オープナー(Opener)」機能:ユーザーを導く最高の「接客」
3-1. オープナーとは?:ユーザーを迷子にさせない「最初の声かけ」
せっかく作ったAIアプリが、誰も使ってくれなかったらどうしよう?これは、私たち初心者が抱える大きな不安ですよね。
ここで活躍するのがオープナー機能です。オープナーは、チャットが開始された時に、AIが自動で挨拶や質問例を提示し、ユーザーの「最初の質問」のハードルを下げてくれる機能です。
【比喩で解説】
オープナーは、まるでアプリの受付に立つ、笑顔のコンシェルジュのようなものです。ユーザーが立っていると「いらっしゃいませ!本日はいかがなさいましたか?」と優しく話しかけ、具体的な利用例を案内してくれます。
3-2. 応答率を高める!成功するオープナーの作り方と設定
オープナーの設定は、単に挨拶文を入れるだけではありません。ユーザーの応答率(=アプリの利用率)を高めるためのコツがあります。
【Dify操作画面解説】オープナー設定画面と入力例

まずは右下の管理をクリックします。

続いて会話の開始をクリックします。

- 本日はどうなさいましたか?入力します。
- 具体的な質問例を提示: ユーザーがコピー&ペーストできる質問例を3つほど提示するのがベストです。オプション追加ボタンを最初の質問を入力できます。ここではDIFYに質問したいとその他の2つを作ってみました。

最初の会話と質問ができました。
IV. まとめ:Difyの拡張機能は未経験者を最強のクリエイターに変える
4-1. 49歳未経験でも大丈夫!アプリの『知性』と『見た目』が揃った
今回のビジョン機能とオープナー機能の導入で、あなたのAIアプリは「知識ベース」という知性(脳)だけでなく、「ビジョン」という目と、「オープナー」という口(接客スキル)を手に入れました。
操作手順を追ううちに、私たちはいつの間にかAIクリエイターになっていました。次のステップは、その他の追加機能について解説します。
4-2. 次回予告:会話を自動継続!AIに音声機能を追加し「次世代のUX」を作る方法へ
いよいよ次回は、さらに会話続けてもらえるようにできる機能について、また運転中でも聞ける機能の解説をします。


コメント