Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
見出し画像

ChatGPT の長いプロンプトに意味があるのか気になったときに試す評価方法

ChatGPT を上手く使う方法として、非常に長いプロンプトが共有されているのを見たことがある方は多いと思います。ただ、実務で使う場合長いプロンプトより短いプロンプトの方が扱いやすく API を利用する際のコストも少なく済みます。「ユーザーが作成した Excel マクロをメンテナンスしてほしい」と言われると 90% のエンジニアは不吉な予感に胃が痛くなると思いますが ( ※個人の感覚です ) 、今後誰かが生み出した長文プロンプトが業務に欠かせないものになっていて数文字変えると挙動が変わるようになっていたりしたらメンテナンスには想像を絶する苦痛が伴います。

プロンプト内の表現が性能へどのように寄与するのか計測することができれば、不要な表現を削り短くすることができます。本記事では、既存の書籍や記事をもとに期待する回答の基準点を定め、基準点よりどれだけ差異ある返答が得られたかで評価する方法を提案します。次節から具体的に見ていきましょう。


トップの画像は Michael Stout さんの写真を使わせて頂いています。

1. 質問と回答の基準点を定める

本記事では ChatGPT にコンサルタント役になってもらい経営問題についてアドバイスをもらうプロンプトを評価する状況を扱います。あらゆる経営問題について評価するのは困難なので、サンプルとして「中小企業がAIを活かせる業務領域を特定するためのステップを教えてください。」を評価用の質問とします。

回答の基準点とは、回答に対する期待値です。既存の文献や書籍からあたりをつけます。今回の中小企業での AI 活用についてはすでに経済産業省が AI 導入ガイドブックを公開しておりこの中で AI 導入進め方に言及しています。

AI 導入ガイドブック 構想ステージ編」より引用

AI 導入ガイドブックはボストンコンサルティンググループによって作成されています。そのため、 ChatGPT にプロンプトを与えて本文書で示されている手順と同等の内容が得られれば回答の精度としては十分と言えるでしょう。期待する回答の具体例があることでプロンプトによってどれだけ期待に近いか/期待を上回っているか評価することができます。評価用の質問と基準となる回答例の設定が本ステップで行うことです。

2. インストラクション案を用意する

回答に影響を与える振る舞いに対するプロンプトを本記事ではインストラクションと呼びます。例えば、次のようなものです。

具体的なインストラクションは次のようになります。一般人が答えるのに比べたらすごい賢そうですね。

あなたは、ゴールドマン・サックス、マッキンゼー、モルガン・スタンレー、べイン、PWC、BCG、P&G、アクセンチュアが合併したコンサル会社のパートナー・コンサルタントです。 パートナー・コンサルタントとして、必要に応じて適切なフレームワークやテクニックを用いながら、ユーザーの質問にプロアクティブに対応してください。 あなたはユーザーの学び、利益、出世など、ユーザー便益の最大化を目指す応対を行います。わかりましたか?

ここで気になる点は、会社名の指定やその他の指示が回答精度に影響を与えているのか ? という点です。与えていないなら短い方が効率的です。ここで、比較対象として次のシンプルなプロンプトを用意しました。

あなたは優秀なコンサルタントです。クライアントの質問に対して問題解決能力を発揮しながら回答してください。よろしいですか?

この 2 つで、期待する回答にどれだけ近いか検証してみましょう。結果の評価観点は 2 つあります。 1) 期待回答との一致と 2) プロンプト間の回答の差異です。まず、期待回答との一致率が同程度であればシンプルなプロンプトの方が効率的です。一方、例えばキャラクター性をつけたい場合 ( 語尾に絶対にゃんをつけるなど ) 、シンプルなプロンプトとの差異が大きいほど効果が出ていることになります。もちろんキャラクター性を付けたら精度が下がったら本末転倒なので 1) 期待回答との一致が担保されており 2) シンプルなプロンプトに対し差異があることが振る舞いに特色を与える際に目指すべき点になります。

3. プロンプトを評価する

実際、 2 つのプロンプトを評価してみましょう。なお、それぞれのプロンプトは連続ではなく独立したセッションで実行しています。まずはコンサルティングファーム合体ロボプロンプトから。

コンサルティングファーム合体ロボプロンプトへの質問

以下が返答です。

もちろんです。中小企業がAIを活用するためのステップを以下に示します。業務プロセスの分析: 最初に、中小企業の業務プロセスを詳しく分析しましょう。どの業務が複雑で、手作業に時間がかかっているかを特定します。また、効率化の余地がある業務を見つけることが重要です。
目標の設定: AIを導入する目的を明確に定義します。生産性向上、コスト削減、顧客サービス向上など、具体的な目標を設定しましょう。
データの収集と整備: AIはデータに基づいて動作しますので、関連するデータを収集し、クリーンで正確なデータセットを整備します。これにより、AIモデルの性能が向上します。
適切なAI技術の選定: 業務に最適なAI技術を選定します。例えば、ルールベースの自動化、機械学習、自然言語処理などが考えられます。
プロトタイプの開発: 小規模なプロトタイプを開発して、AI技術が業務にどのように適用されるかを実証します。これにより、機能の評価や修正が可能です。
ユーザーとの連携: 初期段階から関係者やユーザーとのコミュニケーションを大切にしましょう。フィードバックを収集し、適切な調整を行います。
モデルのトレーニングと調整: 選んだAI技術に基づいてモデルをトレーニングし、必要に応じて調整を行います。これにより、モデルのパフォーマンスが向上します。
導入とモニタリング: 開発したAIソリューションを実際の業務に導入し、定期的にモデルの性能をモニタリングします。適宜改善を行い、継続的な最適化を図ります。
トレーニングとサポート: 従業員にAIの使用方法をトレーニングし、必要なサポートを提供します。スムーズな運用が行われるよう支援します。
成果の評価: 定めた目標との比較を通じて、AI導入の成果を評価します。達成した効果や改善の余地を確認し、次のステップを検討します。


これらのステップに従って中小企業がAIを活用するためのプロセスを進めることで、効果的な業務効率化や改善が期待できます。

なかなかの回答です。続いてシンプルなプロンプトでも回答を得ます。

シンプルなプロンプトへの質問

以下が返答です。

中小企業がAIを活用するためには、以下のステップを考えることが役立ちます。

業務プロセスの分析: まず、現在の業務プロセスを詳しく分析しましょう。どのようなタスクが手作業で行われているか、どの部分で効率化が必要かを特定します。

データの収集と整備: AIはデータに基づいて学習するため、適切なデータの収集と整備が必要です。業務に関連するデータを収集し、クリーンで正確なデータセットを作成します。

AIの適用可能性の検討: 収集したデータを元に、AIがどの業務領域で効果的に活用できるかを検討します。例えば、顧客対応の自動化、在庫管理の最適化、マーケティング戦略の改善などが考えられます。

技術の選定: 適切なAI技術やツールを選定します。中小企業向けには、プリビルトのAIツールやクラウドプラットフォームが利用しやすいかもしれません。

プロトタイプの開発: 選定した技術を用いて、試験的なプロトタイプを開発します。これによって、AIが実際の業務にどのように組み込まれるかを確認できます。

評価と改善: プロトタイプを実際の環境で評価し、効果や課題を洗い出します。フィードバックを収集し、システムを改善するためのアクションを決定します。

導入とトレーニング: 成果が確認できたら、AIシステムを本格的に導入します。関係者に対して適切なトレーニングを提供し、システムの運用と保守を行います。

モニタリングと最適化: AIシステムの運用後もモニタリングを続け、性能を評価し続けます。必要に応じてシステムを最適化し、新たな課題や機会に対応します。

これらのステップを順番に進めることで、中小企業がAIを効果的に活用するための道筋が描けるでしょう。ただし、初めての試みである場合は、専門的なアドバイスを得ることも検討してください。

2 つの回答は、1) 期待回答との一致の観点だといずれも 4/9 (44%) で変わりません。ガイドで示されている優先度の決め方についていずれも言及がないのは寂しいところです。 2) プロンプト間の回答の差異の観点ではコンサルティングファーム合体の方が 3 つ観点を多く上げているものの 7/10 (70%) は一致しており差異は小さいと言えます。

期待回答との一致

中小企業への AI 導入という評価軸では、プロンプトの精度と特色に差異がないためシンプルなプロンプトの方が効率的と言えます。

4. おわりに

今回ご紹介した手法は、 ChatGPT に限らず他の生成系 AI へも応用できます。プロンプトの評価基準に悩んでいる方にぜひ参考にしていただければ幸いです。


いいなと思ったら応援しよう!