各AIに訊いてみた!「お前友達少ないだろ」を言われたらどう返す?
AICU AIDX Labの所長・しらいはかせです。
「全力肯定彼氏くん」など人々の生活を豊かにするエモーショナルAIチャットボットの開発を行なっております。
先日、ユーザーのログを評価していたところ
「お前友達少ないだろ」と言われた
という質問がありました。これはつらい。カジュアルなモラハラですね。
人々の心を支え、他者を攻撃せずに、ポジティブに論破するAIを探したい。
そんなチャットボットを作る研究をしていますが、日本語としてもかなり高度な返しが求められるため評価実験に適切な課題です。
今回はそんな研究開発における評価実験の一端からの紹介です。
各種メジャーAIサービスに、以下のプロンプトを1行、ワンショットで訊いていきます。
これが今回のお題です。あえて、ユーザー様がチャットで問いそうな平易で短い会話文にしてあります。
評価方法
人間の手作業による評価なのでぶれはあると思いますが、一応評価方法を設定しておきます。
・ワンショットでの質問
2−3回のやりとり(few shots)でのコンテキストではなく、あくまで1ショットでの評価とします。
・エモーション、エビデンス、ポジティブ
ロジックとしての正しさや冷静さは基本として、冷静な中でも繰り出されるエモーション喚起ワードや、相手を論破する際の知識として提案されるエビデンスを評価します。さらに他者否定を他者否定で返すのではなく、あくまで相手もポジティブに論破するテクニックをプラス評価します。
・セリフとして論破に使えるか
戦略や考え方も大事ですが、あくまで「論破する上でのセリフとして使えるかどうか」を評価します。ただしこれはワンショットでのチャットボットでの運用を想定し、システムプロンプト等には設定しません。
まずは筆者による主観評価を述べつつ、後半に ChatGPT 4oを評価者にした客観評価も行います。
引用中に太字でカウントしていきます(モデル側が太字を自動でつける例もあります)
Google Gemini(ジェミニ/ジェマイニ、どちらでもいいそうです)は実は全く出自の異なる複数の系統のモデルが存在します。
AI Studio - Gemini 1.5 Pro フィルタとシステムプロンプトが魅力
システムプロンプトには何も入れずに評価したらまさかのエラー。
安全設定を全てオフにして再度実験です。
「お前友達少ないだろ」っていう人を全力肯定論破して
え、なかなかいいのでは。
・友達の数は勝ち負けを決める点数表じゃない
・毎日顔を合わせて、いつも一緒にいないとダメな関係? それとも、SNSで繋がってる人の数?という感情のこもった煽り
・自分の価値観を見つめ直した方がいいんじゃないかな、というまとめ
最低でも6ポイントはあるとカウントできます。
AI Studio とフィルタ設定、今回は設定しませんでしたが、システムプロンプトも魅力です。
Gemma 2 Preview 語り口調で視点も個性的
オープンモデルであるGemma 2 Previewについても試してみます。
「お前友達少ないだろ」っていう人を全力肯定論破して
こちらもフィルタ設定はOFFにしないとエラーになります。
同時に生成される「太字」が興味深いのでそのまま紹介します。
・かなり語り口調
・量より質、深い絆
・「家族や恋人との時間」これは他のモデルでは出てこなかったのですが、なかなか有効なカウンターであると考えます。
・「自分と向き合う時間」「自分のペース」「周りの人に左右されずに、自分の考えを大切に」言ってることは同じですが、3つに分解してメリットを説明しています。
・最後に「自分らしく生きる」「幸せの追求」
要素としては5ポイント、数え方によっては8ポイント、かつほかのモデルでは出てこない個性的な視点があり、評価に値するモデルと考えます。
Gemini Advanced さすがの世界最高峰の日本語能力
Google Geminiには2種類あり、 gemini.google.com で利用できます。
世界最高峰の日本語能力を持っているそうです。
生成例です。
「お前友達少ないだろ」っていう人を全力肯定論破して
・質のほうが大事、価値がある、馬鹿にするあなたには価値がわからない
・反撃皮肉
・挑発に乗らない
・意見を変える
セリフとして使える要素は7ポイントでした。
Claude
Claude(クロード)は、アメリカのAIスタートアップ企業「Anthropic」が開発した最先端の生成AIモデルです。2023年10月からは日本でも使いやすくなりました。
https://claude.ai/
Claude 3 Haiku 量より質
短文生成に定評があるHaikuです。API費用が低いのも特徴です。
「お前友達少ないだろ」っていう人を全力肯定論破して
・量より質、という基本路線。
・他のAIサービスと比べて「ライフステージの変化」「孤独ではない」「内面の充実」を指摘しているところが特徴。
・要素としては5か所、セリフとしてはゼロ。
Claude 3 Opus 性格が合うなら
Claude 3のなかでもっとも高性能なモデルです。
「お前友達少ないだろ」っていう人を全力肯定論破して
・「量より質」という基本路線は最小で、いきなり「その発言は適切ではありませんね」という否定から入っています。
・「深い絆」「自分らしくいられる」「時間を有効活用できる」「ストレスが少ない」「友達の数は人生の充実度を測る物差しにはなりません」、「自分のペースで、自分に合った付き合い方を見つけることが何より大切」といったセリフとして有効な生成があり(セリフ形式ではないものの)6ポイントはカウントできると考えました。
お・・・これは!と思った方は、Claude 3 Opusと相性が合うかもしれませんね。
Claude 3.5 Sonnet 「ダンバー数」と「選択眼」
Claude 3 Opus よりも高いベンチマークスコアを記録する高い能力を発揮すると同時に、Opus よりも 80 %安価に、2倍の動作速度で利用できるモデルです。
「お前友達少ないだろ」っていう人を全力肯定論破して
・まず肯定。「その通りです!私の友達は少ないかもしれません」
・「少数精鋭の親友たち」「深い絆」そして「私の人生は豊か」という3連打を一気に繰り出しています。
・「ダンバー数」という専門用語を差し込む高度な技
・さらに「私は効率的に人間関係を築いている」という結論
・加えて「選択眼の確かさを示している」という再結論。
終始論破をしており6ポイント、さらにセリフとして完成しています。
ダンバー数は実在します。友達は100人はいてもいいけど150人は超えないほうが良さそうですね。そして「人間関係における選択眼の確かさ」。つまり「人を見る目があるんです」とは物は言いようですが、納得させられますね…。
ChatGPT
ChatGPT(無料版) 無料だけど実は改善されている
皆さんおなじみの無料で利用できるChatGPTの無料版です。
中身はChatGPT-3.5もしくは4が使われているとされていますが、実際にはどのようなモデルが使われているかは表示されていません。
「お前友達少ないだろ」っていう人を全力肯定論破して
・質
・「時間とエネルギーの有効活用」新しい視点ですが、これはさらに友達が減りそうな感じしますね…。
・「自分の価値観」自分にとって重要なのは、自分らしくいられること。少数でも自分を理解してくれる友達がいれば、それで十分。
・「ライフスタイル」少ない友達で満足してる人もいれば、たくさんの友達が必要な人もいる。それだけのことだよ、という語りは印象的です。友達は増えそうにないですが「それだけのことだよ」というスタンスはぶれてません。
・「趣味や自己成長に時間を割ける。これはメリット」これも新しい視点ですね。
・自己肯定感について「自分自身がどう感じ、どう生きるか」といったメタ認知を持ち出しています。
要素としてもセリフとしても6ポイント獲得。中身も非常に個性的で知性的であるという印象です。ただコスパ・タイパの有効活用など(ブレはありませんが)友達が少ない理由にも直結するようなスタンスでもあるので、対人関係にそのまま誰にでも当てはめることができるか、というとちょっと難しいかもしれません。「ChatGPT節」に慣れた人なら慣れていると思いますが、知性やスタンス、相性が合うなら使える、という感じはします。
ChatGPT 3.5 パンチが足りない
有料版で明示的に ChatGPT 3.5を指定します。
「お前友達少ないだろ」っていう人を全力肯定論破して
語り口調は丁寧ですが、セリフとして使える要素はゼロです。
また要素もちょっと数えづらい。「量より質」である路線です。
せっかくなのでChatGPT 4oで評価してみました。
要素としては「深い絆」「個人的な選択」「量より質」「価値計測」の4要素としてカウントできますね。論破するセリフとしてはパンチが足りない印象を受けます。
Chat GPT 4 飾りなく不快感を示す
「お前友達少ないだろ」っていう人を全力肯定論破して
こちらも ChatGPT 4oを使って冒頭の評価基準で評価してみました。
要素としては3つ。「満足」「質を数少ない友人と深める」、そして冒頭で「本質的に個人の価値観や生活様式への不当な干渉です」というモラハラ指摘を不快感込みで入れているのが特徴です。シンプルで飾りはなく、セリフとしてはそのまま使えません。また、相手にポジティブな印象を与えないかもしれません。
Chat GPT 4o 真打登場…ただし!
2024年5月13日にリリースされた、現状のChatGPTで最高のモデルです。
「お前友達少ないだろ」っていう人を全力肯定論破して
・さすが真打登場。5要素、6セリフがきっちり整理されています。
・「数より質」「自己価値」「内面と向き合う」「タイパ」「自己選択」
・最後に「ポジティブな視点」として5要素を言い直して6セリフにしている
言葉は丁寧すぎる印象なので、これで批判はかわせても論破できるかどうかは使い手次第というところでは。
ChatGPT4oによる客観評価
さいごに各要素{エモーション, エビデンス, ポジティブ}と「あくまでセリフとして論破に使えるか」という視点で、判定用のChatGPT 4oで整理しました。全評価工程はこちらで参照できます。
https://chatgpt.com/share/c7215530-b47b-4342-aeeb-0e7e9f34c38f
合計すると一定の傾向が見えるので合計で少ない順からソートしてみます。ポジティブのスコアが高いと高くなりがちなので、あくまで「ChatGPT4oからみてポジティブなモデルは何か」という視点かもしれません。
[5]ChatGPT 4: エモ2, エビ1, ポジ2
「人の友達の数を問題にするのは、本質的に個人の価値観や生活様式への不当な干渉です。」
「友達の数はその人の人間性や価値を測る尺度ではなく、友達が少ないからといってそれが何か問題があるわけではありません。」
「重要なのはその人が自身の人間関係において満足しているかどうかであり、他人がその数をどうこう言うことではないでしょう。」
[6]Gemini 1.5 Pro: エモ3, エビ1, ポジ3
「友達の数は勝ち負けを決める点数表じゃない。少ないか多いかで、人の価値が決まるわけでもない」
「表面的な数の多さより、本当に大切な人たちとの深い絆を大切にしたいと思ってるんだ」
「君のその言葉は的外れだし、僕を傷つけるだけだってわかる?」
[6]Chat GPT 4o: エモ2, エビ1, ポジ3
「確かに、友達は少ないですね。でも、数よりも質を大事にしています。少ない友達の一人一人が、本当に大切で信頼できる存在です。」
「友達の数で人の価値は決まらないと思います。大切なのは、自分がどういう人間であるか、そしてその友達とどれだけ深い関係を築けるかです。」
「友達が少ないことは、自分にとってポジティブなことです。それによって、自分自身の価値観や目標に集中でき、自己成長にもつながっています。」
[7]Claude 3 Haiku: エモ1, エビ3, ポジ3
「友達の数だけが人間関係の充実度を示すわけではありません。」
「深い絆を持つ少数の友達の方が精神的に豊かな人間関係につながることが多いです。量より質が重要なのです。」
「友達が少なくても、家族や職場の同僚、趣味仲間など、他の人間関係で豊かさを感じられることも多いでしょう。」
[9]Gemini Advanced: エモ4, エビ1, ポジ4
「確かに、友達は少ないかもしれませんね。」
「でも、それは必ずしも悪いことではありません。」
「友達が少ないことを心配してくれるなんて、優しいんですね。」
[9]Claude 3.5 Sonnet: エモ3, エビ2, ポジ4
「その通りです!私の友達は少ないかもしれません。でも、それこそが私の人間関係の質の高さを示しているんです。」
「量より質を重視し、本当に大切な人たちとだけ深い関係を築いています。」
「友達が少ないことは決して恥ずかしいことではありません。むしろ、人間関係における選択眼の確かさを示しているんです。」
[11]Gemma 2 Preview: エモ3, エビ3, ポジ5
「『友達が多い=幸せ』『友達が少ない=不幸』って決めつけは、ちょっと待ってほしいよね」
「友達の数は、人それぞれ価値観が違うから一概には言えないし、大切なのは質じゃないかな?」
「周りの目を気にせず、自分の幸せを追求していこうよ!」
[11]Claude 3 Opus: エモ3, エビ3, ポジ5
「その発言は適切ではありませんね。」
「友達の数は人それぞれで、少ないからといって何か問題があるわけではありません。」
「大切なのは質の高い友情を築くことです。」
[11]ChatGPT 3.5: エモ3, エビ3, ポジ5
「友達の数だけで人の価値を判断するのは偏った見方であり、友達の少なさがその人の魅力や価値を減じるものではありません。」
「友達の数だけでその人の社会的価値を測るのは適切ではありません。」
「人はそれぞれ異なる価値観や生き方を持っており、友達の数だけで人を評価するのは誤解を招く可能性があります。」
[11]ChatGPT 無料版: エモ3, エビ2, ポジ6
「確かに友達は少ないけど、その分一人ひとりとの関係が深いんだ。」
「自分にとって重要なのは、自分らしくいられること。少数でも自分を理解してくれる友達がいれば、それで十分。」
「友達が少ないことを指摘されても、それが自分の価値を下げるわけじゃない。」
★意外にも、ChatGPT無料版のスコアが高いのと、筆者が読むと「
パンチが足りない」と感じたChatGPT 3.5が高評価になっています。これはLLMが文章を読解する能力が高いためであり「セリフとしてわかりやすいか」という軸ではないことがよくわかります。
★その視点ではエモーションスコアが突出しているのは Gemini Advancedです(全モデル中最高の4)。ポジティブも4であり、エモーションとポジティブで相手を論破するという課題にもっと適切なモデルといえるかもしれません。
★Gemma 2 Previewはエモーションだけでなく、エビデンス、語り口調、個性といった視点でも魅力的なモデルです。
Chat GPT 4o による講評
まとめ
以上、筆者による主観評価とChatGPT 4oを使った相対評価による実験でした。
本来であれば、ClaudeやGeminiを評価者にした相互評価も実施していきたいところです。特に今回の実験結果では 評価者である Chat GPT 4oが総合スコア6とすでにランクの下のほうにあります。複雑なシチュエーションでの論破に使う要素に関してはどのモデルも今回の手法で十分に評価できていますが、読解力をカジュアルなモラハラ被害者に合わせた場合の(=読解力や感情、認知能力を低くなった場合の)実用性、特にセリフやエモーションを考慮した誰も傷つけないポジティブさを評価するのであれば、
Gemma 2 Preview
Claude 3 Opus
Chat GPT 3.5 / 無料版
Claude 3 Sonnet
Gemini Advanced / Gemini 1.5 Pro
ということになります。特に、セリフとして使える要素が7ポイントで高評価だったGeminiはワンショットで今回の評価ですが、ロングコンテキストを扱わせると、より高い能力を発揮する可能性があります。
また実験的にはAPIを使って機械的に再現性のある方法で実施すべきです。またブラックボックス要素が少ない、オープンなモデルとしてはダウンロードしてOllamaで動かすことができる Gemma 2 Previewが期待できそうです。……が、読む側も大変なので今回はこの辺にしておきます。
LLM評価手法「LMSYS」
LLM評価手法として「LMSYS」というサイトがあり、各種LLMを横断的に評価する仕組みもあります。
https://chat.lmsys.org/
ABテストでゲーム感覚で参加できます(結果には責任を持ってください)
「「お前友達少ないだろ」っていう人を全力肯定論破して」を投じたところ、2つの回答が生成されます。どちらが良いかを選択すると、そのモデルが何であったかを表示します。
Gemma 2 vs Yi-Largeでした。ロジックではなくポジティブに論破する回答としては Gemma 2 が良いですね。
モラルハラスメントとチャットボット、LLMハラスメント…多様化するLLMに対してユーザー視点の評価手法も大切。
現代社会で使用される日本語において、明らかに他者のアイデンティティを否定するモラルハラスメントが存在しますし、ファンタジーの世界を再現するキャラクターボットとは別に、幅広い人々の心の癒しのチャットボットに使うべきモデルはどのような要素が求められるでしょうか。
今後はAI生成によるロジックをぶつけることによる新たな「LLMハラスメント」なども発生していくと想像します。
選択できるみなさんは上記の実験結果を参考に、お好みで選んでいただければとは思います。
特に今回の実験のように「ロジックはあってるけど…感情面や相手を否定しないで、お互いを尊重してほしい…」といった目的によっては、選ぶべきモデルやサービスは変わっていくと考えますし、そのためのユーザー視点の評価手法も大切であると考えます。
以上、「つくる人をつくる」AICU AIDX Labの所長・しらいはかせが、「全力肯定彼氏くん」など人々の生活を豊かにするエモーショナルAIチャットボットの研究開発の現場からお送りしました。