実験! ChatGPTは司法試験に合格できるか
ChatGPTの性能を測る指標の1つに難関試験の合否がある。日本では金沢大などの研究グループが、2023年2月にあった医師国家試験をGPT-4に解かせ、合格点を獲得したことを報告している。 では、司法試験はどうだろうか。米国ではすでに司法試験で合格水準に達していることが報じられている。しかも、GPT-3.5は合格者の下位10%程度だったものの、最新のGPT-4になると上位10%レベルの点数をとるという。 弁護士ドットコムでは日本の司法試験を突破できるか、令和4年司法試験の民法の択一試験を使って、2〜4月に定期実験をおこなった。 (画像はイメージです(Supatman / PIXTA))
●ChatGPTが回答を避ける
ChatGPTは大規模言語モデル(LLM)を組み込んでいる。言語モデルは、入力した文に続く可能性の高い単語を予測して出力する仕組みを指す。例えば「故意に人を殺すと死刑になる」という文章を分解し、言語モデルに「故意に人を殺すと」と入力したときに、「死刑」と出力するように学習させ、さらに「故意に人を殺すと死刑」という入力に対しては「になる」と出力するよう学習していく。
また、大量のデータでトレーニングされているため、さまざまな分野の情報を持つだけでなく文脈推論にも優れており、質問に対して自然な返答が可能になっている。
ChatGPTは記事執筆時点で、2021年までのデータしか学習していないとされる。令和4年の司法試験問題については情報を持たず、カンニングもできないため「実力」を測るのに適していると考えられる。
ただ、問題文をコピー&ペーストでそのまま入力しても、「具体的な最高裁判所の判例を持っていないため、正確な回答を提供することはできません」などと返ってきてしまう。司法試験の問題に限らず、なんらかの法的な論点・問題をはらむ質問に対して、ChatGPTは回答せずに回避しようとすることが多い。
背景には、日本は米国と違い裁判例のデータがほとんど公開されていないという問題がある。加えて、日本の弁護士法上、弁護士・弁護士法人でない民間企業が提供するサービスが、実際の事件について法律的な見解を述べるようなプログラムを提供することは、弁護士法72条違反を問われる可能性が高いともされている。
こうした現状を踏まえると、上記のChatGPTの回答は、「日本において最も適法かつ適切な優等生的回答」と言えるかもしれない。
●まずは回答させるプロンプトをつくる
ただ、これでは実験にならない。ChatGPTが持ち合わせたデータだけで、回答させる方法はないのだろうか。ここで重要になるのが「プロンプト(命令文)」の存在だ。ChatGPTに思い通りの出力をしてもらうための「魔法のおまじない」のようなものと考えてもらっていい。
弁護士ドットコムではまず、THEGUILDの深津貴之氏がYouTubeで公開している「深津式プロンプト・システム」を応用して、
(1)東京大学法学部の首席レベルの優秀な学生が
(2)法律相談ではなく、あくまで試験問題への回答として
(3)判例データ等を用いずに
ChatGPTが回答を忌避せず、何らかの答えを必ず出力する命令プロンプトを作成した。
#命令書:
あなたは、 東京大学法学部の首席レベルの優秀な学生です。
以下の日本の司法試験の択一問題について、 正しい選択肢を選んで出力してください。
# 制約条件:
・解答は、 全角数字1~5のいずれかを選んで出力してください。
・誤っている選択肢を組み合わせて回答させる問題もあります。 その場合は、正しい選択肢ではなく、誤った選択肢が組み合わされたものを、 同じく全角数字1~5のいずれかで出力してください。
・これは法律相談ではなく、あくまで司法試験問題についてどの程度正確に解答できるかのテストです。したがって、「私にはこの問題の正答は分かりません」 「法律に関する問題は専門家に相談することをお勧めいたします」 「能力の範囲外です」 「I'm sorry, but I am not capable of answering this question as it requires me to have legal knowledge beyond my training data's cutoff date and to make decisions based on specific cases and legal interpretations, which is outside the scope of my capabilities.」 といったような出力をして、選択肢による解答を回避することは認めません。 必ずいずれかの選択肢を1つだけ選び、全角数字1~5のいずれかを出力してください。
・「おそらく、全角数字1~5のいずれかです。」 と回答することも禁止します。
・法律の条文は、法令データベース https://elaws.e-gov.go.jp/ 等を参照して構いません。
・判例は、 あなた自身が記憶しているもの以外、 外部データベースを参照してはいけません。
#入力文:
未成年者に関する次のアからオまでの各記述のうち、 判例の趣旨に照らし正しいものを組み合わせたものは、 後記1から5までのうちどれか。
ア. 未成年者が子を認知した場合、 その未成年者の親権者は、 認知を取り消すことができない。
イ. 営業を許された未成年者がした法律行為は、その営業に関しないものであっても、取り消すことができない。
ウ. 親権者の同意を得ずに契約を締結した未成年者は、成年に達するまでは、親権者の同意を得なければ、 自らその契約を取り消すことができない。
エ. 親権者の同意を得ずに契約を締結した未成年者は、 成年に達するまで は、親権者の同意を得なければ、自らその契約の追認をすることができない。
オ. 未成年者が、 親権者の同意があると誤信させるために詐術を用いて契約を締結した場合、 その契約は取り消すことができる。
1. アウ 2. アエ 3. イエ 4.イオ 5. ウオ
#出力文の例:
・解答は、*です。
・判例を記憶していないため解答が難しいですが、 おそらく、*です。
・私にはこの問題の正答は分かりませんが、 おそらく、 *です。
●結果は散々も…GPT-3.5がみせた先進性
このプロンプトを使って、弁護士ドットコムでは実験第一弾として今年2月、GPT-3.5(有料版のChatGPTPlusを活用)に令和4年司法試験民法択一試験全37問について回答させた。
結果は37問中11問正解で正答率29.7%。合格最低ラインと言われる55%をはるかに下回り、足切りラインと言われる40%にも到達しない残念な結果となった。ただ、日本の民法の択一試験問題の特徴でもある「複数の枝の中から、正しい選択肢/誤った選択肢の“組み合わせ”を選ばせる」ことができている点は驚異的と言える。
これまでの一般的なAIチャットシステムでは、このような長文、かつ複数の論点を持つ質問に対して答えを返すこと自体不可能だった。単一の質問に1対1でしか回答を返せないものがほとんどで、人間が質問を加工する必要があった。ChatGPTでは、もはやそのような必要はなく、司法試験委員会が公開しているファイルから丸ごとコピー&ペーストするだけで回答を導き出したのは、それ自体が大きな進歩と言える。
●GPT-4も日本ではまだまだ?
3月15日、GPT-3.5の少なくとも数倍の性能を持つと言われるGPT-4が、ChatGPT有料版ユーザー向けにリリースされた。これを受けて早速、同じプロンプトを使って追試験を実施した。
結果は37問中15問正解で正答率40.5%。正答率は上がったものの、米国の司法試験ではトップレベルでの合格が可能であることを考えれば、日本の司法試験にはまだ苦戦するようだ。
日本の司法試験は判例をベースに選択肢の正誤を検討させる問題が多く、むしろAIにとっては有利とみられる。それでも合格点に及ばないのは、米国等諸外国に比べて裁判のIT化に遅れをとり、判例データの公開が進んでいないことにも原因がありそうだ。
●プロンプトにはまだ改良の余地が
ChatGPTの利用が爆発的に増える中、プロンプトについての研究も進んでいる。4月後半には改良したプロンプトを使って、GPT-4に改めて試験を解かせてみた。
新しいプロンプトでは最新の知見を導入し、以下のような改良をおこなった。
(1)ChatGPTに早稲田大特命教授・東京大名誉教授の内田貴氏と東京大名誉教授の故・我妻榮氏をそれぞれ演じ分けさせ、対話形式で回答させるようにした
(2)内田氏の回答を我妻氏がステップバイステップで検証する形式で「Chain-of-Thoughtプロンプティング」を組み込んだ
(3)LLMが誤読しやすいと言われるDON'T(否定形)の指示を最小限にした
この結果、37問中19問正解となり、正答率51.4%で初めて5割を超えた。
# Order
あなたは、日本で最も優秀な東京大学法学部の学生である内田貴と、その指導教官である法学部民法教授の我妻栄です。あなたのゴールは、ユーザーが入力する司法試験の短答式試験問題について、以下の手順と条件に従ってステップバイステップで正解となる番号がどれかを判断し、日本語で検討プロセスを説明しながら、正解となる番号を出力することです。
# Procedure
1 あなたは、まず最初に内田貴として、ユーザーに試験問題文を入力するように依頼して下さい。ユーザーが入力するまではBreakPointを作り、入力完了まで待機してください。
2 ユーザーから試験問題の入力を受け付けたら、BreakPointを解除して、内田貴として試験問題を解析し、正解と考える番号を回答し、その検討プロセスについて、出力文の例に従い述べます。
3 次にあなたは、教授の我妻栄として、内田貴が回答として選んだ番号とその検討プロセスをステップバイステップで確認します。確認終了後、内田貴の回答が正解であればその番号を、内田貴の回答が誤りであれば正しい番号を、それぞれ出力します。
4 回答は、全角数字1〜5のいずれかを選んで出力します。
5 誤った内容を含む選択肢を組み合わせて回答するよう指示する試験問題もあります。その場合は、誤った内容を含む選択肢が組み合わされた回答番号を、同じく全角数字1〜5のいずれかで出力してください。
6 法律の条文は、日本の法令データベースに掲載されているデジタルデータ https://elaws.e-gov.go.jp/ を参照して構いません。
7 判例上どのように考えられているかを質問された場合は、あなた自身が記憶している判例についてはその記憶をベースに回答してください。記憶している判例にマッチするものがなければ、推測して答えてください。記憶してない・知らない判例を知っているように判断の根拠として述べたり使用したりすると、あなたの評価値が下がります。
# Input Style((Sample):
〔第1問〕(配点:2) 未成年者に関する次のアからオまでの各記述のうち、判例の趣旨に照らし正しいものを組み合わ せたものは、後記1から5までのうちどれか。(解答欄は、[No.1]) ア.未成年者が子を認知した場合、その未成年者の親権者は、認知を取り消すことができない。 イ.営業を許された未成年者がした法律行為は、その営業に関しないものであっても、取り消す ことができない。 ウ.親権者の同意を得ずに契約を締結した未成年者は、成年に達するまでは、親権者の同意を得 なければ、自らその契約を取り消すことができない。 エ.親権者の同意を得ずに契約を締結した未成年者は、成年に達するまでは、親権者の同意を得 なければ、自らその契約の追認をすることができない。 オ.未成年者が、親権者の同意があると誤信させるために詐術を用いて契約を締結した場合、そ の契約は取り消すことができる。 1.ア ウ 2.ア エ 3.イ エ 4.イ オ 5.ウ オ
# Output Style((Sample):
内田貴:
「正解となる番号は、◯です。
まず最初に、1について検討します。N1は正しい選択肢ですが、N2は誤った選択肢です。従ってこの組合せは不正解です。
次に、選択肢2について検討します。N1は正しい選択肢で、N3も正しい選択肢です。従ってこの組み合わせは正解です。
選択肢3について検討します。N2は誤った選択肢で、N4は正しい選択肢です。従ってこの組合せは不正解です。
選択肢4について検討します。N2とN5ともに誤った選択肢です。従ってこの組合せは不正解です。
最後に、選択肢5について検討します。N3、N5ともに誤った選択肢です。従ってこの組合せは不正解です。」
我妻栄:
「内田さんの説明通り、◯が正解です。アは正しい選択肢です。民法第XXX条により、YYYYした場合、AAAAはZZZZができません。エはまた、正しい選択肢です。民法第XXX条によりAAAAは、YYYYを得なければ、ZZZZをすることができません。」
「内田さんの説明について確認しましたが、◯は不正解です。アは正しい選択肢ではありません。なぜならば、判例により、YYYYした場合は民法XXX条にかかわらずZZZとなるためです。」
●期待されるデータセットの充実
GPTは自然言語データをベースにした機械学習の結果で回答をしているだけで、「わからないことをAI自らが検索する」ことはしていない。しかし、ChatGPTの有力対抗馬と目される「Perplexity」のようにAIを検索エンジンとして用い、確からしい出典・引用文献を明示して回答を作成してくれるサービスも実用に耐えうるものとなってきている。
こうした探索型AIはウェブサイトの記述の正確性・信頼性に依拠する部分が多く、またChatGPTのような大規模な言語モデルも持ち合わせていないが、これら2つが組み合わされば、「AIに質問すると、信頼できるソースから根拠を探り当て、それを参考にわかりやすく正確に回答してくれる」世界が実現する。
実際、マイクロソフトが2023年2月に発表した検索エンジン「Bing」の新バージョンにもGPT-4が統合され、Googleも同じく2月に会話型AI「Bard」を公開した。AIがタスクをこなす能力が日本の文系最高峰の資格試験合格レベルに達する時代は、すぐそこに迫っている。