皆さん、こんにちは。研究生の李です。
先日の英語文献ゼミで読んだ論文について、その内容と私の感想を交えて紹介したいと思います。
論文タイトル:A Chain-of-Thought Prompting Approach with LLMs for Evaluating Students’ Formative Assessment Responses in Science
出版年: 2024
著者名: Clayton Cohn, Nicole Hutchins, Tuan Le, Gautam Biswas
論文誌: In Proceedings of the AAAI Conference on Artificial Intelligence
巻号:第38巻
ページ :23182-23190
近年、STEM教育の発展に伴い、生徒の科学概念の理解や問題解決能力を適切に評価することの重要性が高まっています。特に、形成的評価(Formative Assessment)は、生徒の学習状況を把握し、適切なタイミングでフィードバックを提供する手段として有効ですが、教師にとっては採点の負担が大きく、誤った評価が生じるリスクもあります。一方、近年注目を集めている大規模言語モデル(Large Language Models, LLM)は、自然言語処理の技術を通じて、自動採点やフィードバック生成への応用が期待されています。しかし、特に科学分野における短文自由記述回答の評価や、採点理由の説明生成に関する研究は、依然として限定的です。
本研究では、中学校の地球科学の授業における形成的評価を対象に、GPT-4を用いた連鎖思考プロンプト(Chain-of-Thought Prompting, CoT)とアクティブラーニング手法を組み合わせ、短文自由記述回答に対する自動採点およびフィードバック生成の方法を開発・評価しました。
形成的評価は、生徒の学習プロセスを支援し、教師にとっても生徒の理解状況を把握するための重要な機会です。しかし、自由記述型の短文に対する採点は時間と労力を要し、現場での実践が難しいという課題があります。自然言語処理の分野では自動採点に関する研究が進展していますが、対象となる課題は数学や計算機科学など構造化された形式に偏っており、科学教育における多様な表現を伴う自由記述形式の回答には十分に対応できていません。そのうえ、学習データの不足やクラスの不均衡といった問題も、自動化の妨げとなっています。
本研究では、科学的概念や推論を評価する自由記述型の短文回答に対して、LLMを用いた採点と、学習目標に即した理由付けの生成を試みました。また、データ不足の課題を克服するため、アクティブラーニングの枠組みを導入し、効果的なモデル改善を図りました。
研究対象として、アメリカの公立中学校に通う270名の生徒を対象に、地球科学の3週間の単元学習後に「学校内でどのように水の流出を減らすか」という再設計課題に取り組ませました。設問は以下の3つで構成され、それぞれに明確な評価基準(ルーブリック)が設定されました。
1. 「図に示された矢印の大きさの意味を答えること」
2. 「図が科学的にうまく説明している点を2つ挙げること」
3. 「図に含まれる誤りを2つ指摘すること」
270名分の回答はすべて収集され、教師によってルーブリックに基づき採点されました。
本研究で用いたのは、当時最新のLLMであるGPT-4です。評価プロンプトには、代表的な生徒の解答4〜5例、評価基準、得点根拠が含まれており、GPT-4が減点・加点の理由を推論する構成となっています。また、アクティブラーニングの枠組みでは、モデルが誤判断しやすい事例、たとえば推論の誤りや評価基準の誤適用を人間が分析し、それを含む新たなプロンプトを追加して再学習に活用しました。これにより、限られたラベル付きデータでも効率的にモデル精度の向上を図ることができます。
データセットは、訓練用80%、テスト用20%に分割して使用しました。訓練データで初期評価を行ったところ、LLMと人間の採点結果に顕著な差異が見られる事例が存在し、それらを「LLMの評価ミス」として扱いました。たとえば、第3問において「すべての矢印を変えるべきだ」という誤答に対してモデルが満点を与えてしまうケースがありました。このような誤りに対し、「runoffの矢印のみを変えるべきである」という正答例を強調したプロンプトを追加することで、モデルの推論精度を段階的に改善していきました。このプロセスは、テストデータにおいて性能の向上が確認されなくなる、または逆に精度が低下するまで繰り返され、最終的に最適なプロンプト設計が完成しました。その結果、Chain of Thought(CoT)とアクティブラーニングの併用により、全体的な評価精度が向上し、とくに概念理解に関する項目において顕著な改善が確認されました。
一方で、本研究ではモデルが特定の語句や過度に詳細な理由付けに反応しすぎることでオーバーフィッティングが発生する課題も明らかとなりました。また、LLMによる評価は、設問やルーブリックの不明瞭さを発見する手がかりにもなり、教育現場における課題設計の改善につながる可能性も示されました。さらに、モデルが採点結果を提示する際に、十分な理由を提示しないケースも散見されており、今後の改善に向けた課題といえます。
本研究は、GPT-4およびChain of Thought(CoT)を活用することで、中学校科学教育における形成的評価の自動化に対し、有望な成果を示しました。この手法を導入することで、生徒の理解度把握だけでなく、次の学習ステップを促す有益なフィードバックの提供も可能になると考えられます。今後は、教師との協働をさらに深め、LLMを教育現場に適応させるための実証研究を継続していく必要があります。また、プライバシーやバイアス、モデルの幻覚(ハルシネーション)といったLLM固有の倫理的課題については、引き続き慎重な検討が求められます。加えて、CoTによる推論がモデルの判断にどのように影響を及ぼしているかについては、現時点では明確な知見が得られておらず、今後の研究課題とされます。また、評価項目が単純な場合には、LLMよりもルールベース手法の方が効果的である可能性もあり、用途に応じた手法選択の重要性が改めて示唆されました。
以下は、本論文に対する私の感想です。現在、多くの研究者は既存のLLM(大規模言語モデル)のAPIをそのまま利用することが多く、モデルをゼロから設計したり、ファインチューニングを行ったりする研究はあまり行われていません。そうした背景の中で、本論文は前回紹介したChain-of-Thought(CoT)推論プロンプトとアクティブラーニング(Active Learning)の手法を組み合わせ、科学教育分野における学生の自由記述型短答問題へのLLMの評価精度と説明能力を大幅に向上させている点が特筆すべきです。このような方法は、新規性が高く、教育現場での実用的価値も非常に高いため、推薦する価値があると思います。また、本研究は具体的な実験環境として、実際の中学校における地球科学カリキュラム(SPICE)を採用しており、研究内容が現場の教育実践と密接に連動しています。このため、その研究結果は教育現場の教師や教育支援技術の開発者にとっても参考価値が高く、授業における評価活動や学生への個別フィードバックの提供に役立つものです。さらに、本論文ではアクティブラーニングの手法を通じて、教育データに頻繁に見られるデータ不足やデータ分布の不均衡という問題にも効果的に対応しています。この手法は他の教育評価の場面でも広く応用可能であり、教育分野における人工知能技術のより深い応用と幅広い展開を促進することが期待できます。