みなさん、こんにちは。
先日の英語文献ゼミで読んだ論文を紹介します。
論文タイトル: Exploring ChatGPT as a writing assessment tool
ジャーナル: Innovations in Education and Teaching International
出版年: 2024年
著者: Junifer Leal Bucol, Napattanissa Sangkawong
概要
本研究は、タイの大学における英語の授業において、ChatGPTを自動ライティング評価(Automated Writing Evaluation ; AWE)ツールとして活用する可能性を検証しました。ChatGPTを利用し、事前に用意されたプロンプトとルーブリックに基づいて学生のライティングを採点し、人間の評価者と比較しました。さらに、評価プロセスにおける教師の振り返りを質的に分析し、評価ツールとしてのChatGPTの強みと弱みを明らかにしています。
1. イントロダクション
ライティングは言語習得における重要なプロセスですが、学生のライティング評価とフィードバックは教育者にとって長年の課題です。クラスの人数の拡大や時間的制約の中で、客観的で効率的なライティング評価システムの必要性が高まっています。従来の教師による評価は教師の主観が入りやすく、評価にばらつきが生じる可能性があるため、標準化されたルーブリックやAWEの導入が、評価の一貫性、公平性、効率性を高める手段として注目されています。
AWEの評価: 利点と課題
AWEの利点としては、学生への即時フィードバックと採点、反復学習の促進、利便性と効率性、学生のライティングや修正へのエンゲージメントの促進、ライティングの正確性向上などが挙げられます。しかし、一部のAWEソフトウェアは、人間の評価者の持つ微妙な採点能力や、批判的思考、創造性などを完全に再現することはできません。評価の正確性に疑問が呈されるケースや、コスト面などの導入に関する課題もあります。AWE は教師によるフィードバックと併用することで効果を最大化でき、代替手段としての使用は避けるべきという主張もあります。
リサーチギャップとしては、下記の2点が挙げられます。
• AWE に関する研究は多数存在するが ChatGPT を AWE として検証した実証研究は少ないこと。
• カスタマイズされたルーブリックを用いて人間評価と比較する研究はほとんど存在しないこと。
2. 研究課題
本研究はChatGPTと人間評価者による学生ライティング評価能力の比較検証と、ChatGPTを評価ツールとして使用する際の強みと課題を特定するために以下の研究課題を設定しました:
RQ1: ChatGPT は、事前に設計された分析的ルーブリックを用いて短いエッセイを人間の評価者と比較してどの程度正確に評価できるか。
RQ2: ChatGPT をライティング評価ツールとして使用する際の⻑所と短所は何か?
3. 方法論
本研究は、量的および質的アプローチを組み合わせた探索的方法論を採用しています。量的データは、ChatGPTと人間評価者(タイ大学に勤務するEFL講師10名)が評価した学生10名(CEFR A2-B1)のエッセイ(テーマ:「私が好きな場所」、語数90-250語)のスコアから得られました。教員は以下の2 グループに分けられました:
① 第1グループ(ChatGPTを使用して評価する5名)
② 第2グループ(人間の評価者5名)
両者はカスタマイズされた5つの評価基準(課題達成、文法使用、語彙選択、論理性、メカニクス)を含むルーブリックに基づいて評価を行いました。スコアはSPSSを用いて信頼性検定と相関分析が実施されました。質的データとして、ChatGPTを用いた評価プロセス中に参加者である教員が観察を記録しました。
4. 結果と考察
ChatGPTと人間評価者から得られたスコアは一部を除きばらつきが見られましたが、ChatGPTが生成したスコアは相対的に高く、一貫性のある傾向を示しました。
データセット全体の内部一貫性を評価するためCronbachのアルファ係数を用いた分析では、ChatGPTによるスコアがα = .980、人間評価者によるスコアがα = .926、全体でα = .954と、いずれも高い値を示し、評価者間の総合的なスコアリングに一貫性と信頼性があることが示唆されました。
クラス内相関係数(ICC)分析では、p値が.001未満という結果が得られ、統計的に有意かつ一貫した評価者間の関係性が裏付けられました。ピアソンの相関分析でも、特にChatGPTによって生成されたスコア間に強い正の相関が示されました。特筆すべきは、「ChatGPT同士」のスコア一致率が最も高く、次いで「ChatGPTと人間」、「人間同士」の一致率の順であった点です。
教員の観察による質的データからは、評価プロセスにおけるChatGPTの課題も明らかになりました。
例えば、
・ルーブリックに基づいた一貫性のある評価が可能であるが、細かな要素の見落としがある。
・テキスト理解において、主題や論点の把握に優れるが複合的内容の理解には課題がある。
・訂正フィードバックでは誤りや改善提案を提供するが、誤りの根本的な原因への言及が乏しい。
・迅速な評価と継続的なフィードバックが可能であるが、定期的なモニタリングや調整が必要であること。などが挙げられました。
本研究の結果は、ChatGPTによる評価にはスコアのばらつきは見られたものの、高い内部一貫性と評価者間の有意な相関が示され、ChatGPTが信頼できる評価ツールとなり得る可能性を示しています。スケーラビリティ(拡張性)によって大量のエッセイを効率的に採点できるという利点も確認されました。ただし、AIがスコアに対して寛容な傾向を示す場合があるため、教師は注意して技術を活用する必要があります。また、一部のルーブリックの基準の具体的な要件を無視する傾向や、識別される誤りに関しての原因に関する情報が乏しい点も課題として挙げられます。
5. 結論
ChatGPTは、AWEとしてライティングを評価する能力を示し、効率性、一貫性、迅速性、スケーラビリティなどの点で有用であると考えられます。一方で、ChatGPTの課題も認識する必要があります。エッセイ内の特定の情報を解釈する際の誤り、複雑で創造的な文体を理解する能力が十分でないこと、提供されるコメントがライティングすべての側面を網羅しないことなどが挙げられます。本研究の限界点としては、少数の評価者と作文サンプルを用い、短いエッセイの評価に限定されている点です。今後はより複雑な課題を対象としたAI と人間の協働評価に関する検討が必要です。
自動評価と人間によるレビューを組み合わせたアプローチは、特に詳細な評価が求められるライティングにおいて、評価の正確性を高めることができます。ChatGPTと人間の専門性を統合することで、評価プロセスを効果的に補強し、学生のライティング力向上に有益な支援を提供することが可能です。
6. 感想
本研究はChatGPT を AWE ツールとして活用する可能性を探る実践的な試みであり、特別な技術的設備を必要とせず、教員個人レベルでの実践が可能であると考えます。分析の結果から人間と AI による評価の一貫性が確認されており、採点の効率化や信頼性向上という点からも有用性が示唆されています。 一方で、本研究にはいくつかの限界があると考えます。
第一に、焦点が採点者側の効率性や整合性のみに置かれており、評価を学習者にどのように還元し、その後の学習に活用していくかという視点が欠如しています。また、カスタマイズされたルーブリックが使用されていますが、公開されている一部の評価基準の中には語数に基づく定量的な要素(例:“Task Response”において、100 語未満のエッセイ=0.5 点、200 語以上=2 点)が含まれています。このような基準ではエッセイの質的要素が検討されることなくAI が語数に基づいてスコアを判断する可能性があります。AWE におけるルーブリックの使用に際しては、その妥当性と適用可能性を十分に検証する必要があると考えます。
さらに、AI と人間の評価者の一致率はルーブリックの「総合得点」のみに基づいて分析されており、どの観点 (例:文法、論理性)において不一致が生じたのかについて明示されていません。AWE の質的向上を目指す上で、観点別のさらなる分析が必要であると考えます。
文責: 田中早代