九州大学 山田研究室

LLMは学習者の自由記述を正しく分類できるのか?

2025年05月13日

みなさん、こんにちは。博士後期課程1年の田中です。
先日の英語文献ゼミで読んだ論文を紹介いたします。

論文タイトル: Large language models fall short in classifying learners’ open-ended responses
ジャーナル: Research Methods in Applied Linguistics
出版年: 2025年
著者: Atsushi Mizumoto, Mark Feng Teng

1. イントロダクション
大規模言語モデル(Large Language Model: LLM)は、人間のようにテキストを生成・分析できるツールとしてさまざまな分野で応用されており、応用言語学においても、自由記述やインタビューデータの分析への活用が進んでいます。近年は、LLMの高い言語処理能力が示され、分類やコーディングといった作業への導入が試みられています。一方で、文脈理解や概念間の関係性の把握には限界があり、人間との協働の必要性が指摘されています。本研究は、LLMによる自由記述回答の分類精度を人間の判断と比較し、質的研究におけるLLM活用の可能性と課題を明らかにすることを目的としています。

2. 理論的枠組み
質的研究において自由記述データを分類する際には、明確なカテゴリーの定義、慎重な訓練、人間のコーダー間の繰り返しの合意形成を通じて信頼性と妥当性を確保することが求められます。研究者はコードを割り当てる際に文脈や表現のニュアンスを考慮し、コーディングマニュアルや理論モデルに基づいて分析を進めます。本研究では、自己調整学習(SRL)のメタ認知的な側面である「計画」、「モニタリング」、「評価」の3つのプロセスを、Tengら(2022)の質問紙に基づいたカテゴリに分類しました。

3. 研究課題
本研究の研究課題は、「LLMは自由記述データをどれだけ正確に分類できるか。」です。具体的には、「計画」「モニタリング」「評価」という定義に基づく分類タスクにおいて、LLMの分類精度を人間のコーダーとの比較によって検証することを目的としています。

4. 研究方法
本研究の対象は、日本の私立大学に在籍する英語専攻の1年生143名(CEFRのB1〜B2レベル)です。学生には、「英語でエッセイを書く際、どのように取り組むか」を1文で自由記述してもらい、その回答を収集しました。回答は応用言語学の博士号を持つ2名の研究者が英訳・分類し、バックトランスレーションも実施しました。分類は、Zimmerman(2000)のSRL理論に基づく「計画」「モニタリング」「評価」の3カテゴリに沿って行いました。複数の要素が含まれる場合には、最も顕著なプロセスに基づいて分類し、意見の相違がある場合は第1著者が加わり、合意形成をしました。

LLMによる分析
本研究では、7つのLLM( GPT-4o、GPT-o1、GPT-o3mini、Llama3.3–70B、Gemini2.0-Flash、Claude3.5-Sonnet、DeepSeek-V3)を使用しました。各モデルにはAPIを通じてアクセスし、同一の分類タスクを実行させました。モデルには143名分の自由記述回答を「計画」、「モニタリング」、「評価」のいずれか一つに分類するよう指示しました。
LLMによる分類の正確性は、「単純一致率」と「Cohenのカッパ係数」で評価されました。

プロンプト設計
初めは定義のみを提示するzero-shot分類を試しましたが精度が不十分だったため、カテゴリの定義と具体例を含む構造化プロンプトを作成しました。プロンプトには以下の3点が含まれます:
① 各カテゴリの明確な定義
② 具体的な回答例
③ 出力形式の指定(カテゴリ名のみ)
この構造により、分類精度と出力の一貫性が向上しました。

5. 結果
モデル間比較
・人間のコーダーと最も高い一致率を示したのはDeepSeek-V3で一致率83.2%、κ = 0.68でした。
・次点はLlama3.3–70B(κ = 0.61)とGPT-o3mini(κ = 0.60)であり、中程度の一致を示しました。
・GPT-4o、GPT-o1、Gemini2.0-Flash、Claude3.5-Sonnetはκ = 0.37〜0.49で弱い一致と判断されました。
・オープンソースモデル(DeepSeek-V3、Llama3.3–70B)が商用モデルを上回る精度を示しました。

誤分類の傾向
主な誤分類のパターンは以下のとおりです。
① 計画とモニタリングの混同
例:「すべて書き出してから調べる」→ 本来はモニタリングに該当するが、多くのモデルが計画と分類。
② 「修正」に関する曖昧な解釈
「執筆中の修正」と「執筆後の見直し」が混同され、修正という語のみで評価と分類される傾向。
③ 構文への過剰な依存
「first… then…」などの表現があると、自動的に計画と判断されやすい。

6. 考察
本研究ではLLMが事前に定義されたカテゴリに従って、自由記述回答をどの程度正確に分類できるかを検証しました。その結果、DeepSeek-V3(κ = 0.68)やLlama3.3–70B(κ = 0.61)は中程度の一致を示しましたが、信頼性の高い分類基準とされるκ ≥ 0.8には到達しませんでした。このことから、現時点でのLLMは、自由記述のような文脈に依存する分類タスクにおいて人間と同等の判断を行うのは困難であることが明らかになりました。一方で、LLMは一貫性のある予備的な分類が可能であり、その後の人間による見直しと組み合わせることで、効率的で信頼性のある質的分析が可能になると考えられます。

LLMと人間の判断の違い
LLMと人間の分類判断の明確な違いとしては、人間は文脈や常識を踏まえて学習者の意図を解釈する一方、LLMは表面的な言語パターンに基づいて判断する点が挙げられます。例えば、「書いた後に確認する」という表現があると、内容に関係なく「評価」と分類されやすくなります。また、「first… then…」のような構文も、自動的に「計画」と解釈される傾向がありました。

プロンプト改善の方向性
今後の改善として以下の点が考えられます。
・Few-shot prompting:典型例に加えて、誤分類しやすい例も提示する。
・Chain-of-thought prompting:分類の思考過程を段階的に促す。
・対照例(Contrastive examples):似た文でも異なる分類となる例を示す。
・信頼度スコアの活用:曖昧な判断に対して人間の再確認を促す。

モデル間の性能差の要因
オープンソースモデルが商用モデルより精度が高かった要因は、最新のアーキテクチャや高品質な学習データ、Mixture-of-expertsのような設計が関係していると考えられます。一方で、Claude3.5-Sonnetのように説明生成や対話に優れるモデルでも、構造化された分類タスクには不向きな場合があることも明らかになりました。

7. 示唆と今後の展望
本研究は、LLMを質的分析に活用する際に以下のような実践的示唆を提供します。
・補助ツールとしての有用性:特に大規模データセットにおいて、作業負担の軽減が可能です。
・事前検証が必要:LLMの分類結果は人間のコーディングと比較して確認する必要があります。
・透明性の確保:LLMを用いたことを明示し、再現可能性を確保する必要があります。
・表層的判断への依存:LLMは文の意味よりも表現の形式に影響されやすく、曖昧なケースでは人間の判断が不可欠です。

今後の研究では以下のような方向が考えられます:
・高度なプロンプト設計(few-shot、chain-of-thought、対照例の導入など)
・信頼度スコアによる曖昧な判断の特定
・特定分野に合わせたモデルのファインチューニング
・多様なデータセットと分類枠組みにおける性能比較

これらによって、LLMと人間が協働するハイブリッド型の分類支援システムの構築が期待されます。

8. 感想
本論文を選んだ理由は、LLMを言語教育に活用する際に、より精度の高いプロンプトを設計するための実証的な知見を得るため、また、自由記述式の回答を質的にコーディングする際の方法論的理解を深めるためです。本研究では7つのLLMモデルが比較されており、生成AIの最新動向を把握する上でも有用でした。また、研究に使用されたデータやプロンプトなどが公開されており、研究の透明性と再現性の確保にも貢献しています。本研究は、教育現場や研究実践においてLLMを活用するための現状の理解と、今後取り組むべき課題を明確にするための重要な知見を提供していると考えます。
課題としては、コーディング対象となる自由記述がすべて「1文」に限定されていた点が挙げられます。この制約により、LLMの出力は “if”や “then”といった語順パターンなどの表層的な言語的手がかりに依存しやすくなり、文脈に基づく意味理解や判断の正確性について十分に検証されていないと考えられます。実際の教育現場では、学習者の自由記述は複文や段落単位で構成されることが一般的であるため、今後は含意や複雑な構造を含む記述のLLMの分類精度についても検証する必要があると考えます。

PAGE TOP