皆さん、こんにちは。
この記事では、今回の英語文献ゼミで読んだ論文とその感想について紹介します。
論文タイトル: Design and implementation of an AI-enabled visual report tool as formative assessment to promote learning achievement and self-regulated learning: An experimental study
ジャーナル:British Journal of Educational Technology
巻号:55(3)
ページ数:1253-1276
出版年:2023
著者名:Xiaofang Liao, Xuedi Zhang, Zhifeng Wang, Heng Luo
形成的評価とは、学習の最終成果のみに焦点を当てる総括的評価とは異なり、学習プロセスに焦点を当て、パフォーマンスに対するフィードバックを提供するものです。そのなか、月例テストのような従来の形成的評価方法では、学習者の認知構造や学習プロセスを正確に反映することが困難であり、情報の提示も直感的でない場合があります。近年、AI技術の進歩により、より正確で個別化されたフィードバックの提供が可能になってきています。特に注目されているのが、自然言語処理(NLP)と認知診断(Cognitive Diagnostic)技術の活用です。NLPは人間の言語を理解・生成するためのコンピュータ分析技術で、月例テストなどのテキスト情報を処理・分析して、評価の精度と効率を向上させることができます。一方、認知診断は、テスト回答などの学習者の行動データから、知識ポイントの習得度や習熟度といった潜在的な認知状態を探り出す技術です。これらの技術と可視化技術を組み合わせることで、学習者が気づかない情報を容易に発見し、現在の学習レベルを明確に理解することが可能になります。そこで、この研究では、自然言語処理と認知診断技術を統合した形成的評価ツールを開発し、高校生物の授業で学習成果と自己調整学習にどのような効果があるかを調査しました。
実験では、中国の高校3年生125名(男性71名、女性54名)を対象に、13週間の実験を行いました。参加者は実験群(63名)と対照群(62名)に分けられ、生物教科書の第1-4章(分子、細胞、遺伝学、進化)について学習しました。生物が選ばれた理由は、構造化された宣言的知識が豊富で、高頻度の形成的評価に適していると判断されました。実験は以下の3つの段階で実施されました。第1週では、実験前の両群の自己調整学習スキルの違いを確認するため、MSLQ(Motivated Strategies for Learning Questionnaire)質問紙を基に作成された質問紙による事前調査を実施しました。第2週から12週では、両群に対して生物教科書1-4章の授業と指導を行い、3回の月次テストを実施しました。各テストは、2017年版高校生物カリキュラムを基に、教育経験10-15年の教師によって作成されました。フィードバック方法については、対照群はスコアとランキングのフィードバックに加え、教師による全体的な口頭評価を受けました。一方、実験群は同様のスコアとランキングに加えて、3回のAIツールによるフィードバックレポートが提供されました。第13週では、自己調整学習質問紙の事後調査を実施しました。
開発されたAI評価ツールは、HattieとTimperley(2007)の4つのフィードバックレベルを基に、6つのモジュールで構成されています。これらのモジュールは、段階的に学習者の理解を深めていく設計となっています:まず、タスクレベルのフィードバックとして、パフォーマンスランキングと個人習熟度を表示します。次に、プロセスレベルでは、誤答分析と知識アラートの機能を提供します。特に知識アラートモジュールでは、知識の習得度を色分けで表示し、改善が必要な領域を視覚的に示します。さらに、自己調整レベルでは、自己評価と省察を促すモジュールを設け、最後に自己レベルのフィードバックとして、総括と評価のモジュールで個別化されたフィードバックを生成します。
技術的な実装については、NeuralCDモデルによる認知診断、BM25アルゴリズムによる自然言語分析、PyEchartによるデータ可視化という3つの要素を組み合わせています。これにより、テストの回答から知識ポイントの習得度を判定し、誤答と教科書の該当箇所を自動的にマッチングし、その結果を視覚的に分かりやすく表示することが可能になりました。
分析の結果、AI評価ツールが学習に与える効果が明らかになりました。まず、実験群の93.65%が視覚的レポートを閲覧し、66.67%が内容を明確に理解できたと回答しています。さらに、84.13%が他科目での使用を希望するなど、ツールへの高い評価が示されました。学習成果については、反復測定分散分析により、時間と群の有意な交互作用(F(2,122)=7.368, p=0.001)が確認されました。特に注目すべきは、2回目のテスト以降、実験群の成績向上率が対照群を上回ったことです。これは、AI技術の効果に一定の時間差があることを示唆しています。自己調整学習の観点からの分析も興味深い結果を示しています。実験群では、AI評価ツール使用後に自己効力感が統計的に有意に向上しました。これは、視覚的な評価によって情報処理が強化され、学習者が課題をうまく遂行できるという肯定的な信念が生まれたかもしれません。しかし、同時にいくつかの課題も明らかになりました。例えば、視覚的レポートによって成績や知識の不足が明確に示されることで、テスト不安が増加する傾向が見られました。また、モジュール間での評価にも差が見られ、パフォーマンスランキングと個人習熟度を示すモジュールが最も高く評価された一方で、自己評価・省察モジュールの評価は比較的低くなっています。これは、学習者が自主的に内容を記入する必要があり、特に学習意欲の低い学生にとって負担となる可能性を示唆しています。
以下は私の感想となります。本研究について、個人的に特に興味深く感じたのは、ダッシュボードの設計についてです。知識フレームワークにおける知識ポイントの習得度を可視化する方法や、形成的評価ツールとしてのダッシュボードの活用という視点は、教育工学研究において重要な示唆を与えるものだと考えます。一方で、本研究を読んで、さらに探究できそうな点もいくつか見えてきました。例えば、知識ポイントの習得度の可視化について、とても興味深い設計がなされていますが、この可視化の正確性をどのように評価できるのか、という点にも関心を持ちました。また、自己調整学習に関して、特に学習計画や目標設定のプロセスについて、より詳しく見ていくと面白そうです。本研究は教育現場におけるAI活用の可能性を示すとともに、さらなる研究の広がりも期待できる興味深い研究だと感じました。特に、AIによる形成的評価と教師による評価をどのように組み合わせていけるのか、今後の研究の展開が楽しみです。
文責:耿学旺