金沢工業大学
教育DXシンポジウム2022 活動報告

学生一人ひとりの学びに応じた教育実践

金沢工業大学 教育DX推進委員会 LMS推進小委員会
委員長?威廉希尔中文网站 情報工学科 主任 教授 山本 知仁

学修状況を解析するデータベースを構築

取組1の責任者を務めております、情報工学科の山本です。私からは、「学生一人ひとりの学びに応じた教育実践」をめざす「取組1」についてご説明します。 こちら(図1)が、本取り組みの概要です。

図1

まず、学びのプロセスを明らかにするため、学内にあるさまざまなデータベースを統合し、解析用のデータベースを構築しました。それに基づいて解析を行い、結果を教職員の方々にフィードバックし、修学支援に役立ててもらいます。

さらに、データをAI用として整理し、学習したシステムが自己成長システムを用いて自動で学生にフィードバックを行うというシステムの構築にも取り組みました。

各科目においては、主に数理系の科目でアダプティブラーニングと呼ばれる個々の学生の理解度に応じて問題が提示されるようなシステムの構築を行っています。

最初にご紹介するのは、データベースの統合と解析の結果です。本学にはオンプレミスとクラウドに7~8の大きなデータベースがあります。それらを一度、オラクルのクラウド?インストラクチャというクラウド上のサービスに全部上げてデータレイクをつくりました。

そこからデータマートという解析用のデータに移して解析を行うようにしました。このとき、なるべくデータはオープンに近く、さまざまな人が解析できるような形にするためデータを匿名化しています。匿名化した学生IDに多彩なデータを関連づけることによって、多くの解析者が閲覧できるデータベースを構築しています。ここに一番の時間とコストがかかりました。

構築されたデータベースに対して我々解析者は直接SQLなどのコンピュータ言語で解析を行います。しかし、一般教職員の方々はそういったことが難しいため、クリックセンスと呼ばれるようなビジネスインテリジェンスツールを使って解析ができる環境を整えています。

現在、500弱ほどのデータベースのテーブルを統合しており、項目数は1万件超え、件数で表わすと約18億件のデータベースとなっています。これが毎日更新され、解析用データベースとして構築されています。

このデータをこの2年間、精力的に解析してきました。当初は解析にとても時間がかかりました。というのも、もともと解析用のデータベースではないため、どこにどういった情報が入っているか、あたりをつけることが大変でした。ある程度解析が終わったら一つずつテーブルを増やす形で足がかりをつくり、今ではかなり自由に、入学から卒業までの解析ができるものを整えています。

解析の結果は山ほどあるのですが、とても時間が足りないので、大事なデータだけまとめてご説明していきます。

データから読み解く学生の現状と学修支援の在り方

まずは、学生の在籍についてです。毎年入学してくる1600人ほどの学生が、正規の4年間で卒業したのか、留年して卒業したのか、留年して残念ながら退学したのか、留年せずに退学したのかを分析しました。2004年度分からの入学した学生約3万人の学生データを解析したところ、本学には一定数の退学者がいることが認識できました。近年でも、12~13%の学生が退学しており、この数を減らすことが重要だということで、本データ解析は最初そちらの方向に深めていきました。

次にご紹介する(図4)のは、GPAの推移を見たデータです。

図4

上段中央が1年次と2年次のGPA、その左が2年次と3年次のGPA、下段左が3年次と4年次のGPAの関係を表わしたグラフです。ここからは、1年次にGPAが高いと2年次も高く、2年次が高いと3年次も高いという相関関係の高さが見て取れます。

上段左は1年次のGPAと出身高校の偏差値です。高校の偏差値はWEBにあるさまざまなデータを集めてきて関係を調べました。ここからわかるのは、入学時の学力プロファイルと1年次のGPAの間には強い関係がないということ。簡単に言うと、高校と大学というのは必ずしもつながっている訳ではないということです。

下段中央は卒業時のGPAと就職した企業のサイズ(従業員数)の関係で、ここにもまったく相関がないことがわかります。成績がいいと大きな企業に就職するイメージがあるかもしれませんが、GPAと平均年収との間にも相関関係はまったくありませんでした。つまり、大学の教育も必ずしも企業とつながっている訳ではないということです。大学の中では一貫性があるのですが、入口と出口では十分に関係がつくれていないことがこのデータからわかります。

次に示す(図5)のは、退学した学生の成績の分布や出席の状況を表わした図です。

図5

x軸が累積の出席率で、y軸が累積のGPAです。青色は4年で卒業した正規の学生、緑色は留年したけれど卒業した学生、オレンジや赤色が退学した学生です。これによると、本学では80%の出席率を切り、GPAが1.5よりも小さいとかなり厳しい状況にあることがわかります。ある程度の学力や成績のプロファイルを見ただけで、ケアが必要な学生が一目でわかるのです。

退学者がどういったタイミングで退学しているのか、我々はどのタイミングで介入すればいいのかを調べるために退学の時期も調べています。

こちら(図6)を見ますと、1年次と2年次で7~8割くらいの多くの学生が早い段階で退学したことがわかります。青色は留年せずに退学した学生、オレンジ色は留年して退学した学生です。このように早い段階で退学を決定している学生が一定数いるため、ケアをするのであれば早い段階からでないと3年、4年になってからでは遅いという結果が得られています。

図6

では、1年生、2年生がどの週くらいから退学を決定し始めるのか。それを知るため、全学生の出席率の推移も調べています。本学には全学生の全授業における出席データがありますので、毎日の出席率を追うことができます。

こちら(図7)の緑色の線が通常に修学を続けた学生で、赤色の線が退学してしまった学生の出席率の推移です。だいたい5週目、6週目くらいから出席率が下がり、それでも退学しない学生はいくつかの科目には出て出席率を保つのですが、そうでない学生は次第に授業へ出なくなり、最終的は退学してしまうという傾向が見られます。

図7

このように各科目の様子や日々の出席の様子もデイリーで追うことができるため、データに基づきかなり細かく学生の行動に応じてケアを行うことができます。

次に、1.2年生の学生が躓きやすい科目を調べました。このデータの中には今まで開講された授業の成績分布がすべて入っており、成績の分布ごとに平均値や分散、尖度、歪度を調べてみました。結果的には、平均点が低い、難関科目と呼ばれるような科目で学生が躓きやすいことが推測できました。図中では科目名を消していますが、ここに1年次に開講される数理系の科目がたくさん上がっており、数理工教育センターの方々にケアをしていただきました。

実際、どういったところで躓いているのか。コロナ禍の間、数理系の科目では小テストをオンラインで行われていました。本学でいうとe-シラバスと呼ばれるようなラーニングマネジメントシステムにログがすべて残っていましたので、それを解析し平均点の推移をまとめたのがこちら(図8)です。

図8

小テストは全部で23回行われていますが、16回目、17回目あたりに学生が躓くポイントがあることがわかりました。これは線積分の単元だったため、この科目を丁寧に教えていただきたいと数理工教育研究センターの方々にお願いし、ご協力いただた経緯があります。

こちら(図9)には、躓きやすい科目における、退学者の出席率の推移が示されています。

図9

先ほど6週目あたりからだんだん出席しなくなるとお話ししましたが、その理由は成績が決まり始めるからです。小テストや中間テスト、大きなレポートが始まり、成績が出て、「この科目厳しいな」と思うとだんだん学生が出席しなくなることが解析結果からある程度推測されます。

このデータについても2021年秋には、「早い段階で学生のケアが必要である」ということが学長から大学全体に共有されていました。

こういった定量的なデータの解析だけでなく、学生の学びの様子をなるべく深く理解したいという観点から、テキストの自然言語の処理やテキストのマイニングも実施しています。

こちら(図10)は、各年度の終わりに学生が一年を振り返り、リフレクションで入力する達成度ポートフォリオのテキストを自然言語処理して重要な単語だけを抜き出し、頻度の高い単語を大きく表示する方法で提示したものです。

図10

左はGPAが高い方の学生、右は相対的にGPAが低い方の学生の結果です。GPAが高い方の学生は、「勉強」、「活動」、「研究」、「知識」など、さまざまな活動に多様に取り組んでいることが伺えることに対し、GPAが相対的に低い学生は、「授業」、「課題」、「生活時間」、「勉強」など、大学のことに追われていてあまり余裕がない様子が見て取れます。

この解析をする前までは、なんとなくGPAが低い学生はアルバイトなど学外のことをたくさんしていて成績が追いついていないのだろうと思っていたのですが、実際はGPAが高い学生は、勉強もするし、部活もするし、アルバイトもするけれど、GPAが相対的に低い学生は勉強のことで精一杯という状況が結果から伺い知れます。

これらはほんの一部で、こういった解析をたくさん行ってきました。今は、基本的な段階が終わり、大学内をだいたい把握できる状況です。こういった解析結果を教職員の方々が簡単に閲覧できるよう、Qlik Senseというビジネスインテリジェンスツールを用いて学内に提供しており、現在、各学科内でのFD活動では、こういった客観的なデータに基づいた取り組みが行われています。

伸びしろを可視化しさらなる成長をサポート

ケアが必要な学生がいれば、逆に伸びていく学生もいます。6500人もの学生に対して教員が細かいところまで対応するのは難しいため、AIを使ってある程度自動で支援できる仕組みの構築に取り組みました。

最初に行ったのが機械学習の手法を用いた退学者予測です。各学期の必修科目の点数と出席率を入力し、そのデータから翌学期退学するかしないかを推測します。ちなみに、機械学習に複雑なモデルは必要なく、線形結合のモデルで十分でした。

機械学習の成果にはいろいろな指標がありますが、F値と呼ばれるものが精度を表わす値です。ある学期が終わったときに、翌学期に退学するかどうかについて、現在は9割の確立で推測できます。

さらに、退学の理由について、一番影響を与えた要因を説明する手法、XAI(Explainable AI)も考え出されています。これは、説明可能なAIの手法の中に、SHAP(Shapley Additive exPlanations)を用いて、どの要因が一番影響しているかを調べるものです。

結果的には、数理系科目の影響が強く、出席率が9割を切ってくると退学の可能性が高まることが明らかになりました。現在、退学理由を基に、自動でフィードバックを行うシステムを構築中です。

伸びしろのある学生の推定も行っています。学生はインシュラバスというLMSを使ってレポートを提出します。そのレポートを締め切りの2日前までに提出している人、さらにその中でGPAが高い人は学習に余裕があると推測し、フィードバックを行っています。

フィードバックは自己成長システムから自動で行われ、数理系の科目が苦手な学生には、先生方が常駐され熱心に指導していただいている数理工教育研究センターの活用を勧めたり、SRIのワークショップのようなさまざまな課外活動への参加を促したりしています。また、教員もフィードバックができ、人もAIも同じシステムを通じて学生の修学支援を行う仕組みが昨年の11月から稼働しています。

最後に、アダプティブラーニングのようなシステムは、世の中でオープンになっているフレームワークがなく、結果的に私どもの研究室がスクラッチからつくっているので少し時間がかかってしまいました。しかし、今はかなり教材ができあがっており、問題が自動で提示され、それを解くと点数が出て、間違っているところがあると復習の項目が自動で提示されるような仕組みを4月から運用したいと思っています。

「取組1」でかなりのことを理解するようになったデータは、教職員の方にフィードバックすると共に機械学習のデータとしても用いており、ある程度のことが自動でできる段階まできています。基本的な解析は終わっていますが、データの組み合わせはほぼ無限にあるため、今後もデータ解析を進めると共にフィードバックも行っていきます。

そのプロセスを追い、実際に学生のよい学びにつながってるかを逐次調査しながら、本システムの運用や解析をこの取り組み後も続けていく予定です。

以上です。ご清聴ありがとうございました。