《 Reinforcement Learning for Education: Opportunities and Challenges》全文閱讀

Reinforcement Learning for Education: Opportunities and Challenges

面向教育的強化學習：機遇與挑戰

摘要

本綜述文章源自作者在 Educational Data Mining (EDM) 2021 會議期間組織的 RL4ED 研討會。我們組織了這一研討會，作為一項社區建設工作的組成部分，旨在匯聚對強化學習（RL）與教育（ED）廣義領域感興趣的研究人員與實踐者。本文旨在概述研討會的活動情況，并總結強化學習在教育領域中的主要研究方向。

1 引言

強化學習（RL）是一種用于建模和自動化目標導向學習與序貫決策的計算框架 [1, 2]。與監督學習和無監督學習等其他學習方法不同，RL 強調的是智能體通過與環境的直接交互進行學習。RL 特別適用于智能體需要學習在不同情境下采取何種行動的策略，即如何將狀態映射到動作，以最大化長期效用。智能體必須探索不同的行動以發現能夠帶來高獎勵的行為；關鍵在于，這些行為不僅影響即時獲得的獎勵，還會影響下一個狀態，并進而通過狀態影響所有未來的獎勵。這些特性——動作具有長期影響、獎勵延遲，以及在不確定性下的序貫決策——構成了 RL 的核心優勢。

到目前為止，RL 最令人印象深刻的一些應用主要局限于游戲領域 [3-6]。鑒于師生之間的序貫互動在教育（ED）中的核心地位，近年來在利用 RL 改善教育技術的最前沿水平方面出現了濃厚的興趣。在 ED 中有幾種問題場景適合應用 RL 方法，包括利用 RL 方法訓練教學策略以及將人類學生建模為 RL 智能體。雖然前景廣闊，但將開箱即用的 RL 方法應用于 ED 通常非常具有挑戰性。此外，ED 中的許多問題場景還存在獨特挑戰，使得當前的 RL 方法無法直接適用。ED 中的一些關鍵挑戰包括：（a）缺乏基于仿真環境訓練大量數據需要的 RL 方法；（b）需要大規模（往往無限）的狀態空間表示；（c）環境狀態（即學生知識）觀察受限；（d）獎勵測量存在顯著延遲且噪聲大；以及（e）當 RL 方法應用于關乎學生未來的關鍵領域時，對其魯棒性、可解釋性和公平性的擔憂。

RL4ED 研討會的目標在于促進對 RL 和 ED 廣泛領域感興趣的研究者與實踐者之間更緊密的聯系。研討會主要聚焦于兩個方向：

RL $\rightarrow \mathbf{E D}$ : 探索如何利用 RL 方法的最新進展來改進教育技術的現狀。
$\mathbf{E D} \rightarrow \mathbf{R L}$ : 確定 ED 中獨特的挑戰，這些挑戰超越了當前方法論，但可以催生 RL 中新的技術創新和突破。

2 RL4ED@EDM’21 研討會活動概況

本節我們概述了在 EDM 2021 會議期間組織的 RL4ED 研討會；完整細節可在研討會網站上獲取。該研討會作為在線活動舉行；在最高峰時，注冊人數超過 120 人，且同時在線參會人數超過 60 人。研討會的結構圍繞邀請演講、投稿論文、聚光報告以及兩場專題討論會展開。

\subsection*{2.1 關注的主題}

如上所述，本次研討會聚焦于兩個主要方向，每個方向涵蓋了若干感興趣的專題。這些專題在邀請演講嘉賓的選擇和投稿論文的聚光報告選擇時起到了指導作用。

在 $\mathbf{R L} \rightarrow \mathbf{E D}$ 方向中，關注的主題集中在利用 RL 方法的最新進展解決 ED 問題場景，包括：（i）總結了具有適用于 ED 的 RL 最新進展的綜述論文；（ii）開發適用于 ED 的 RL 方法的工具包、數據集和挑戰；（iii）利用 RL 進行在線評估和 A/B 測試不同干預策略；以及（iv）RL 在 ED 問題場景中的新應用。\

在 $\mathbf{E D} \rightarrow \mathbf{R L}$ 方向中，關注的主題集中在 ED 問題場景中獨特的挑戰，這些挑戰激發了 RL 方法的下一次突破，包括：（i）利用教學理論來縮小 RL 方法策略空間；（ii）利用 RL 框架構建開放式領域中學生的計算模型；（iii）開發能夠高效利用歷史學生數據的全新離線 RL 方法；以及（iv）結合 RL 的統計優勢與符號推理以確保 ED 中應用的魯棒性。

\subsection*{2.2 邀請演講和專題討論會}

我們邀請了來自學術界和工業界的一批嘉賓，覆蓋了各個感興趣的專題，并在不同視角和學科之間取得平衡。研討會共安排了 7 個邀請演講；每個演講大約 25 分鐘。下面列出了演講嘉賓及其演講主題：

\section*{[T1] Tanja K?ser；在開放式學習環境中的建模與個性化學習。}

[T2] Simon Woodhead；Eedi 與 NeurIPS 2020 教育挑戰數據集。\[0pt]

[T3] José Miguel Hernández Lobato；在觀察性場景中去混淆強化學習。\[0pt]

[T4] Min Chi；教學政策對學生學習影響——一種強化學習方法。\[0pt]

[T5] Emma Brunskill；從教育及其他社會關注應用中的挑戰獲得啟示的更實用的強化學習。\[0pt]

[T6] Joe Austerweil；“強化學習不過是一種需要最大化的價值嗎？”\[0pt]

[T7] Shayan Doroudi；用于教學序列優化的強化學習——從過去中學習以滿足未來的挑戰。

這些邀請演講的視頻錄像可在研討會網站上觀看。除了這些邀請演講外，演講嘉賓還參加了兩個各為 30 分鐘的專題討論會。演講后和專題討論會后的問答環節為參與者提供了充分討論的機會。

\subsection*{2.3 投稿論文和聚光報告}

鑒于本次研討會的重點在于社區建設和交流，我們在論文征集時稍作嘗試，征集了兩種類型的投稿。第一種，我們稱之為“研究軌”，包括報告正在進行或新研究成果的論文，這些論文此前未曾發表。第二種，我們稱之為“重現軌”，包括最近已發表或已被接收在會議或期刊上公布的論文。

對于“研究軌”，我們共收到 4 篇投稿，并錄用了 3 篇。對于“重現軌”，我們向相關領域的已發表論文作者發送邀請，共收到 6 篇投稿。總計，我們收到了 9 篇投稿論文，涵蓋了研討會感興趣的各個主題。這些投稿論文作為聚光報告展示；每篇報告大約 8 分鐘。總計共有 10 個聚光報告，其中包括這些投稿論文及一個額外的邀請報告，列表如下：\[0pt]

[S1] 基于決斗賭博機的統計后果。\[0pt]

（研究軌；[7]）\[0pt]

[S2] 捕捉學生與機器人交互的數據驅動教育對話 RL 環境。（研究軌；[8]）\[0pt]

[S3] 探索用于教育游戲中可遷移個性化學生模型的方法。（重現軌；[9]）\[0pt]

[S4] 將自適應間隔啟發式擴展到多技能題目。（重現軌；[10]）\[0pt]

[S5] “過于個性化”：在線自適應算法中特征選擇的重要性。（重現軌；[11]）\[0pt]

[S6] “近似最優教師指導近似最優學習者”。（重現軌；[12]）\[0pt]

[S7] 利用強化學習學習教育相關任務的專家模型。（重現軌；[13]）\[0pt]

[S8] 使用深度強化學習模擬、訓練和評估教學序列策略。（研究軌；[14]）\[0pt]

[S9] 利用批量約束深度 Q 網絡自適應搭架構以提升認知參與。（重現軌；[15]）\[0pt]

[S10] 將強化學習整合入 ASSISTments 平臺。（額外邀請的聚光報告）

這些聚光報告的視頻錄像可在研討會網站上觀看。

3 RL4ED 主要研究方向的總結

本節中，我們總結了強化學習在教育領域中的主要研究方向。\[0pt]

RL 方法用于跨任務個性化課程的設計。RL 在 ED 中最直接、研究最為充分的應用是為學生提供個性化課程的教學策略訓練。在這一問題設置中，一般訓練一個 RL 智能體來在智能輔導系統中誘導教學策略，而人類學生則作為 RL 術語中的“環境”存在 [2]。對于給定學生，該教學策略將學生的響應歷史映射到下一任務，以最大化長期的學習收益。讀者可參考 [16]，該文對該主題進行了極好的綜述；同時也請參見邀請演講 [T7]。最新該方向的研究也覆蓋于邀請演講 [T4]、聚光報告 [S6] 和 [S8] 以及幾篇近期作品 [12, 17-21]。盡管這是 RL 的自然應用，但在實踐中，要在真實世界的 ED 領域訓練出有效的基于 RL 的策略存在許多挑戰；詳見 [16]。其中一個主要挑戰是學生的真實知識狀態并不可直接觀察到~ $[12, 17]$ ——我們需要使用適當的表示將學生的響應映射為其知識狀態。另一個主要挑戰來自于缺乏基于仿真環境來訓練需要海量數據的 RL 方法。通常，RL 智能體需要數百萬個訓練回合，而這些訓練通常在游戲領域的仿真器中進行；然而，在 ED 領域，我們并沒有這樣的真實仿真器或人類學生的計算模型。為了解決這些挑戰，一個重要的研究方向是探討如何有效結合基于 RL 的策略與教學理論，或者利用教學理論來縮小 ED 問題設置中 RL 的策略空間。另一個重要研究方向是開發能夠高效利用歷史數據的全新離線 RL 方法；詳見邀請演講 [T5]。

RL 方法用于提供提示、支架和測驗。除了跨任務的課程設計之外，RL 在 ED 中的另一個重要應用是訓練能夠在任務中提供提示作為反饋的策略。尤其對于復雜的開放領域（例如，基于積木的可視化編程或高中代數），提示、反饋和支架對于提升學生參與度和學習收益起著重要作用 [22-25]。在一項早期工作中，[26] 利用馬爾科夫決策過程（MDP）形式化，用于從歷史學生數據中自動生成邏輯證明輔導的提示。近期的工作中，[27] 提出了一種 RL 框架用于訓練針對基于積木的可視化編程任務的提示策略，而不依賴歷史學生數據，從而應對該領域下零樣本提供提示的挑戰。我們還請讀者參見最近幾項工作，包括 [15, 28]，它們使用 RL 方法在關鍵決策點為學生提供支架與輔助；另請參見邀請演講 [T4] 及聚光報告 [S9]。在一個略有不同的問題設置中，[29] 探討了如何利用基于 RL 的策略為學生進行測驗以推斷其知識狀態，從而解決 Eedi 的 NeurIPS 教育挑戰中的問題 #4（參見 [30, 31] 及邀請演講 [T2]）。這些工作仍處于早期階段，展示了利用基于 RL 的策略在跨任務之外的不同問題設置中的潛力。在未來幾年中，我們相信 RL 方法將在為復雜開放任務提供反饋方面發揮至關重要的作用。一個令人興奮的研究方向是訓練基于 RL 的策略，在提供提示時平衡不同目標——是快速完成當前任務提示，還是在教師的角度最大化提示的教學價值，使學生在未來任務中獲得更好表現。

RL 用于在線實驗和 A/B 測試在教育平臺中的應用。近年來，人們越來越關注利用 RL 方法評估大規模在線平臺中不同教育干預措施的效果。特別是，一類特殊的 RL 方法——多臂老虎機（MAB）被最新研究用于自適應實驗：每個學生被分配到一種技術版本或一種干預措施（在 MAB 術語中為“臂”），算法觀察該學生的學習成果（與所分配“臂”相關的獎勵）；隨后，每位學生更有可能被分配到先前證明更有效的技術版本，因為算法會發現哪些干預更有效 [32-34]。雖然標準 MAB 算法不支持基于學生個人特征的個性化，但情景 MAB 算法可以考慮學生特征，并使分配更加個性化，從而進一步提升學習收益。在最近的工作中，[12] 探討了情景 MAB 算法中所用特征的效果，并強調了個性化在學習收益上的權衡（另請參見本論文聚光報告 [S5]）。在另一個最近工作中，[35] 作為案例研究，通過發送作業郵件提醒來進行自適應實驗，并報告在現實環境中進行此類實驗時出現的各種開放性問題。我們還請讀者參見其他幾篇近期工作，包括 [36, 37] 以及聚光報告 [S1] 和 [S10]。在 [S10] 中，作者討論了他們將基于 MAB 的自適應實驗用于推薦和個性化學生在 ASSISTments 教育平臺上接收內容的持續努力。總體而言，RL 用于自適應實驗是一個非常有前景的領域，預期在未來幾年中，我們將看到 RL 驅動技術在現實教育平臺中的部署。該領域一個重要的研究方向是更好地理解自適應實驗的倫理影響，并設計可考慮公平性的情景 MAB 算法，從而確保不同群體之間的教育公平。

RL 框架用于建模人類學生。與利用 RL 智能體代表教師 / 輔導系統不同，我們可以采取另一種視角，利用 RL 框架來對學生的學習或問題解決過程進行建模。在這種設置中，人類學生被建模為 RL 智能體，教師則代表“環境”；參見訓練教學策略時將 RL 智能體表示為教師或輔導系統的設置。這種建模框架在開放式學習領域尤其有用，其中任務概念性強、開放且序貫，包括如基于積木的可視化編程和高中代數等領域。這樣的 RL 計算模型有助于多種應用。例如，可以利用該模型根據學生嘗試的解答診斷其錯誤，并設計出更有效的環境反饋（例如，通過適當的干預措施）；參見 [39, 40]。此外，這種計算模型還可用作模擬學生，來評估教學算法或訓練教學策略。在機器教學研究中 [41]，近期的一系列工作已利用 RL 智能體作為學生模型來探討針對序貫決策任務的教學理論基礎。例如，[42-44] 研究了當學生被模型為模仿學習智能體時如何設計課程以及如何通過演示優化教學，以及 [45] 研究了當學生被建模為 RL 智能體時的策略教學與環境設計問題。最近的諸多工作和研討會活動均聚焦于這一研究方向，包括 [9, 13, 46]，邀請演講 [T1] 和 [T6]，以及聚光報告 [S3] 和 [S7]。在未來幾年中，我們相信利用 RL 框架建模人類學生將繼續成為一個重要的研究方向。其中最重要的研究問題之一是如何將以人為中心的學習特性納入 RL 智能體中，使這些智能體能更好地代表真實的學生。更具體地說，開發能夠捕捉人類學習者能力（例如，少樣本學習、演繹推理和從不同反饋類型中學習）的 RL 智能體將具有重要意義。

RL 用于教育內容生成。另一個重要的研究方向是利用 RL 方法進行教育內容生成，例如生成新的練習題、測驗或視頻。這常被稱為過程內容生成（PCG），近期工作已探索了 RL 在生成不同難度的 Sokoban 謎題 [47, 48] 和賽車游戲 [49] 中的適用性。在最近的工作中，[50] 結合 Monte Carlo 樹搜索（MCTS）方法與符號技術，在基于積木的可視化編程領域合成新任務。這些合成任務可在許多實際系統中發揮作用——例如，輔導教師可以將新練習任務作為家庭作業或測驗分配給學生，以檢驗其知識掌握情況，學生在未能解決某個任務后也可以通過系統自動獲得新的類似任務。鑒于在線平臺上提供個性化且多樣化教育內容的迫切需求，RL 用于教育內容生成是一個需要進一步探索的重要研究領域。

4 結論

面向教育的強化學習是未來工作中一個重要的應用領域，它可能帶來教育實際改進以及強化學習技術的新進展。EDM2021 研討會上的演講和討論突顯了社區對本文涵蓋主要領域的熱情，多樣的視角以及專家小組的評論展示了從多個學科（包括但不限于學習科學、認知科學和機器學習）中汲取思想的重要性。這種多學科視角的需求及教育應用所提出的獨特挑戰表明，繼續在此領域培養社區仍然十分必要。