《 Reinforcement Learning for Education: Opportunities and Challenges》全文閱讀

Reinforcement Learning for Education: Opportunities and Challenges

面向教育的強化學習:機遇與挑戰

摘要

本綜述文章源自作者在 Educational Data Mining (EDM) 2021 會議期間組織的 RL4ED 研討會。我們組織了這一研討會,作為一項社區建設工作的組成部分,旨在匯聚對強化學習(RL)與教育(ED)廣義領域感興趣的研究人員與實踐者。本文旨在概述研討會的活動情況,并總結強化學習在教育領域中的主要研究方向。

1 引言

強化學習(RL)是一種用于建模和自動化目標導向學習與序貫決策的計算框架 [1, 2]。與監督學習和無監督學習等其他學習方法不同,RL 強調的是智能體通過與環境的直接交互進行學習。RL 特別適用于智能體需要學習在不同情境下采取何種行動的策略,即如何將狀態映射到動作,以最大化長期效用。智能體必須探索不同的行動以發現能夠帶來高獎勵的行為;關鍵在于,這些行為不僅影響即時獲得的獎勵,還會影響下一個狀態,并進而通過狀態影響所有未來的獎勵。這些特性——動作具有長期影響、獎勵延遲,以及在不確定性下的序貫決策——構成了 RL 的核心優勢。

到目前為止,RL 最令人印象深刻的一些應用主要局限于游戲領域 [3-6]。鑒于師生之間的序貫互動在教育(ED)中的核心地位,近年來在利用 RL 改善教育技術的最前沿水平方面出現了濃厚的興趣。在 ED 中有幾種問題場景適合應用 RL 方法,包括利用 RL 方法訓練教學策略以及將人類學生建模為 RL 智能體。雖然前景廣闊,但將開箱即用的 RL 方法應用于 ED 通常非常具有挑戰性。此外,ED 中的許多問題場景還存在獨特挑戰,使得當前的 RL 方法無法直接適用。ED 中的一些關鍵挑戰包括:(a)缺乏基于仿真環境訓練大量數據需要的 RL 方法;(b)需要大規模(往往無限)的狀態空間表示;(c)環境狀態(即學生知識)觀察受限;(d)獎勵測量存在顯著延遲且噪聲大;以及(e)當 RL 方法應用于關乎學生未來的關鍵領域時,對其魯棒性、可解釋性和公平性的擔憂。

RL4ED 研討會的目標在于促進對 RL 和 ED 廣泛領域感興趣的研究者與實踐者之間更緊密的聯系。研討會主要聚焦于兩個方向:

  • RL → E D \rightarrow \mathbf{E D} ED : 探索如何利用 RL 方法的最新進展來改進教育技術的現狀。

  • E D → R L \mathbf{E D} \rightarrow \mathbf{R L} EDRL : 確定 ED 中獨特的挑戰,這些挑戰超越了當前方法論,但可以催生 RL 中新的技術創新和突破。

2 RL4ED@EDM’21 研討會活動概況

本節我們概述了在 EDM 2021 會議期間組織的 RL4ED 研討會;完整細節可在研討會網站上獲取。該研討會作為在線活動舉行;在最高峰時,注冊人數超過 120 人,且同時在線參會人數超過 60 人。研討會的結構圍繞邀請演講、投稿論文、聚光報告以及兩場專題討論會展開。

\subsection*{2.1 關注的主題}

如上所述,本次研討會聚焦于兩個主要方向,每個方向涵蓋了若干感興趣的專題。這些專題在邀請演講嘉賓的選擇和投稿論文的聚光報告選擇時起到了指導作用。

R L → E D \mathbf{R L} \rightarrow \mathbf{E D} RLED 方向中,關注的主題集中在利用 RL 方法的最新進展解決 ED 問題場景,包括:(i)總結了具有適用于 ED 的 RL 最新進展的綜述論文;(ii)開發適用于 ED 的 RL 方法的工具包、數據集和挑戰;(iii)利用 RL 進行在線評估和 A/B 測試不同干預策略;以及(iv)RL 在 ED 問題場景中的新應用。\

E D → R L \mathbf{E D} \rightarrow \mathbf{R L} EDRL 方向中,關注的主題集中在 ED 問題場景中獨特的挑戰,這些挑戰激發了 RL 方法的下一次突破,包括:(i)利用教學理論來縮小 RL 方法策略空間;(ii)利用 RL 框架構建開放式領域中學生的計算模型;(iii)開發能夠高效利用歷史學生數據的全新離線 RL 方法;以及(iv)結合 RL 的統計優勢與符號推理以確保 ED 中應用的魯棒性。

\subsection*{2.2 邀請演講和專題討論會}

我們邀請了來自學術界和工業界的一批嘉賓,覆蓋了各個感興趣的專題,并在不同視角和學科之間取得平衡。研討會共安排了 7 個邀請演講;每個演講大約 25 分鐘。下面列出了演講嘉賓及其演講主題:

\section*{[T1] Tanja K?ser;在開放式學習環境中的建模與個性化學習。}

[T2] Simon Woodhead;Eedi 與 NeurIPS 2020 教育挑戰數據集。\[0pt]

[T3] José Miguel Hernández Lobato;在觀察性場景中去混淆強化學習。\[0pt]

[T4] Min Chi;教學政策對學生學習影響——一種強化學習方法。\[0pt]

[T5] Emma Brunskill;從教育及其他社會關注應用中的挑戰獲得啟示的更實用的強化學習。\[0pt]

[T6] Joe Austerweil;“強化學習不過是一種需要最大化的價值嗎?”\[0pt]

[T7] Shayan Doroudi;用于教學序列優化的強化學習——從過去中學習以滿足未來的挑戰。

這些邀請演講的視頻錄像可在研討會網站上觀看。除了這些邀請演講外,演講嘉賓還參加了兩個各為 30 分鐘的專題討論會。演講后和專題討論會后的問答環節為參與者提供了充分討論的機會。

\subsection*{2.3 投稿論文和聚光報告}

鑒于本次研討會的重點在于社區建設和交流,我們在論文征集時稍作嘗試,征集了兩種類型的投稿。第一種,我們稱之為“研究軌”,包括報告正在進行或新研究成果的論文,這些論文此前未曾發表。第二種,我們稱之為“重現軌”,包括最近已發表或已被接收在會議或期刊上公布的論文。

對于“研究軌”,我們共收到 4 篇投稿,并錄用了 3 篇。對于“重現軌”,我們向相關領域的已發表論文作者發送邀請,共收到 6 篇投稿。總計,我們收到了 9 篇投稿論文,涵蓋了研討會感興趣的各個主題。這些投稿論文作為聚光報告展示;每篇報告大約 8 分鐘。總計共有 10 個聚光報告,其中包括這些投稿論文及一個額外的邀請報告,列表如下:\[0pt]

[S1] 基于決斗賭博機的統計后果。\[0pt]

(研究軌;[7])\[0pt]

[S2] 捕捉學生與機器人交互的數據驅動教育對話 RL 環境。(研究軌;[8])\[0pt]

[S3] 探索用于教育游戲中可遷移個性化學生模型的方法。(重現軌;[9])\[0pt]

[S4] 將自適應間隔啟發式擴展到多技能題目。(重現軌;[10])\[0pt]

[S5] “過于個性化”:在線自適應算法中特征選擇的重要性。(重現軌;[11])\[0pt]

[S6] “近似最優教師指導近似最優學習者”。(重現軌;[12])\[0pt]

[S7] 利用強化學習學習教育相關任務的專家模型。(重現軌;[13])\[0pt]

[S8] 使用深度強化學習模擬、訓練和評估教學序列策略。(研究軌;[14])\[0pt]

[S9] 利用批量約束深度 Q 網絡自適應搭架構以提升認知參與。(重現軌;[15])\[0pt]

[S10] 將強化學習整合入 ASSISTments 平臺。(額外邀請的聚光報告)

這些聚光報告的視頻錄像可在研討會網站上觀看。

3 RL4ED 主要研究方向的總結

本節中,我們總結了強化學習在教育領域中的主要研究方向。\[0pt]

RL 方法用于跨任務個性化課程的設計。RL 在 ED 中最直接、研究最為充分的應用是為學生提供個性化課程的教學策略訓練。在這一問題設置中,一般訓練一個 RL 智能體來在智能輔導系統中誘導教學策略,而人類學生則作為 RL 術語中的“環境”存在 [2]。對于給定學生,該教學策略將學生的響應歷史映射到下一任務,以最大化長期的學習收益。讀者可參考 [16],該文對該主題進行了極好的綜述;同時也請參見邀請演講 [T7]。最新該方向的研究也覆蓋于邀請演講 [T4]、聚光報告 [S6] 和 [S8] 以及幾篇近期作品 [12, 17-21]。盡管這是 RL 的自然應用,但在實踐中,要在真實世界的 ED 領域訓練出有效的基于 RL 的策略存在許多挑戰;詳見 [16]。其中一個主要挑戰是學生的真實知識狀態并不可直接觀察到~ [ 12 , 17 ] [12,17] [12,17]——我們需要使用適當的表示將學生的響應映射為其知識狀態。另一個主要挑戰來自于缺乏基于仿真環境來訓練需要海量數據的 RL 方法。通常,RL 智能體需要數百萬個訓練回合,而這些訓練通常在游戲領域的仿真器中進行;然而,在 ED 領域,我們并沒有這樣的真實仿真器或人類學生的計算模型。為了解決這些挑戰,一個重要的研究方向是探討如何有效結合基于 RL 的策略與教學理論,或者利用教學理論來縮小 ED 問題設置中 RL 的策略空間。另一個重要研究方向是開發能夠高效利用歷史數據的全新離線 RL 方法;詳見邀請演講 [T5]。

RL 方法用于提供提示、支架和測驗。除了跨任務的課程設計之外,RL 在 ED 中的另一個重要應用是訓練能夠在任務中提供提示作為反饋的策略。尤其對于復雜的開放領域(例如,基于積木的可視化編程或高中代數),提示、反饋和支架對于提升學生參與度和學習收益起著重要作用 [22-25]。在一項早期工作中,[26] 利用馬爾科夫決策過程(MDP)形式化,用于從歷史學生數據中自動生成邏輯證明輔導的提示。近期的工作中,[27] 提出了一種 RL 框架用于訓練針對基于積木的可視化編程任務的提示策略,而不依賴歷史學生數據,從而應對該領域下零樣本提供提示的挑戰。我們還請讀者參見最近幾項工作,包括 [15, 28],它們使用 RL 方法在關鍵決策點為學生提供支架與輔助;另請參見邀請演講 [T4] 及聚光報告 [S9]。在一個略有不同的問題設置中,[29] 探討了如何利用基于 RL 的策略為學生進行測驗以推斷其知識狀態,從而解決 Eedi 的 NeurIPS 教育挑戰中的問題 #4(參見 [30, 31] 及邀請演講 [T2])。這些工作仍處于早期階段,展示了利用基于 RL 的策略在跨任務之外的不同問題設置中的潛力。在未來幾年中,我們相信 RL 方法將在為復雜開放任務提供反饋方面發揮至關重要的作用。一個令人興奮的研究方向是訓練基于 RL 的策略,在提供提示時平衡不同目標——是快速完成當前任務提示,還是在教師的角度最大化提示的教學價值,使學生在未來任務中獲得更好表現。

RL 用于在線實驗和 A/B 測試在教育平臺中的應用。近年來,人們越來越關注利用 RL 方法評估大規模在線平臺中不同教育干預措施的效果。特別是,一類特殊的 RL 方法——多臂老虎機(MAB)被最新研究用于自適應實驗:每個學生被分配到一種技術版本或一種干預措施(在 MAB 術語中為“臂”),算法觀察該學生的學習成果(與所分配“臂”相關的獎勵);隨后,每位學生更有可能被分配到先前證明更有效的技術版本,因為算法會發現哪些干預更有效 [32-34]。雖然標準 MAB 算法不支持基于學生個人特征的個性化,但情景 MAB 算法可以考慮學生特征,并使分配更加個性化,從而進一步提升學習收益。在最近的工作中,[12] 探討了情景 MAB 算法中所用特征的效果,并強調了個性化在學習收益上的權衡(另請參見本論文聚光報告 [S5])。在另一個最近工作中,[35] 作為案例研究,通過發送作業郵件提醒來進行自適應實驗,并報告在現實環境中進行此類實驗時出現的各種開放性問題。我們還請讀者參見其他幾篇近期工作,包括 [36, 37] 以及聚光報告 [S1] 和 [S10]。在 [S10] 中,作者討論了他們將基于 MAB 的自適應實驗用于推薦和個性化學生在 ASSISTments 教育平臺上接收內容的持續努力。總體而言,RL 用于自適應實驗是一個非常有前景的領域,預期在未來幾年中,我們將看到 RL 驅動技術在現實教育平臺中的部署。該領域一個重要的研究方向是更好地理解自適應實驗的倫理影響,并設計可考慮公平性的情景 MAB 算法,從而確保不同群體之間的教育公平。

RL 框架用于建模人類學生。與利用 RL 智能體代表教師 / 輔導系統不同,我們可以采取另一種視角,利用 RL 框架來對學生的學習或問題解決過程進行建模。在這種設置中,人類學生被建模為 RL 智能體,教師則代表“環境”;參見訓練教學策略時將 RL 智能體表示為教師或輔導系統的設置。這種建模框架在開放式學習領域尤其有用,其中任務概念性強、開放且序貫,包括如基于積木的可視化編程和高中代數等領域。這樣的 RL 計算模型有助于多種應用。例如,可以利用該模型根據學生嘗試的解答診斷其錯誤,并設計出更有效的環境反饋(例如,通過適當的干預措施);參見 [39, 40]。此外,這種計算模型還可用作模擬學生,來評估教學算法或訓練教學策略。在機器教學研究中 [41],近期的一系列工作已利用 RL 智能體作為學生模型來探討針對序貫決策任務的教學理論基礎。例如,[42-44] 研究了當學生被模型為模仿學習智能體時如何設計課程以及如何通過演示優化教學,以及 [45] 研究了當學生被建模為 RL 智能體時的策略教學與環境設計問題。最近的諸多工作和研討會活動均聚焦于這一研究方向,包括 [9, 13, 46],邀請演講 [T1] 和 [T6],以及聚光報告 [S3] 和 [S7]。在未來幾年中,我們相信利用 RL 框架建模人類學生將繼續成為一個重要的研究方向。其中最重要的研究問題之一是如何將以人為中心的學習特性納入 RL 智能體中,使這些智能體能更好地代表真實的學生。更具體地說,開發能夠捕捉人類學習者能力(例如,少樣本學習、演繹推理和從不同反饋類型中學習)的 RL 智能體將具有重要意義。

RL 用于教育內容生成。另一個重要的研究方向是利用 RL 方法進行教育內容生成,例如生成新的練習題、測驗或視頻。這常被稱為過程內容生成(PCG),近期工作已探索了 RL 在生成不同難度的 Sokoban 謎題 [47, 48] 和賽車游戲 [49] 中的適用性。在最近的工作中,[50] 結合 Monte Carlo 樹搜索(MCTS)方法與符號技術,在基于積木的可視化編程領域合成新任務。這些合成任務可在許多實際系統中發揮作用——例如,輔導教師可以將新練習任務作為家庭作業或測驗分配給學生,以檢驗其知識掌握情況,學生在未能解決某個任務后也可以通過系統自動獲得新的類似任務。鑒于在線平臺上提供個性化且多樣化教育內容的迫切需求,RL 用于教育內容生成是一個需要進一步探索的重要研究領域。

4 結論

面向教育的強化學習是未來工作中一個重要的應用領域,它可能帶來教育實際改進以及強化學習技術的新進展。EDM2021 研討會上的演講和討論突顯了社區對本文涵蓋主要領域的熱情,多樣的視角以及專家小組的評論展示了從多個學科(包括但不限于學習科學、認知科學和機器學習)中汲取思想的重要性。這種多學科視角的需求及教育應用所提出的獨特挑戰表明,繼續在此領域培養社區仍然十分必要。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/75908.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/75908.shtml
英文地址,請注明出處:http://en.pswp.cn/web/75908.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

idea的快捷鍵使用以及相關設置

文章目錄 快捷鍵常用設置 快捷鍵 快捷鍵作用ctrlshift/注釋選中內容Ctrl /注釋一行/** Enter文檔注釋ALT SHIFT ↑, ALT SHIFT ↓上下移動當前代碼Ctrl ALT L格式化代碼Ctrl X刪除所在行并復制該行Ctrl D復制當前行數據到下一行main/psvm快速生成入口程序soutSystem.o…

代碼隨想錄算法訓練營Day30

力扣452.用最少數量的箭引爆氣球【medium】 力扣435.無重疊區間【medium】 力扣763.劃分字母區間【medium】 力扣56.合并區間【medium】 一、力扣452.用最少數量的箭引爆氣球【medium】 題目鏈接:力扣452.用最少數量的箭引爆氣球 視頻鏈接:代碼隨想錄 題…

Swift —— delegate 設計模式

一、什么是 delegate 模式 所謂 delegate 就是代理模式。簡單來說,delegate 模式就是在類的函數里運行完一段代碼后,你可以通過一個符合某個代理協議的屬性來調代理的方法。其中,代理方法就是回調函數。 二、delegate 模式與閉包比的優勢 …

linux-vi和文件操作

在 Linux 系統的世界里,有一個核心思想貫穿始終,那就是 “萬物都是文件”。這一理念極大地簡化了系統資源的管理和操作,為用戶和開發者提供了統一且高效的交互方式。本文將深入探討這一理念在 Linux 文件系統中的具體體現,從硬盤分…

Endnote 21顯示字段設置與修改詳細解析(附Endnote Click)

目錄 前言字段設置與詳細解釋Endnote Click1. 安裝 Endnote Click2. 一鍵獲取Edge插件3. 安裝完成啟動插件4. 檢索期刊文獻案例5. 在 Endnote Click 我的locker中導入文獻 前言 在學術研究的漫漫征途中,高效管理參考文獻是每位學者、學生都繞不開的關鍵環節。Endno…

java使用 ?Stream 流對自定義對象數組去重的

在 Java 中,使用 Stream 流對自定義對象數組去重的核心是確保對象能正確判斷“重復”的邏輯。以下是具體實現方法及場景分析: 方法 1:直接使用 distinct()(需重寫 equals 和 hashCode) 若自定義對象已正確重寫 equals…

C++ (類的設計,對象的創建,this指針,構造函數)

類的設計 C對結構體是有增強的 可以包含函數作為結構體成員 可以直接定義變量 在結構體成員函數里面可以直接訪問結構體成員變量 struct student{string name;int age;float score;void play_game(const string &name);}void student::play_game(const string game){}…

《ADVANCING MATHEMATICAL REASONING IN LAN- GUAGE MODELS》全文閱讀

《ADVANCING MATHEMATICAL REASONING IN LAN- GUAGE MODELS: THE IMPACT OF PROBLEM-SOLVING DATA, DATA SYNTHESIS METHODS, AND TRAINING STAGES》全文閱讀 提升語言模型中的數學推理能力:問題求解數據、數據合成方法及訓練階段的影響 \begin{abstract} 數學推…

網絡測試工具:涵蓋網絡測速、密碼查看、故障判斷與網絡監測

在網絡管理與維護的廣闊領域中,網絡測試工具扮演著至關重要的角色。它們不僅簡化了復雜的網絡診斷流程,還提升了工作效率。今天推薦一款包含功能全面的網絡測試工具:InetTest,是一款免費且開源的網絡測試工具,適用于Wi…

小剛說C語言刷題——1005 - 已知一個圓的半徑,求解該圓的面積和周長

1.題目描述 已知一個圓的半徑,求解該圓的面積和周長。 輸入 輸入只有一行,只有 1個整數。 輸出 輸出只有兩行,一行面積,一行周長。(保留兩位小數)。 令 pi3.1415926。 樣例 輸入 1 輸出 3.14 6.…

【算法】快速排序

算法系列六:快速排序 一、快速排序的遞歸探尋 1.思路 2.書寫 3.搭建 3.1設計過掉不符情況(在最底層時) 3.2查驗能實現基礎結果(在最底層往上點時) 3.3跳轉結果繼續往上回搭 4.實質 二、快速排序里的基準排序 …

SoapUI 4.6.4(32位)下載安裝教程 - 兼容老舊Windows系統

SoapUI 4.6.4(32位版) 是個老版本的測試工具,專門給 32位 Windows 電腦 用的。現在最新版都是 64 位的了,但如果你還在用老系統,可能還得找這個舊版。 SoapUI 4.6.4工具下載:https://pan.quark.cn/s/c07381db8102 這…

【AI量化第24篇】KhQuant 策略框架深度解析:讓策略開發回歸本質——基于miniQMT的量化交易回測系統開發實記

我是Mr.看海,我在嘗試用信號處理的知識積累和思考方式做量化交易,應用深度學習和AI實現股票自動交易,目的是實現財務自由~ 目前我正在開發基于miniQMT的量化交易系統——看海量化交易系統。 本篇要講到量化的核心了——策略。說白了每個投資者…

Java面試黃金寶典48

1. C++ 的拷貝構造函數,深拷貝和淺拷貝 定義 拷貝構造函數:在 C++ 里,拷貝構造函數屬于特殊的構造函數,其功能是使用一個已存在的對象來初始化一個新對象。當對象以值傳遞的方式作為參數傳給函數、函數返回對象、用一個對象初始化另一個對象時,拷貝構造函數會被調用。淺拷…

OpenCV學習之獲取圖像所有點的坐標位置(二)

1.功能介紹 (1)使用openCV解析了.jpeg、.jpg、.png格式的圖像文件,輸出了圖像的寬、高、通道數; (2)創建txt格式文件,保存圖像中各像素點的rgba值。 2.環境介紹 操作系統:window10 開發語言:visual studio 2015 c++ 3.功能實現過程 3.1環境設置 (1)打開Vs2015…

B2B2C多用戶商城平臺 的兩種創新玩法

以前隨便搞個淘寶京東那樣的商城就能躺著賺錢的日子早過去了!現在市面上各種電商玩法花樣百出:小紅書那種刷著刷著就下單的"種草"電商,拼多多那種"幫我砍一刀"的社交電商,還有抖音快手那種看著視頻突然就想買…

【Bluedroid】A2DP Sink播放流程源碼分析(二)

接上一篇繼續分析:【Bluedroid】A2DP Sink播放流程源碼分析(一)_安卓a2dp sink播放流程-CSDN博客 AVDTP接收端(Sink)流事件處理 bta_av_sink_data_cback 是 Bluedroid 中 A2DP Sink 角色的 AVDTP 數據回調函數,負責處理接收端的…

抗量子算法驗證工具

抗量子算法計算工具 抗量子算法驗證工具ML-KEMML-DSASLH-DSA 抗量子算法驗證工具 2024年末,美國NIST陸續公布了FIPS-203、FIPS-204、FIPS-205算法標準文檔,抽空學習了一下,做了個算法計算工具。 ML-KEM ML-DSA SLH-DSA 需要的朋友可留言交流…

2025年PMP考試有哪些變化?難點在哪里?

PMP(項目管理專業人士資格認證)考試因其廣泛的行業認可度和實用性,成為許多專業人士提升職業競爭力的重要選擇。然而,對于初次接觸PMP考試的考生來說,其廣度與深度的平衡、理論與實踐的結合,以及跨文化思維…

Docker學習筆記-docker安裝、刪除

一、在centOS 7中docker的默認安裝目錄 # Docker 主配置文件目錄 ls /etc/docker# Docker 數據目錄(鏡像、容器、卷等) ls /var/lib/docker# Docker 可執行文件路徑 which docker # 輸出類似 /usr/bin/docker 二、docker文件目錄說明 目錄/文件用途/…