內容源自“圖靈學術博研社”gongzhonghao
學校簡介
謝菲爾德大學(The University of Sheffield)是英國久負盛名的公立研究型大學,也是羅素集團成員之一。在 2026 年 QS 世界大學排名中,謝菲爾德大學位列第92位,其中計算機科學、工程學等學科常年位居英國乃至歐洲前列。
導師簡介
本項目由Dr. Bei Peng與Dr. Robert Loftin共同指導,兩位導師均在人工智能與強化學習領域擁有豐富的研究經驗與深厚的學術造詣。
Dr. Bei Peng 專注于強化學習、人類反饋機制及智能系統優化方向,其研究聚焦于如何通過人類反饋提升復雜任務中智能體的學習效率,相關成果在國際頂級學術會議上備受關注。
Dr. Robert Loftin 則在機器學習算法設計、深度學習與強化學習交叉領域深耕多年,擅長將理論模型轉化為實際應用解決方案,為項目提供了堅實的技術支撐與跨學科視角。
招生信息
招生類型:博士研究生
研究方向:基于人類反饋的強化學習(RLHF)新算法研究,具體可探索大語言模型(LLMs)的微調與對齊、機器人系統中的人類反饋應用、利用大語言模型自動生成 / 解析自然語言反饋并融入 RLHF 框架等方向(可根據學生興趣靈活調整)
核心目標:開發新型 RLHF 框架,在減少人類交互反饋需求的同時,實現更復雜智能行為的學習
預計入學時間:2026 年 2 月(時間可靈活商議)
申請截止日期:2025 年 10 月 31 日
福利待遇
1.英國本土學生享受全額資助的 3.5 年博士獎學金,涵蓋學費及生活費用,為科研期間的生活與學習提供穩定保障;
2.國際學生:獎學金覆蓋按英國學生標準計算的學費部分,鼓勵申請外部資助以解決學費差額及生活費用;
3.可依托謝菲爾德大學先進的計算機實驗室與人工智能平臺開展研究,獲得充足的實驗資源與技術支持;
申請要求
1.具有計算機科學、數學或相關專業的本科或碩士學位;
2.具備扎實的編程能力與機器學習 / 強化學習數學基礎,熟悉強化學習核心理論與算法;
3.熟練掌握 Python 編程語言,精通 PyTorch、TensorFlow 等主流深度學習與機器學習框架;
4.良好的英語溝通能力,雅思成績不低于 6.5 分,且單項成績不低于 6.0 分。
申請方式
申請渠道:通過官方鏈接了解項目詳情并提交申請:
https://www.findaphd.com/phds/project/new-algorithms-for-reinforcement-learning-from-human-feedback/?p=186459
材料備注:申請時請務必注明擬導師為 Dr. Bei Peng 和 Dr. Robert Loftin;
咨詢方式:如有疑問,可發送郵件至 Dr. Bei Peng 的郵箱(beipeng@sheffield.ac.uk)進行咨詢