ALNS的MDP模型| 還沒整理完12-08

有好幾篇論文已經這樣做了,先擺出一篇,然后再慢慢更新

第一篇

在這里插入圖片描述

該篇論文提出了一種稱為深增強ALNS(DR-ALNS)的方法,它利用DRL選擇最有效的破壞和修復運營商,配置破壞嚴重性參數施加在破壞算子上,并設置ALNS框架內的驗收標準值。DRL在每次搜索迭代時配置ALNS。與其他基于DRL的針對特定的優化問題的方法,這篇論文的目標是以一種概括的方式利用DRL。

為了實現這一點,該方法除了定義的破壞算子和修復算子,不依賴于任何特定于問題的信息。下圖提供了用于DR-ALNS的偽代碼和訓練算法。
在這里插入圖片描述

在該方法中,學習選擇破壞和修復策略,配置破壞度,并在自適應大鄰域搜索過程的每次迭代中設置驗收標準參數。
將這個學習問題建模為一個連續的決策過程,在這個過程中,代理人通過采取行動和觀察結果與環境進行交互。該過程使用稱為馬爾可夫決策過程(MDP)的數學框架來建模,其表示為元組<S,A,R,P>。

狀態空間S為DRL代理提供了所需的信息,用于在搜索迭代期間做出明智的決策以選擇最佳的可能動作。為了實現這一點,我們將S表示為包含7個問題不可知特征的一維向量,如表1所示。這些特征為代理提供了關于搜索過程的相關信息,

包括:
當前解決方案是否是迄今為止找到的最佳解決方案,
最佳解決方案最近是否已被改進,
當前解決方案最近是否已被接受
新的當前解決方案是否是新的最佳解決方案,
與最佳解決方案的成本差異百分比,
未改進最佳解決方案的迭代次數
剩余搜索預算百分比

在這里插入圖片描述
動作空間A由破壞算子選擇、修復算子選擇、破壞度配置、驗收標準參數設置四個動作空間組成。在每個時間步,DRL代理必須為每個空間選擇一個操作。
在這里插入圖片描述

?不是選擇一組動作而是選擇單個動作?

獎勵函數
在這里插入圖片描述

狀態轉移函數P是由DRL主體通過與環境交互來學習的,因為主體沒有關于它的先驗知識。通過以這種方式制定MDP,我們為DRL主體提供了一個問題不可知的環境來學習如何選擇動作。這意味著狀態空間S和獎勵函數R不依賴于任何特定于問題的信息。為了使用該方法,實踐者只需要定義破壞“和修復”算子,然后使用它們在MDP中創建動作空間A。

?不是選擇一組動作而是選擇單個動作?
沒讀懂…

摘要中寫
.ALNS在搜索過程中自適應地選擇各種算法,利用它們的優勢為優化問題找到好的解決方案。然而,ALNS的有效性取決于其選擇和驗收參數的適當配置。為了解決這一限制,我們提出了一種深度強化學習(DRL)方法,該方法在搜索過程中選擇算法、調整參數并控制接受標準。
ALNS的殼,DRL的芯?

所提出的方法的目的基于搜索狀態,學習如何配置ALNS的下一次迭代,以獲得良好的解決方案的基礎優化問題。

第二篇

在這里插入圖片描述

這個是根據表現選擇算法對兒 ,該框架使用深度強化學習(Deep RL)作為ALNS自適應層的替代方案,與僅考慮搜索引擎的過去性能以用于未來選擇的自適應層不同,深度RL代理能夠考慮來自搜索過程的附加信息,例如,迭代之間目標值的差異,以做出更好的決策。這是由于深度學習方法的表示能力和深度RL代理的決策能力,可以學習適應不同的問題和實例特征。

常見的算子也給改了
在這里插入圖片描述
狀態空間

在這里插入圖片描述
動作空間就是選擇啟發式

獎勵函數 5310
在這里插入圖片描述
這兩篇的訓練方法都是PPO

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/206776.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/206776.shtml
英文地址,請注明出處:http://en.pswp.cn/news/206776.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

請簡要介紹一下HTML的發展史?

問題&#xff1a;什么是池化思想&#xff1f; 回答&#xff1a; 池化思想是一種資源管理的策略&#xff0c;通過事先創建并維護一組已經初始化好的資源對象池&#xff0c;以便在需要時快速獲取資源并在用完后歸還給池&#xff0c;以減少資源的創建和銷毀開銷&#xff0c;提高資…

第二十一章網絡通信總結

21.1 網絡程序設計基礎 Java網絡程序設計基礎涉及使用Java編程語言創建網絡應用程序。這通常涉及到使用Java的網絡API&#xff0c;如java.net包&#xff0c;以建立客戶端和服務器之間的通信。 基本步驟包括&#xff1a; 1.創建服務器&#xff1a; 使用ServerSocket類創建服務…

常見的中間件--消息隊列中間件測試點

最近刷題&#xff0c;看到了有問中間件的題目&#xff0c;于是整理了一些中間件的知識&#xff0c;大多是在小破站上的筆記&#xff0c;僅供大家參考~ 主要分為七個部分來分享&#xff1a; 一、常見的中間件 二、什么是隊列&#xff1f; 三、常見消息隊列MQ的比較 四、隊列…

用戶管理 --匯總

一、第一節課 1.1 本人寫的 前端&#xff1a; 魚皮 --&#xff1e; 用戶中心 第1節課-CSDN博客 中期&#xff1a; 一、用戶管理 第1節課中間-CSDN博客 后端&#xff1a; 一、用戶管理-CSDN博客 其他的鏈接 億圖腦圖MindMaster 1.2 優秀球友&#xff0c;推薦 Docs 另…

12_企業架構之Tomcat部署使用

Tomcat 學習目標和內容 1、能夠描述Tomcat的使用場景 2、能夠簡單描述Tomcat的工作原理 3、能夠實現部署安裝Tomcat 4、能夠實現配置Tomcat的service服務和自啟動 5、能夠實現Tomcat的Host的配置 6、能夠實現Nginx反向代理Tomcat 7、能夠實現Nginx負載均衡到Tomcat 一、Tomcat介…

Abaqus許可證配置文件問題

在使用Abaqus工程設計和仿真軟件時&#xff0c;您可能會遇到許可證配置文件問題。這些問題可能會影響軟件的正常運行和工作效率。為了幫助您解決這些問題&#xff0c;我們特別撰寫了這篇文章&#xff0c;以提供全面、有效的解決方案。 一、Abaqus許可證配置文件問題及原因 許…

力扣labuladong一刷day32天二叉樹

力扣labuladong一刷day32天二叉樹 一、297. 二叉樹的序列化與反序列化 題目鏈接&#xff1a;https://leetcode.cn/problems/serialize-and-deserialize-binary-tree/ 思路&#xff1a;關于序列化與反序列化&#xff0c;題目不要求序列化的方式&#xff0c;只要求樹經過序列化…

linux的定時任務Corntab

安裝crontab # yum安裝crontab yum install -y crontab# 開機自啟crond服務并現在啟動 systemctl enable --now crondcron系統任務調度 系統任務調度&#xff1a; 系統周期性所要執行的工作&#xff0c;比如寫緩存數據到硬盤、日志清理等。 在/etc/crontab文件&#xff0c;這…

機器學習之全面了解回歸學習器

我們將和大家一起探討機器學習與數據科學的主題。 本文主要討論大家針對回歸學習器提出的問題。我將概要介紹&#xff0c;然后探討以下五個問題&#xff1a; 1. 能否將回歸學習器用于時序數據&#xff1f; 2. 該如何縮短訓練時間&#xff1f; 3. 該如何解釋不同模型的結果和…

No suitable driver found for jdbc:mysql://localhost:3306(2023/12/7更新)

有兩種情況&#xff1a; 壓根沒安裝下載了但沒設為庫或方法不對 大多數為第一種情況&#xff1a; 一. 下載jdbc 打開網址選擇一個版本進行下載 https://nowjava.com/jar/version/mysql/mysql-connector-java.html 二.安裝jdbc 在項目里建一個lib文件夾 在把之前下載的jar文…

優化 SQL 日志記錄的方法

為什么 SQL 日志記錄是必不可少的 SQL 日志記錄在數據庫安全和審計中起著至關重要的作用&#xff0c;它涉及跟蹤在數據庫上執行的所有 SQL 語句&#xff0c;從而實現審計、故障排除和取證分析。SQL 日志記錄可以提供有關數據庫如何訪問和使用的寶貴見解&#xff0c;使其成為確…

JNPF低代碼平臺詳解 -- 系統架構

目錄 一、技術介紹 技術架構 二、設計原理 三、界面展示 1.代碼生成器 2.工作流程 3.門戶設計 4.大屏設計 5.報表設計 6.第三方登錄 7.多租戶實現 8.分布式調度 9.消息中心 四、功能框架 JNPF低代碼是一款新奇、實用、高效的企業級軟件開發工具&#xff0c;支持企…

Qt/C++音視頻開發58-逐幀播放/上一幀下一幀/切換播放進度/實時解碼

一、前言 逐幀播放是近期增加的功能&#xff0c;之前也一直思考過這個功能該如何實現&#xff0c;對于mdk/qtav等內核組件&#xff0c;可以直接用該組件提供的接口實現即可&#xff0c;而對于ffmpeg&#xff0c;需要自己處理&#xff0c;如果有緩存的數據的話&#xff0c;可以…

Rust的eBFP框架Aya(一) - Linux內核網絡基礎

前言 在我的Rust入門及實戰系列文章中已經說明&#xff0c; Rust是一門內存安全的高性能編程語言&#xff0c;從它的這些優秀特性來看&#xff0c;就是一門專為系統開發而誕生的語言。至于很多使用Rust來進行web開發的行為&#xff0c;不能說它們不好&#xff0c;只能說是殺雞…

2017下半年軟工(橋接模式)

題目——橋接模式&#xff08;抽象調用實現部分&#xff09; package org.example.橋接模式;/*** 橋接模式的核心思想是將抽象部分與它的實現部分分離&#xff0c;使它們可以獨立變化&#xff0c;就是說你在實現部分&#xff1a;WinImp、LinuxImp基礎上還能加上RedHatImp&#…

03-微服務架構構建之微服務拆分

文章目錄 前言一、微服務拆分的原則二、微服務拆分的時機三、微服務拆分的方法總結 前言 微服務架構是將一個單體應用程序拆分為一個個獨立且保持松耦合的服務的一種架構方式&#xff0c;每個服務有著獨立的數據庫并且能獨立運行部署。微服務架構的構建過程中&#xff0c;第一…

偷竊別人的密碼

在工作中都用到virtual machine吧&#xff0c;同事之間還互相借用機器&#xff0c;或者不借用但憑借自己的域賬號能登錄任意機器&#xff0c;而且每個域賬號都有sudo權限&#xff1f; 那你要小心了&#xff01; 因為我可以輕易記錄下每個ssh登錄到我機器&#xff0c;或者我在…

uniapp 輸入框輸入時,會將內容頂上去的解決方案

// 設置頁面最小高度 export const setPageMinHeight () > {return {position: relative,min-height: uni.getSystemInfoSync().windowHeight px} }頁面使用&#xff1a; import {setPageMinHeight} from "/utils/uniUtil";data() {return {minHeight: setPag…

Unity 狀態系統

狀態系統 原理食用方法Demo 原理 #mermaid-svg-lUbxJ8eMP3KqrEhY {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-lUbxJ8eMP3KqrEhY .error-icon{fill:#552222;}#mermaid-svg-lUbxJ8eMP3KqrEhY .error-text{fill:#55…

官方officevisio在線安裝包

在線安裝包&#xff0c;在線就是要有網絡環境&#xff0c;你能搜到這篇博客&#xff0c;就初步具備網絡環境 visio在線安裝包.zip官方版下載丨最新版下載丨綠色版下載丨APP下載-123云盤 在線安裝包如下&#xff0c;雙擊執行安裝即可&#xff0c;可供選擇的64/32位 軟件的激活與…