環(huán)境的隨機性是否必然意味著mdp中的非平穩(wěn)性?
隨機環(huán)境必然也是非平穩(wěn)的嗎?要詳細說明,請考慮一個兩態(tài)環(huán)境($s_1$和$s_2$),其中有兩個操作$a_1$和$a_2$。在$s_1$中,采取行動$a_1$有一定的概率$p_1$將您
解答動態(tài)
隨機環(huán)境必然也是非平穩(wěn)的嗎?
No.
隨機環(huán)境(即具有轉(zhuǎn)換模型$p(s',r\mid s,a)$的MDP)可以是平穩(wěn)的(即$p$不隨時間變化)或非平穩(wěn)的(p$隨時間變化)。類似地,確定性環(huán)境(即概率為$1$或$0$)也可以是靜止的或非靜止的。為了強調(diào)MDP可能是非平穩(wěn)的,你可以寫$p$作為時間的函數(shù),即$p\t$(如果獎勵函數(shù)與轉(zhuǎn)移函數(shù)分離,你也可以對它做同樣的事情)。
同樣的想法適用于隨機/確定性策略,它可以是平穩(wěn)的,也可以不是平穩(wěn)的。
非平穩(wěn)環(huán)境可能導致非平穩(wěn)策略(如果需要學習環(huán)境模型,則可能需要重新學習環(huán)境模型)[1]。然而,請注意,隨機環(huán)境(即MDP)并不一定意味著隨機策略(實際上,在某些條件下,平穩(wěn)和隨機MDP已知具有確定性最優(yōu)策略[1])。
一般來說,如果某些東西(例如環(huán)境、策略、價值函數(shù)或獎勵函數(shù))是非平穩(wěn)的,這意味著它會隨著時間的推移而改變。這可以是函數(shù)或概率分布。因此,概率分布(MDP的隨機部分)可以隨時間改變,也可以不改變。如果它隨時間變化,那么它使MDP非平穩(wěn)。
但它是非平穩(wěn)的,從某種意義上說,在給定的狀態(tài)下采取某種行動所獲得的回報可能在給定的時間發(fā)生變化
非正式地說,你可以說獲得的經(jīng)驗回報是非平穩(wěn)的,因為它隨時間變化,由于報酬函數(shù)、行為策略等的隨機性,但動態(tài)(轉(zhuǎn)移函數(shù)和報酬函數(shù))仍然是固定的,因此環(huán)境仍然是靜態(tài)的。因此,環(huán)境和你迄今為止收集的經(jīng)驗(有一些行為政策)是有區(qū)別的- End
免責聲明:
本頁內(nèi)容僅代表作者本人意見,若因此產(chǎn)生任何糾紛由作者本人負責,概與琴島網(wǎng)公司無關(guān)。本頁內(nèi)容僅供參考,請您根據(jù)自身實際情況謹慎操作。尤其涉及您或第三方利益等事項,請咨詢專業(yè)人士處理。