色色一区二区三区,一本大道道久久九九AV综合,国产香蕉97碰碰视频va碰碰看,综合亚洲国产2020

    <legend id="mljv4"><u id="mljv4"><blockquote id="mljv4"></blockquote></u></legend>

    <sub id="mljv4"><ol id="mljv4"><abbr id="mljv4"></abbr></ol></sub>
      <mark id="mljv4"></mark>

      環(huán)境的隨機性是否必然意味著mdp中的非平穩(wěn)性?

      2021-02-25 14:36

      隨機環(huán)境必然也是非平穩(wěn)的嗎?要詳細說明,請考慮一個兩態(tài)環(huán)境($s_1$和$s_2$),其中有兩個操作$a_1$和$a_2$。在$s_1$中,采取行動$a_1$有一定的概率$p_1$將您

      解答動態(tài)

      • 隨機環(huán)境必然也是非平穩(wěn)的嗎?
        No.
        隨機環(huán)境(即具有轉(zhuǎn)換模型$p(s',r\mid s,a)$的MDP)可以是平穩(wěn)的(即$p$不隨時間變化)或非平穩(wěn)的(p$隨時間變化)。類似地,確定性環(huán)境(即概率為$1$或$0$)也可以是靜止的或非靜止的。為了強調(diào)MDP可能是非平穩(wěn)的,你可以寫$p$作為時間的函數(shù),即$p\t$(如果獎勵函數(shù)與轉(zhuǎn)移函數(shù)分離,你也可以對它做同樣的事情)。
        同樣的想法適用于隨機/確定性策略,它可以是平穩(wěn)的,也可以不是平穩(wěn)的。
        非平穩(wěn)環(huán)境可能導致非平穩(wěn)策略(如果需要學習環(huán)境模型,則可能需要重新學習環(huán)境模型)[1]。然而,請注意,隨機環(huán)境(即MDP)并不一定意味著隨機策略(實際上,在某些條件下,平穩(wěn)和隨機MDP已知具有確定性最優(yōu)策略[1])。
        一般來說,如果某些東西(例如環(huán)境、策略、價值函數(shù)或獎勵函數(shù))是非平穩(wěn)的,這意味著它會隨著時間的推移而改變。這可以是函數(shù)或概率分布。因此,概率分布(MDP的隨機部分)可以隨時間改變,也可以不改變。如果它隨時間變化,那么它使MDP非平穩(wěn)。
        但它是非平穩(wěn)的,從某種意義上說,在給定的狀態(tài)下采取某種行動所獲得的回報可能在給定的時間發(fā)生變化
        非正式地說,你可以說獲得的經(jīng)驗回報是非平穩(wěn)的,因為它隨時間變化,由于報酬函數(shù)、行為策略等的隨機性,但動態(tài)(轉(zhuǎn)移函數(shù)和報酬函數(shù))仍然是固定的,因此環(huán)境仍然是靜態(tài)的。因此,環(huán)境和你迄今為止收集的經(jīng)驗(有一些行為政策)是有區(qū)別的

        • End

        免責聲明:

        本頁內(nèi)容僅代表作者本人意見,若因此產(chǎn)生任何糾紛由作者本人負責,概與琴島網(wǎng)公司無關(guān)。本頁內(nèi)容僅供參考,請您根據(jù)自身實際情況謹慎操作。尤其涉及您或第三方利益等事項,請咨詢專業(yè)人士處理。