Prioritized Experience Replay

Progetto di ricerca: Reinforcement Learning Actor-Critic Deep-Q Recurrent Networks for timeseries prediction

Come ottenere prestazioni migliori e training dei modelli di reinforcement learning più rapidi utilizzando una Riproduzione prioritizzata dell’esperienza?
Dal paper originale di DeepMind: Prioritized Experience Replay

La riproduzione dell’ esperienza consente ad un agente di reinforcement learning di raccogliere, ricordare e riutilizzare le esperienze del passato. Queste transizioni d’esperienza vengono solitamente campionate in modo uniforme da una memoria di riproduzione e quindi utilizzate per il training.
Tuttavia, questo approccio riproduce semplicemente le transizioni alla stessa frequenza con cui sono state originariamente sperimentate, indipendentemente dalla loro importanza o dalla magnitudine del proprio errore di differenza temporale (TD error).

Risulta che le sequenze associate ai premi sembrano essere riprodotte più frequentemente nei cervelli biologici (Atherton et al., 2015; Ólafsdóttir et al., 2015; Foster & Wilson, 2006) come esperienze con grande magnitudine L’errore TD, inoltre, sembra essere riprodotto più spesso (Singer & Frank, 2009; McNamara et al., 2014)).
La misura di tale grandezza dell’errore di differenza temporale fornisce di per sé un modo per misurare queste priorità di aggiornamento, ciononostante l’approccio proposto nel paper di DeepMind per il training di modelli RL model-free utilizza invece una priorità stocastica che, come viene dimostrato, si dimostra più robusta nella fase di apprendimento tramite campionamento dell’esperienza.

Obiettivi:

Basandoci su tale documento, stiamo implementando nel nostro agente questo tipo riproduzione prioritizzata dell’esperienza . Ciò significa che vogliamo riprodurre le transizioni importanti più frequentemente, e quindi consentire al modello di imparare più velocemente e in modo più efficiente.
L’idea chiave è che un agente RL possa imparare in modo più efficace da alcune transizioni piuttosto che da altre e quindi, vogliamo confrontare tutti i possibili benefici di una prioritizzazione stocastica invece di una semplice prioritizzazione basata sulla TD error.

Ambiente di test:

Stiamo testando la riproduzione prioritizzata dell’esperienza in un modello che utilizza Deep Q-Recurrent Networks (DQRNN) in un ambiente appositamente personalizzato, prevedendo che questo agente raggiungerà un nuovo stato dell’arte, sovraperformando il nostro modello precedente con riproduzione uniforme.