Hva må et reinforcement learning-environment kunne gjøre?
Ta imot en action, gå til en ny tilstand og returnere reward (og info om episodens slutt).
Hvilke to sentrale funksjoner finnes i de fleste RL-environments?
reset() og step(action).
Hva gjør env.reset()?
Setter environment i starttilstand og returnerer initial state og info.
Hva gjør env.step(action)?
Tar en action og returnerer:
* ny state
* reward
* done (om episoden er ferdig)
* info
Når stopper en RL-episode normalt?
Når done=True eller når et maks antall steg er nådd.
Hva illustrerer eksemplet med tre-på-rad (tic-tac-toe)?
Hvordan et environment kan definere state, actions, rewards og terminaltilstander.
Hvordan kan board-tilstanden representeres i tic-tac-toe-miljøet?
Som en streng av 9 tegn, f.eks. “012345678” hvor hver posisjon representerer en rute.
Hva må minimum implementeres i et tic-tac-toe-environment?
Hva er formålet med done i RL-environments?
Indikerer om en episode er ferdig (for eksempel ved seier, tap eller uavgjort).