4.3 - Environments Flashcards

Question 1

Q

Hva må et reinforcement learning-environment kunne gjøre?

Answer

A

Ta imot en action, gå til en ny tilstand og returnere reward (og info om episodens slutt).

Question 2

Q

Hvilke to sentrale funksjoner finnes i de fleste RL-environments?

Answer

A

reset() og step(action).

Question 3

Q

Hva gjør env.reset()?

Answer

A

Setter environment i starttilstand og returnerer initial state og info.

Question 4

Q

Hva gjør env.step(action)?

Answer

A

Tar en action og returnerer:
* ny state
* reward
* done (om episoden er ferdig)
* info

Question 5

Q

Når stopper en RL-episode normalt?

Answer

A

Når done=True eller når et maks antall steg er nådd.

Question 6

Q

Hva illustrerer eksemplet med tre-på-rad (tic-tac-toe)?

Answer

A

Hvordan et environment kan definere state, actions, rewards og terminaltilstander.

Question 7

Q

Hvordan kan board-tilstanden representeres i tic-tac-toe-miljøet?

Answer

A

Som en streng av 9 tegn, f.eks. “012345678” hvor hver posisjon representerer en rute.

Question 8

Q

Hva må minimum implementeres i et tic-tac-toe-environment?

Answer

A

__init__() – opprett initial state og nyttige variabler
1. reset() – sett miljøet til start
2. step(action) – utfør action og oppdater state, reward, done
3. check_winner() – sjekk om X eller O har vunnet
4. render() – (valgfritt) vis spillbrettet

Question 9

Q

Hva er formålet med done i RL-environments?

Answer

A

Indikerer om en episode er ferdig (for eksempel ved seier, tap eller uavgjort).

(9 cards)