4.3 - Environments Flashcards

(9 cards)

1
Q

Hva må et reinforcement learning-environment kunne gjøre?

A

Ta imot en action, gå til en ny tilstand og returnere reward (og info om episodens slutt).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hvilke to sentrale funksjoner finnes i de fleste RL-environments?

A

reset() og step(action).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hva gjør env.reset()?

A

Setter environment i starttilstand og returnerer initial state og info.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hva gjør env.step(action)?

A

Tar en action og returnerer:
* ny state
* reward
* done (om episoden er ferdig)
* info

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Når stopper en RL-episode normalt?

A

Når done=True eller når et maks antall steg er nådd.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hva illustrerer eksemplet med tre-på-rad (tic-tac-toe)?

A

Hvordan et environment kan definere state, actions, rewards og terminaltilstander.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvordan kan board-tilstanden representeres i tic-tac-toe-miljøet?

A

Som en streng av 9 tegn, f.eks. “012345678” hvor hver posisjon representerer en rute.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hva må minimum implementeres i et tic-tac-toe-environment?

A
  1. __init__() – opprett initial state og nyttige variabler
    1. reset() – sett miljøet til start
    2. step(action) – utfør action og oppdater state, reward, done
    3. check_winner() – sjekk om X eller O har vunnet
    4. render() – (valgfritt) vis spillbrettet
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hva er formålet med done i RL-environments?

A

Indikerer om en episode er ferdig (for eksempel ved seier, tap eller uavgjort).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly