Vahvistusoppiminen
Vahvistusoppiminen (eli Trial and error -oppiminen)[1] on koneoppimisen ongelmanratkaisutekniikka, jossa agentti tutkii ympäristöä, jonka tilan se havaitsee, ja toimii sen mukaisesti. Ympäristö antaa toiminnan mukaan palautteen, joka voi olla positiivista tai negatiivista. Algoritmi pyrkii löytämään ongelmaan ratkaisun, joka tuottaa eniten positiivista palautetta. Ongelman ympäristö on tyypillisesti äärellinen Markovin päätösprosessi.
Vahvistusoppiminen eroaa ohjatusta oppimisesta siten, että oikeita syöte–tulos-pareja ei tarvita, eikä heikkoja ratkaisuja varsinaisesti korjata. Tavoitteena voi olla elinikäinen oppiminen, johon kuuluu tasapainottelu tutkimattomien polkujen kartoittamisen ja tunnettujen reittien käyttämisen välillä.
Vahvistusoppimisen perusmalliin kuuluvat:
- tilajoukko S
- toimintojoukko A ja
- palkkioiden joukko, jossa r .
Kullakin hetkellä t agentti havaitsee tilan st S ja mahdollisten toimintojen joukon A(st). Agentti valitsee toiminnon aA(st) ja saa ympäristöltä uuden tilan st+1 sekä palkkion rt+1. Vuorovaikutuksen perusteella agentti muodostaa menettelytavan π:SA, joka maksimoi summan R=r0+r1+...+rn Markovin päätösprosesseille joilla on lopputila, tai summan R=Σtγtrt prosesseille, joilla ei ole lopputilaa.