3.4 - Selv-supervised learning Flashcards

Question 1

Q

Question 2

Q

Hva er self-supervised learning (SSL)?

Answer

A

En form for unsupervised learning hvor labels genereres automatisk fra dataene selv, slik at modellen kan trenes uten menneskeskapte labels.

SSL utnytter umerkede data for å lære representasjoner.

Question 3

Q

Hvordan skiller SSL seg fra vanlig supervised learning?

Answer

A

I supervised learning kommer labels fra mennesker; i SSL genereres labels direkte fra eksisterende data gjennom en oppgave modellen lager selv.

Dette gjør SSL mer effektivt i situasjoner med lite tilgjengelige labels.

Question 4

Q

Hva er en pretext task i SSL?

Answer

A

En kunstig oppgave modellen trener på, for eksempel å predikere manglende deler av data. Målet er å lære nyttige representasjoner – ikke nødvendigvis å løse oppgaven i seg selv.

Pretext tasks er essensielle for å utvikle generaliserbare modeller.

Question 5

Q

Hva er pre-training i SSL?

Answer

A

En fase der modellen lærer generelle egenskaper fra store mengder umerkede data, ofte gjennom en pretext task.

Pre-training gir et solid grunnlag for videre læring.

Question 6

Q

Hva er fine-tuning i SSL?

Answer

A

En fase der den pre-trente modellen tilpasses en ny, veiledet oppgave ved bruk av labeled data, ofte med lav læringsrate.

Fine-tuning er kritisk for å spesialisere modellen for spesifikke oppgaver.

Question 7

Q

Hvordan ligner fine-tuning på transfer learning?

Answer

A

Fordi modellen først lærer generelle representasjoner, og disse kun tilpasses litt når den brukes på en spesifikk oppgave med labels.

Transfer learning utnytter tidligere læring for å forbedre ytelse på nye oppgaver.

Question 8

Q

Hvorfor bruker man ofte lav læringsrate i fine-tuning?

Answer

A

For å unngå store endringer i parametrene som allerede inneholder nyttig informasjon fra pre-treningen.

Lav læringsrate bidrar til stabilitet i læringsprosessen.

Question 9

Q

Hvorfor er SSL spesielt nyttig for språkmodeller?

Answer

A

Fordi det finnes enorme mengder umerkede tekstdata som kan brukes til pre-training, mens labeled språkdata er mer begrenset og kostbart å produsere.

Dette gjør SSL til en kostnadseffektiv tilnærming for språkmodeller.

Question 10

Q

Hva er de tre fasene i moderne store språkmodeller?

Answer

A

(1) Pre-training på enorme tekstmengder, (2) fine-tuning på språkoppgaver med labels, (3) reinforcement learning from human feedback (RLHF).

Disse fasene bidrar til å utvikle robuste og effektive språkmodeller.

Question 11

Q

Hva gjør pre-training i språkmodeller?

Answer

A

Modellen lærer å forutsi manglende ord eller neste token, noe som gir en generell forståelse av språk.

Dette er essensielt for å bygge en solid språkforståelse.

Question 12

Q

Hva gjør fine-tuning i språkmodeller?

Answer

A

Tilpasser modellen til konkrete oppgaver, som sentimentanalyse eller klassifisering.

Fine-tuning er avgjørende for å oppnå høy ytelse på spesifikke oppgaver.

Question 13

Q

Hva er RLHF?

Answer

A

En fase hvor modellen justeres basert på menneskelig tilbakemelding for å få mer hjelpsomme og trygge svar.

RLHF forbedrer kvaliteten på modellens svar ved å integrere menneskelig vurdering.

3.4 - Selv-supervised learning Flashcards

(13 cards)