Hva er self-supervised learning (SSL)?
En form for unsupervised learning hvor labels genereres automatisk fra dataene selv, slik at modellen kan trenes uten menneskeskapte labels.
SSL utnytter umerkede data for å lære representasjoner.
Hvordan skiller SSL seg fra vanlig supervised learning?
I supervised learning kommer labels fra mennesker; i SSL genereres labels direkte fra eksisterende data gjennom en oppgave modellen lager selv.
Dette gjør SSL mer effektivt i situasjoner med lite tilgjengelige labels.
Hva er en pretext task i SSL?
En kunstig oppgave modellen trener på, for eksempel å predikere manglende deler av data. Målet er å lære nyttige representasjoner – ikke nødvendigvis å løse oppgaven i seg selv.
Pretext tasks er essensielle for å utvikle generaliserbare modeller.
Hva er pre-training i SSL?
En fase der modellen lærer generelle egenskaper fra store mengder umerkede data, ofte gjennom en pretext task.
Pre-training gir et solid grunnlag for videre læring.
Hva er fine-tuning i SSL?
En fase der den pre-trente modellen tilpasses en ny, veiledet oppgave ved bruk av labeled data, ofte med lav læringsrate.
Fine-tuning er kritisk for å spesialisere modellen for spesifikke oppgaver.
Hvordan ligner fine-tuning på transfer learning?
Fordi modellen først lærer generelle representasjoner, og disse kun tilpasses litt når den brukes på en spesifikk oppgave med labels.
Transfer learning utnytter tidligere læring for å forbedre ytelse på nye oppgaver.
Hvorfor bruker man ofte lav læringsrate i fine-tuning?
For å unngå store endringer i parametrene som allerede inneholder nyttig informasjon fra pre-treningen.
Lav læringsrate bidrar til stabilitet i læringsprosessen.
Hvorfor er SSL spesielt nyttig for språkmodeller?
Fordi det finnes enorme mengder umerkede tekstdata som kan brukes til pre-training, mens labeled språkdata er mer begrenset og kostbart å produsere.
Dette gjør SSL til en kostnadseffektiv tilnærming for språkmodeller.
Hva er de tre fasene i moderne store språkmodeller?
(1) Pre-training på enorme tekstmengder, (2) fine-tuning på språkoppgaver med labels, (3) reinforcement learning from human feedback (RLHF).
Disse fasene bidrar til å utvikle robuste og effektive språkmodeller.
Hva gjør pre-training i språkmodeller?
Modellen lærer å forutsi manglende ord eller neste token, noe som gir en generell forståelse av språk.
Dette er essensielt for å bygge en solid språkforståelse.
Hva gjør fine-tuning i språkmodeller?
Tilpasser modellen til konkrete oppgaver, som sentimentanalyse eller klassifisering.
Fine-tuning er avgjørende for å oppnå høy ytelse på spesifikke oppgaver.
Hva er RLHF?
En fase hvor modellen justeres basert på menneskelig tilbakemelding for å få mer hjelpsomme og trygge svar.
RLHF forbedrer kvaliteten på modellens svar ved å integrere menneskelig vurdering.