Populasjon og utvalg
En populasjon består av alle mulige observasjoner man kan gjøre.
Et utvalg er en delmengde av en populasjon.
Tilfeldig utvalg
La X1,X2,…,Xn være n uavhengige stokastiske variabler, alle med samme sannsynlighetsfordeling f(x). Vi sier da at vi har et tilfeldig utvalg fra f(x)-populasjonen.
Observator
En observator er en observerbar funksjon av en eller flere stokastiske variabler som utgjør et tilfeldig utvalg.
Estimator
Anta at vi har uavhengige stokastiske variabler der Xi ~ ƒX (xi;θ) for i = 1,2,..,n, og hvor verdien til parameteren θ er ukjent.
En estimator for θ er da en observator som benyttes til å anslå verdien til θ.
Foventningsrett og forventingsskjev estimator
En estimator θ^ (theta hatt) sies å være en forventningsrett estimator for en parameter θ hvis.
E[θ^] = θ
Dersom dette ikke er oppfylt sies θ^ å være en forventingsskjev estimator for θ
Mest effisient estimator
Av flere forventingsrette estiamtorer for en parameter sier vi at den med minst varians er mest effisient
Dette bestemmes ved å se på
Var[θ^] - Var[θ~]
eller
Var[θ^]/Var[θ~]
for å finne hvilken varians som er størst.
Rimelighetsfunksjonen
Anta at X1,X2,…,Xn er stokastiske variabler med simultan sannsynlighetsfordeling f(x1,x2,…,xn;θ), der θ er en skalar parameter eller en vektor av parametre.
Anta videre at en formel for simultanfordelingen
f(x1,x2,…,xn;θ) er kjent, men at verdien til θ er ukjent. Hvis man har observerte verdier x1,x2,…xn for hver av de stokastiske variablene X1,X2,…,Xn er rimelighetsfunskjonen gitt som
L(θ;x1,x2,…,xn) = f(x1,x2,…,xn;θ)
Log-rimelighetsfunksjonen
Log-rimelighetsfunksjonen er
l(θ;x1,x2,…,xn) = ln(L(θ;x1,x2,…,xn))
Sannsynlighetsmaksimeringsprinsippet
Dersom man skal estimere verdien til en parameter θ ut fra observerte verdier x1,x2,…,xn skal man velge som estimat den verdien av θ som gjør det mest sannsynlig å observere de verdiene man faktisk har observert.
Sannsynlighetsmaksimeringsestimator (SME)
La u(x1,x2,…xn) betegne estimatet man får ved å benytte sannsynlighetsmaksimeringsprinsippet. SME for θ er da θ^ (theta hatt):
θ^ = u(X1,X2,…,Xn)
mens tilhørende observert verdi θ^ = u(x1,x2,…,xn)
Konfidensintervall
Anta at vi har stokastiske variabler X1, X2, …, Xn der sannsynlighetsfordelingen for disse inneholder en parameter θ, og der verdien til parameteren er ukjent. La x1,x2,…,xn være observerte verdier for de stokastiske variablene definert tidligere. Anta videre at man for to observatorer θ^L (X1,X2,…,Xn) og
θ^U (X1,X2,…,Xn) har at
P(θ^L (X1,X2,…,Xn) ≤ θ ≤ θ^U (X1,X2,…,Xn)) = 1 - α, der α ∈ (0,1)
Det nummeriske intervallet
[θ^L (X1,X2,…,Xn),θ^U (X1,X2,…,Xn)]
kalles da et (1 - α) · 100%-konfidensintervall for θ
Predikasjonsintervall
Anta at vi har stokastiske variabler X1, X2, …, Xn der sannsynlighetsfordelingen til disse kan avhenge av en eller flere ukjente parametre, og la x1,x2,…,xn være observerte verdier for de stokastiske variablene. Anta videre at vi har en annen stokastisk variabel X˙ som representerer en fremtidig ibservasjon og sannsynlighetsfordleingen til denne avhenger av de samme ukjente parametrene. Anta så at vi for to observatorer X˙^L (X1, X2, …, Xn)
og X˙^U (X1, X2, …, Xn) har at
P(X˙^L (X1, X2, …, Xn) ≤ X˙ ≤ X˙^U (X1, X2, …, Xn) = 1 - α der α ∈ (0,1)
Det numeriske intervallet
[X˙^L (X1, X2, …, Xn),X˙^U (X1, X2, …, Xn)] kalles da (1 - α) · 100%-predikasjonsintervallet for X˙
Statisk hypotese
En statisk hypotese er en antagelse eller påstand om egenskaper ved en eller flere populasjoner.
Null hypotese og alternatov hypotese
Nullhypotesen, H0, er hypotesen som vi ønsker å undersøke om de observerte dataene gir grunnlag for å forkaste.
Den alternative hypotesen, H1, er hypotesen vi ønsker å undersøke om dataene gir grunnlag for å konkludere med er riktig.
Type I-feil
Forkaster H0 selv om H0 er riktig
Type II-feil
Forkaster ikke H0 selv om H0 er feil
Testobservator
Anta at vi har uavhengige stokastiske variabler X1, X2, …, Xn der Xi ~ ƒX (xi;θ) for i = 1,2,..,n, og hvor verdien til parameteren θ er ukjent.
Anta videre at vi ønsker å teste en nullhypotese H0 angående verdien til θ mot en alternativ hypotese H1 om verdien til θ.
En testobservator er da en observator som har en kjent sannsynlighetsfordleing når hypotesen H0 er riktig og som benyttes for å avgjøre om man skal forkaste H0 eller ikke.
Signifikansnivå
Signifikansnivået til en hypotesetest er sannsynligheten for å (feilaktig) forkaste nullhypotesen H0, når denne hypotesen faktisk er riktig.
p-verdi
Anta at vi er i en hypotesetestingssituasjon, at vi har fomulert H0 og H1 og har valgt en testobsrvator.
Anta videre at at man har observert verdier for de stokastiske variablene involvert i hypotesetestingssituasjonen og regnet ut observert verdi for testobservatoren.
P-verdien er da sannsynligheten når H0 er rikitg, for å observere en verdi for testobservatoren som er lik den observerte verdien eller en verdi som er mer ekstrem i retning av H1.
Teststyrke
Anta at vi er i en hypotesetestingssituasjon, at vi har fomulert H0 og H1, har valgt en testobsrvator og formulert en beslutningsregel som angir kriterium for når H0 skal forkastes.
En teststyrke er da sannsynligheten for å forkaste H0 når parameteren tar en bestemt verdi der H1 er riktig.
Minste kvadraters metode
Anta at vi har observert parene (xi,yi)
i = 1,2,…,n, og at vi antar en enkel lineær regresjonsmodell for disse dataene.
I minste kvadraters metode måler man da avviket mellom de observerte y-verdiene og den tilpassede eller estimerte regresjonslinja ved kvadratsummen
SSE = ∑(yi-y(hatt)i)^2
der summen går fra i=1 til n og y(hatt) = β0(hatt) + β1(hatt)xi
Minste kvadraters metode velger så estimatene β0(hatt) og β1(hatt) slik at SSE blir minst mulig.
Minste kvadraters estimater
Anta at vi har observert parene (xi,yi)
i = 1,2,…,n, og at vi antar en enkel lineær regresjonsmodell for disse dataene.
Minste kvadraters estimater er da gitt ved: βn(hatt) = βn^
β1^ = ∑(xi - x(strek))·yi/∑(xi - x(strek)^2
der begge summene går fra i = 1 til n
β0^ = y(strek) - β1^ · x(strek)
x(strek) og y(strek) er henholdsvis gjennomsnitt til x og y.