Grunden - 5 grundfrågor till testning (FL2)
FL 2: 1. Analys av behov
2. Val av testmetod
3. Utförande och tolkning
4. Återföring till den testade, → ex. diagnos, begåvning, rekrytering eller ej, osv.
5. Hantering av resultat
Styrkor med test
Tidseffektiva
Mycket information på kort tid
Enkla att använda
Tydliga instruktioner, rättningsmallar m.m.
Objektiva
Tydliga kriterier och normer
Utvecklade för att mota fallgropar: standardiserade för ökad relevans, bättre mätprecision & mindre slumppåverkan
Idealkriterier
Vi önskar hittar kriterier på framgång i arbetslivet och då måste testet vara:
Objektivt
Reliabelt
Giltigt & relevant (validitet)
Särskiljande
CTT, IRT och CAT
CTT – classical test theory
Alla kör samma test i samma ordning
IRT – item response theory
Vid begåvningstest: Mjukvaran känner av och anpassar (ex. puttar fram testpersonen och låter hoppa över vissa frågor, ex.)
→ Testet är digitalt och dynamiskt
En variant är CAT – Computer adaptiv testning
Digitala test + utmaningar
Tex MAP (BIG-5) och MATRIGMA (IQ)
Utmaningar om man gör dem på distans:
Vem svarar egentligen på frågorna/uppgifterna?
Samarbetar flera ihop?
Letar personen svar/lösningar på nätet?
Sparar man ner items och sprider?
Snarlika problem som finns med hemtentor…
Snabb- vs styrketest
Snabbtest (tex delar av BASIQ)
- Många lätta uppgifter under tidspress
- Mäter snabbhet och effektivitet
Styrketest (tex Ravens matriser)
- Färre men svårare uppgifter
- Mäter problemlösningsförmåga utan tidspress
Testkvalitet bygger på 3 faktorer:
utformning
administrativ standardisering
teknisk standardisering
Utmaning vid mätning av typiskt utförande
Utmaning vid mätning av typiskt utförande, pga ibland tala TP intE sanning
Därför vill utformningen:
Minska sannolikheten för överdrifter och lögn
Mäta graden av skönmålning
→ Korrigera för den
Metoder för att förbättra mätningen vid typiskt-utförande-test & öka sanningsenliga svar
Good report (instruktion)
⇒ uppmana till att svara sanningsenligt
Använda speciell itemkonstruktion
Forced choice – “välj två av fyra, bäst och sämst” eller ”ja - nej”
(Ej FC– ”ja - vet ej - nej”)
Korrigera för skönmålning
Olika inbyggda skalor i testet
Social (orimlig) önskvärdhet
T.ex. Jag är alltid villig att hjälpa andra
Ingen kan välja att man ALLTID gör det
Validitetsskalor för svarsstilen
T.ex. ja- och nejsägande (tex stor mängd ja)
Itemformat
Normativt = skalfrågor (tex 1-5) inom samma skala
Individen jämförs mot en norm, tex: ”Hur mycket sälta har osten?”
Ipsativt (ipse = jag själv):
Tvingas till val mellan olika skalor (tex arbetsam ställs mot social) och ger en ”profil” för individen
Individen kan inte jämföras mot en traditionell norm. Tex: ”Är den mest bra att skriva med eller äta till kex?”
- Går inte att särskilja personer i tex ansökningar till jobb med ipsativt test…
Administrativ standardisering
Strikta anvisningar
Strama administrativa testprocedurer
→ Individerna ska testas under så snarlika förhållanden som möjligt
Tydliga ramar för den som bjuder testet
Tydliga instruktioner till den som ska testas
Behöver man 500 hp för att ens komma igång (?)
Stora skillnader i olika manualer
Teknisk standardisering + normering
Utprövat för en viss (vissa) population(er)
Testet ska vara normerat, tex: Kön, Ålder, Yrke, Länder
Normalspridningspopulationer
- Kandidater, aspiranter, chefer (nivå)
- Säljare, piloter, revisorer (yrkesrelaterat)
- Vuxna, barn, ungdom (ålder)
Kliniska populationer
- Psykiatrisk (tex ångest)
- Neuropsykiatrisk (tex ADHD)
- Stressade (tex olika faktorer & nivåer)
Itemanalyser utförs: för att få ut normering. Följer resultat normalfördelningskurvan? Teste diskriminerar (särskiljer) mellan individer
Normering: relevanta normgrupper för ändamålet. Homer får ett resultat och vi kan relatera hans resultat till normgruppens
Olika test & skalor (kolla bilden)
Det finns massor med test & tyvärr utgår inte alla från samma skala, vilket skapar utmaningar om vi vill jämföra test. Då måste vi kunna relatera skalorna
OBS! Endast vid normativa test
Karins resultat på test A ←→ Karins resultat på test B
- Standardskalor: olika skalor i jämförelse med varandra
Uppdateringar
Ord, kunskaper & uppfattningar förändras. Items kan därför kännas gamla/omoderna
Men, förändras ett item så faller normeringen, och uppdateringar är alltså extremt kostsamma
Så därför ändrar man ofta flera item åt gången
Kort definition validitet och reliabilitet
Validitet: mäter man det man avser att mäta
Reliabilitet: tillförlitlighet hos mätningen
Mer om validitet
Frånvaro av systematiska mätfel
Mäter testet det man avsåg att mäta (t.ex. verbal begåvning)
Presenterade bevis för att teori och empiri stödjer användandet av metoden
Testets relevans (produktlöfte)
Begreppsvaliditet
I vilken grad mäter testet det begrepp det är tänkt att mäta
Ex. mäter testet begreppet neuroticism?
Ett sätt att utforska är att testet jämförs med andra väletablerade test
Kallas även diskriminativ validitet. Dvs, diskriminerar det mellan olika begrepp
Innehållsvaliditet
I vilken grad testets items är relaterade till alla aspekter av de begrepp det skall mäta
Hur representativt är testet för sitt område
Ex. items täcker av alla delar kring neuroticism. Hur många frågor behöver då ställas?
Kriterievaliditet (empirisk validitet) (? va menas med samtidig)
Testets korrelation med vissa kriterier (krav)
- Prediktiv, ex. högskoleprovet och framtida studieresultat (hp bra prediktiv validitet)
- Samtidig, ex. ett test följt av ett annat
- Samtidig, ex. testar framgångsrika chefer och analyserar
Extern (ekologisk) validitet
Graden av generaliserbarhet
Är testet bara giltigt inom tex forskningen?
Kan det användas i det verkliga livet?
”Face”-validitet
Upplevs testet som rimligt och giltigt? Anser den testade att detta mäter rätt?
Ex man testas i en rekrytering / vid utredning av ohälsa
- Mätsäkerhet förutsätter hög ”face”-validitet!
Men, hög f.v. betyder inte att allt är bra
→ kan för den enskilda personen ha låg face-validity
Så, ett test kan alltså inte förutsättas vara tillförlitligt bara för att det har hög en ”face”-validitet
Reliabilitet lite längre definition
Frånvaro av slumpmässiga mätfel (ts från systematiska - validitet)
Presenterade bevis för precisionen i metoden
Mätsäkerheten
Testets tillförlitlighet
Test-retest reliabilitet
I vilken grad testet är stabilt över tid. Förmågan att ge samma resultat igen och igen
Måttband och längd = hög test-retest. Lika lång idag som imorgon (förhoppningsvis)
Vissa personlighetstest = klart sämre
Interbedömarreliabilitet + vad kan påverka
Överensstämmelse i bedömares poängsättning el observationer
Bedömaren gör olika tolkningar
- Konsistensen (stabiliteten)
- Strängheten/ generositeten
- Halo-effekten
- Centraltendensen - vill inte se outliers
Omfångsrestriktion - det här är för långt, går inte (?)
Skiljer sig i test: mer/ mindre påverkat av interbedömar