Hvordan fremstiller vi en ANOVA visuelt?
I form af boxplots
Beskriv udeendet af sandsynlighedsfunktionen for en normalfordeling
Bell-kurve, nærmer sig nul når vi kommer væk fra gennemsnit, men rammer aldrig
Hvis vi ønsker at lave en lineær sammenhæng mellem to variable x og y, og plotte både punkterne og sammenhængen i R, hvilke funktioner vil vi så bruge?
plot(y~x)
abline(lm(y~x))
Hvis vi ønsker et 95% konfidensinterval, hvilke værdier skal vi så indsætte på de blanke pladser:
c(qnorm(_, mean=0, sd=1), qnorm(_, mean=0, sd=1)
0.25 og 0.975
For 200 bonuspoint: Hvilke værdier vil vi skrive for et konfidensinterval med signifikansniveau alpha?
Hvis man stadig ikke har ISDALs pakken i R. Hvilken kode skal man skrive for at installere og tilknytte den?
install.packages("isdals")
library(isdals)
Beskriv og lav et gæt på konklusionen af disse boxplots? (Model 1)
Stor varians i 1 og 3, lille i 2
Gennemsnit er tæt mellem gruppe 1 og 2.
Vi kan antage ingen statistisk forskel mellem 1 og 2, men forskel mellem dem og 3
Hvilke begreber bruger vi til at beskrive en tilnærmelsesvis normalfordeling, hvor halerne har uens længde/tykkelse?
Højre- eller venstreskæv
(bruges selvfølgelig også til andre fordelinger)
For double points: Hvad har det af betydning for mean og median hvis fordelingen er højreskæv?
Hvilke værdier kan korrelationskoefficienten tage? Hvornår?
Hvilke værdier kan R^2 tage? Hvornår?
Hvad er sammenhængen mellem de to?
Korrelationskoefficienten er mellem -1 og 1, afhængig af negativ eller positiv LINEÆR sammenhæng.
R^2 kan tage værdier mellem 0 og 1, afhængig af hvor stærk den lineære sammenhæng er.
For dobbelt point: Hvornår er de to værdier udefinerede?
Hvad er forskellen mellem y_i, y^_i, og y bar?
y_i er vores datapunkt nummer i
y^_i er det estimerede datapunkt i givet en model
y bar er gennemsnittet af alle y-værdierne
Opstil en hypotetisk eksperiment af fremmøde for dette hold. Hvilke variable vil i teste for og hvordan karakteriseres disse variable?
100 bonuspoint hvis I kan fremstille en hypotese test vi kan anvende.
Jeg bedømmer
Hvad antager vi for at lave en ANOVA?
Normalfordelt numerisk data modelleret efter en kategorisk variabel.
IID og måske ens varians
Kan vi antage at disse data er normalfordelt? Forklar svaret(model 3)
Udover en enkelt lav outlier ser dataen lineær ud
Hvad antager vi for at lave en lineær model?
At vi har to numeriske variable.
At vi kan beskrive y_i som alpha+beta*x_i+e_i hvor alpha og beta er konstanter og e følger N(0, sigma^2)-fordeling.
IID
Vores hypoteser er
"Der er en forskel mellem vægtene af gruppe a og b" og
"Forskellen i vægt mellem gruppe a og b er 5 kg"
Hvad er de tilsvarende nul-hypoteser?
Hvorfor er hypotese 2 en dårlig hypotese at teste op imod?
"Der er ingen forskel mellem vægtene af gruppe a og b"
"Forskellen i vægt mellem gruppe a og b er noget andet end 5 kg"
I anden udsagn kan forskellen være 4.9 eller 4.99999, altså der vil altid være en værdi der ikke er 5 der sandsynligvis kunne have givet dataen. Et interval for gæt er bedre.
Free for all: Den gruppe der kan tegne den bedste standard normalfordeling på tavlen får pointene
Jeg bedømmer
Nævn mindst tre forskellige typer ANOVA'er
(I kan ikke bare tilføje flere grupper til samme ANOVA-type)
En-vejs, to-vejs, tre-vejs, ...
(Flere parametre per ANOVA)
Alle i parrede og uparrede udgaver.
Måske flere?
Hvad er der galt med det her QQ-plot? (model 4) Hvad tegner der på?
Den er ikke lineær og koncentrationen af punkterne er ikke ligeligt fordelt.
'Slangeformen' tyder på at dataen er bimodal, med gennemsnit på hver af de to 'plateauer'.
Givet at x, y er kontinuerte numeriske data.
Hvad er forskellen på lm(y~x) og lm(y~x-1)?
Hvornår kan vi færdiggøre at anvende lm(y~x-1)?
lm(y~x) er den lineære sammenhæng a+b*x
lm(y~x-1) er den lineære sammenhæng uden intercept b*x
Vi kan retfærdiggøre at fjerne intercept hvis vi kan argumentere for OG med sandsynlighed kan sige at skæringen med y-aksen er nul.
Beskriv hvilke typer fejl man kan få i en hypotese-test. Hvad svarer signifikansniveau til i denne sammenhæng?
Type I fejl: Falsk positiv, vi forkaster nulhypotesen selv om den er sand, sandsynligheden svarer til signifikansniveauet
Type II fejl: Falsk negativ, vi beholder nulhypotesen selv om den er falsk
Du har lavet en lineær model af data for en mængde af fugle-populationer. Variablene er gennemsnit for fuglenes vægt i gram og overlevelsesprocent i en storm.
Den lineære sammenhæng, lm(srvpct~wgt), giver beta=-0.0453 og alhpa=0.768 og p-værdi=0.00236.
Lav en sammenhængende konklusion, både statistisk og biologisk!
Tidligere eksamensopgave. Godt svar
Kan vi bruge dette boxplot (model 2) som udgangspunkt for en ANOVA.
Hvis ja, hvad er konklusionen?
Hvis nej, hvorfor ikke og hvad kan vi gøre?
Nej, vi har ikke varians-homogenitet. men vi kan lave en log-transformation for at gøre modellen bedre
Hvorfor er normalfordeling en 'pæn' fordeling/Hvad gør en normalfordeling god at arbejde med?
Den forbliver normalfordelt hvis den ganges eller adderes med en konstant og hvis den adderes med en anden normalfordeling. Det gør at alle normalfordelinger kan skrives som a+b*Z hvor Z er standard normal fordelingen.
Derudover er residualerne af noget data under den korrekte modellering normalfordelt. (OBS på implikationen)
Hvad er forskellen på et konfidens- og et prædiktionsinterval? Hvad er bredest?
Konfidensintervallet siger at med 95%-sandsynlighed er den bagvedliggende parameter for fordelingen af dataen ligger indenfor dette interval, givet at model-typen er korrekt.
Prædiktionsintervallet siger at 95% af vores observationer ligger inden for dette interval, givet at vores model er korrekt.
Prædiktionsintervallet er bredest
Vi ønsker at lave en t-test for en parameter.
Hvad er sammenhængen mellem konfidensintervallet, p-værdien, og test-variablen?
Hvis 0 ikke er i konfidensintervallet er p-værdien under signifikansniveauet.
Hvis p-værdien er under signifikansniveauet er test-variablen er over qt-værdien vi tester imod.
Hvis test-vaiablen er over qt-værdien vi tester imod, er 0 ikke en del af konfidensintervallet.
Hvad er navnet på dette (mit yndlings) maleri (af Salvador Dalí)?
Telephone in a Dish with Three Grilled Sardines at the End of September (1939)