Hvordan diagnosticeres ikke-linearitet? | scatterplot med lowess-kurve og lfit. Så kan man se, om ens lowess-kurve afviger en del fra lfit-kurven. |
På hvilke tre måder kan en logaritmisk transformation benyttes til at imødekomme ikkelinearitet? | Lineær-log (logger X), log-lineær (logger Y) og log-log (logger både Y og X) |
Hvad er polynomisk regression og hvordan kan den imødekomme ikke-linearitet? | Hvis ens observationer er parabelformet, så skal de ikke "tvinges" til en lineær funktion, men derimod sætter man dem ind i et andengradspolynomium (parabelformet). |
Hvad er forskellen på en logaritmisk transformation og polynomisk regression? | At den polynomiske funktion stiger / falder igen. De har altså et toppunkt (infektionspunkt) |
Hvorfor kan mediationsanalyse være svært at gøre ordentligt? | Hvis man inkluderer en mediation, så risikerer man at få selektionsbias, da de potentielle outcomes ikke længere er ens i treatment- og kontrolgruppen. Man kan ikke inkludere mediationer, fordi det er "posttreatment bias", hvilket tager en del af effekten ud af X.
Problemet består i at vi laver sammenligninger, hvor mediatoren holdes konstant. Vi sammenligner fx treatmentgrupperne blandt dem, der har effekt grundet treatment og dem der havde effekten i forvejen. Og de to grupper er ikke ens selvom vi har et randomiseret treatment i udgangspunktet. |
Hvordan fortolkes "beta 1" og "beta 2" ved et andengradspolynomium? | Beta 1: Hældningen på den tangerede linje i punktet, hvor x er = 0
Beta 2: Hvor meget hældningen ændrer sig hver gang x ændres med 1 ganget med 2. Og denne viser også om hældningen aftager eller stiger jf. om parablen er "sur" (konveks) eller "glad" (konkav) (matematisk vil det sige: Y="beta 1" + 2*"beta 2"*X |
Hvad betyder det, når der er interaktion mellem to variabler? | Når effekten af en uafhængig variabel afhænger af værdien på en anden uafhængig variabel (eller flere). Altså at en effekt ml. X og Y afhænger af Z (interaktionsleddet). |
Hvordan fortolkes regressionskoefficienterne når: β1X + β2Z + β3XZ? | β1X: Når Z holdes til 0
β2Z: Når X holdes til 0
β3XZ: Når både X og Z er 1, så det er forskellen i effekten af X på tværs af Z |
Hvad viser et marginaleffekt plot og hvordan er det forskelligt fra et plot der viser forudsagt Y? | Opad Y-aksen er effekten af X på Y, hvor henad X-aksen er Z. Dermed viser marginaleffektplottet, hvordan effekten af X på Y ændres på tværs af Z.
Et plot der viser forudsagt Y, viser hældningen, når Z er hhv. 0,1 osv. |
Hvordan visualiseres interaktive sammenhænge i stata? | Marginsplot |
Hvilken yderligere linearitetsantagelse gør vi os, når den interagerende variabel er kontinuer? | At interaktionsleddet er lineært. Så at effekten af X på Y ændres med det samme på tværs af Z. |
Hvordan kan man undersøge om en interaktiv sammenhæng med en kontinuert variabel er lineær? Og hvad gør jeg, hvis antagelsen ikke holder? | Ved en interflex kommando, hvor vi også får en p-værdi. Den deler observationerne op i tertiler på tværs af Z, hvor vi får den marginale effekt af hver tertil.
Hvis p-værdien er under 0,05, så vil den ikke være lineær.
Løsning: At man behandler sin Z-variable som kategorisk, hvilket gør, at man ikke antager linearitetsantagelsen. |
Hvad er en transformation? | At man ændre en variabels "skalering". Man ændrer ikke variablen, men man ændrer dens skalering. |
Hvad er ekstrapolation og interpolation? | Ekstrapolation er at vi generaliserer udover områder i data, hvor vi faktisk observerer både treatment og kontrolenheder. Interpolation er mellem punkter i data, hvorimellem der ikke ligger noget data (ekstreme observationer trækker i data) |
Hvad kendetegner grupperet data? | Data, der ligger i forskellige niveauer. Niveau 1 er individniveau, mens niveau 2 er grupperne, som individerne fordeler sig på. |
Hvad er paneldata? | Data, der er grupperet både i tid og rum. |
Hvad er hierarkisk data? | Data, der er grupperet kun i rum |
Hvad betyder det, at observationer er afhængige? | Når observationerne er indlejret i grupper, hvor de afhænger af hinanden. Hvis vi bliver bedre til at gætte en observation, når vi kender en tidligere observation, så er observationerne afhængige af hinanden. |
Hvorfor kan afhængighed mellem observationer påvirke standardfejlen? | Hver ny observation kommer ikke med så meget ny information, hvilket gør, at standardfejlene bliver for små. Dette giver mindre P-værdier end vi burde have. Dette kan løses ved klyngerobuste standardfejl (cluster) |
Hvordan laver og fortolker man en fixed effects analyse? | Man holder alle observerede og uobserverede forhold indenfor niveau 2 konstant, så variationen kun bliver indenfor niveau 1. |
Hvordan kan Difference-in-Differences bruges til kausal inferens? | I stedet for at sammenligne potentielle outcomes, så sammenligner vi udviklingerne for treatment- og kontrolgrupperne for at se, hvorvidt treatment har en effekt på udviklingen.
DiD kan altså bruges, hvis der er forskel på treatment- og kontrolgruppen i fravær af treatment. |
Hvilke data kræves ifbm. Difference-in-Differences? | Paneldata |
Hvad implicerer antagelsen om parallelle trends, og hvordan kan den efterprøves? | At udviklingerne i treatment- og kontrolgrupperne ville have været ens i fravær af treatment.
Kan efterprøves ud fra:
1) As-if random tildeling. Altså om tildelingen af treatment er "som-om" den var tilfældig.
2) Pre-treatment trends. Altså om grupperne havde nogenlunde samme udvikling før treatment. Kræver en del pretreatment observationer. |
Hvad er et naturligt eksperiment? | Der er en tildeling af treatment (pseudotilfældigt) ude i virkeligheden.
Kvasi-eksperiment. |
Hvad er den lineære sandsynlighedsmodel (LSM)? | Hvad er sandsynligheden for Y ved forskellige x-værdier? |
Hvorfor kan en LSM generere forudsagte sandsynligheder der ligger over 1 eller under 0? | Fordi den er lineær på dikotom Y, så vil der være en del af den lineære linje, som er hhv. under 0 og over 1. |
Hvad er en logistisk regressionsmodel? | Den tager højde for loft- og gulveffekter, samt at den ikke får værdier under 0 og over 1. Den er dog svær at tolke på. |
Hvordan ser sammenhængen ud, når Y er en logistisk funktion af X? | S-formet |
Hvordan kan man fortolke parametrene i den logistiske regressionsmodel? | Man kan først og fremmest blot tolke retningen og den statistiske signifikans |
Hvordan beregnes, visualiseres og fortolkes effekten af X i en logistisk regressionsmodel? (lang forklaring m. odds-ratioer, gennemsnitlige marginaleffekter og forudsagte sandsynligheder) | Den kan beregnes gennem odds-ratioer, gennemsnitlige marginaleffekter og forudsagte sandsynligheder:
Odds-ratioer: Koefficienten angiver, hvad oddset ændrer sig, hver gang X stiger med 1. Odds-ratio på 2 er en dobbelt stigning i effekt. Altså hvad sandsynligheden ændrer sig med, når X stiger med 1.
Gennemsnitlig marginaleffekt: Hvor meget sandsynligheden for Y = 1 gennemsnitligt stiger med, når X stiger med 1. Kan visualiseres med marginsplot.
Forudsagt sandsynligheder: Her ser man sandsynligheden for Y = 1 for hver kategori af X. Kan også visualiseres ved marginsplot. |
Hvordan fixed effects hjælper med at bedrive kausal inferens med hierarkisk data? | Problemet er at de potentielle outcomes ikke er ens i fravær af treatment, fordi de afhænger af grupperne.
Man kan med fixed effects holde alle de faktorer, der varierer på tværs af niveau 2, konstant, så fejlleddet kun indeholder faktorer, der varierer indenfor niveau 1. Dette kan dog stadigvæk true den kausale inferens. |
Hvordan klyngerobuste standardfejl ofte hjælper med at bedrive statistisk inferens med hierarkisk data? | Ved hierarkisk data er det ofte ikke opfyldt, at observationerne er uafhængige.
Tre tommelfingerregler for, hvornår de skal bruges.
1. Når vores primære uafhængige variabel er på niveau 2
2. Når vores primære uafhængige variabel er på niveau 1 og vi kun observerer en mindre del af de grupper, vi er interesserede i at sige noget om
3. Når vores primære uafhængige variabel er på niveau 1 og vi observerer mange af de grupperinger vi er interesserede i at inferere til, men kun få observationer i hver |
Hvornår skal man logge på de forskellige måder? | Lineær-log: Hvis vi kan forvente, at sammenhængen bliver svagere jo højere X (gulv eller lofteffekt)
Log-lineær: Hvis vi kan forvente, at sammenhængen bliver stærkere jo højere X (tiltagende effekt)
Log-Log: Hvis vi kan forvente, at både effekten af X og effekten på Y bedst følger procentvise tolkninger |
Hvad er sigma_U, sigma_E og rho? | sigma_U: residualernes std.dev ml. grupperne
sigma_E: residualernes std.dev indenfor grupperne
rho: hvor meget observationerne ligner hinanden indenfor grupperne fra 0-1 |