cuanti Flashcards

(63 cards)

1
Q

estadística descriptiva

A
  • organizar y presentar datos de manera informativa
  • resume las características de un conjunto de datos
  • herramientas: media, mediana, desviación estándar, gráficos
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

estadística inferencia

A
  • toma todos los datos y usa la probabilidad para extender las conclusiones a toda la población
  • prueba hipótesis, estima parámetros y predice comportamientos futuros
  • herramientas: prueba t student, ANOVA, regresión, intervalos de confianza, p - value
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

en una distribución normal es igual

A

la moda, la media y la mediana

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

distribución positiva

A

inclinación de la curva hacia la izquierda

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

distribución negativa

A

distribución de la curva hacia la derecha

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

asimetría positiva

A
  • la mayoría de los casos se concentran a la izquierda del gráfico, pero los outliers muy altos estiran la cola hacia la derecha
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

asimetría negativa

A
  • la mayoría de los gráficos se concentran a la derecha del gráfico, pero los outliers muy bajos estiran la cola hacia la izquierda
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

kurtosis

A

tiene que ver con qué tanto se concentran los valores en torno a la media (que tan alta o baja es la curva)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

varianza

A

que tán separados están los datos de su media
- se calcula como el promedio de los cuadrados de la diferencia de cada dato con su media

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

desviación estándar

A

es la raíz cuadrada de la varianza
- mide la dispersión promedio en las unidades originales de los datos

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

variable discreta

A

una variable aleatoria puede tomar solo un número finito de distintos valores (lanzar un dado, número de hijos)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

variables continuas

A

la variable puede asumir un número infinito de posibles valores (dentro de un rango) ejemplo: peso, altura

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

espacio muestral

A

conjunto de todos los resultados elementales

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

puntaje Z

A

se usa cuando los puntajes de una distribución normal se estandarizan y se habla en función de x cantidad de Desviación estándar
- para calcular un puntaje z es el puntaje menos el promedio dividido por la desviación estándar

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

población

A

conjunto determinado de personas que nos interesa entender

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

muestra

A

subconjunto de la población a la cual tenemos acceso
puede ser:
- escogida al azar / aleatoria
- representativa

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

teorema del límite central

A

establece que la media muestral de un número suficientemente grande de variables aleatorias independientes e idénticamente distribuidas se distribuye aproximadamente de forma normal.
- cuanto mayor es la muestra, mejor es la aproximación

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

una distribución normal es

A
  • simétrica: forma perfectamente balanceada alrededor de su centro
  • asintótica: las colas de la distribución se acercan cada vez más al eje, pero nunca lo tocan, se extienden hasta el infinito en ambas direcciones
  • probabilística: el área total bajo la curva es igual a 1, esto representa la probabilidad total de todos los resultados posibles
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

estadígrafos de una distribución muestral

A
  • promedio: el promedio de cualquier distribución muestral es igual al promedio de la población
  • error estándar: la desviación estándar de una distribución normal se llama error estándar. el error estándar disminuye a medida que aumenta el N
    error estándar es igual a la desviación estándar de la muestra partido por la raíz cuadrada de N (cantidad de datos)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

intervalo de confianza

A
  • estimación de un parámetro poblacional
    en algún punto de este intervalo se supone se encuentra el verdadero valor del parámetro que se está estimando (lo desconocemos, por eso se estima)
  • sus puntos limítrofes reciben el nombre de límites de confianza (inferior y superior)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

como calcular el intervalo de confianza

A

P (estimador - valor crítico estadístico x error estándar < parámetro < estimador + valor crítico x error estándar) = nivel de confianza

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

nivel de significancia

A

umbral de riesgo máximo que se establece antes de iniciar el estudio para ver que se define como “estadísticamente significativo”
- en ciencias sociales el estándar es de .05
- representa la probabilidad de límite de cometer error tipo I (decir que hay un efecto cuando en realidad no lo hay)
- sirve como vara a medir contra la cual se compara el valor p final

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

consideraciones

A
  • al aumentar el error estándar o la desviación estándar, aumenta la amplitud del parámetro
  • cuando el N disminuye, aumenta el error estándar y también la amplitud del parámetro
  • a medida que aumenta el nivel de confianza (área bajo la curva), aumenta el puntaje Z (99% de nivel de confianza Z= 2,58, 95% nivel de confianza, z = 1,96), esto aumenta al amplitud del parámetro
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

hipótesis científica

A

explicaciones tentativas del fenómeno investigado, formuladas a manera de proposiciones (asadas en teorías)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
hipótesis estadística
proposición acerca de uno o más parámetros poblacionales
26
hipótesis hula (H0)
- apunta a un valor fijo de un parámetro - su aceptación implica tomar una decisión específica con respecto a la hipótesis científica - es una afirmación que plantea que no existen diferencias entre los parámetros de dos poblaciones: el de la población de observaciones reales (muestra) y el de las observaciones teóricas o esperadas de acuerdo a un modelo probabilístico
27
hipótesis alternativa (H1)
- usualmente representa a la hipótesis estadística del estudio - representa la única opción razonable en caso de rechazar la hipótesis nula - se interpreta en dirección contraria a la hipótesis nula
28
p value
es la probabilidad de que las diferencias sean por casualidad o por azar - en caso de que la probabilidad sea muy baja (menor a 0.05), decimos que los resultados son "estadísticamente significativos" y rechazamos la hipótesis nula
29
error tipo I (alpha)
rechazar la hipótesis nula (decir que existen diferencias entre dos poblaciones), cuando en realidad obtuvimos los resultados por pura casualidad o azar, ya que las variables no estaban relacionadas en la población - encontramos diferencias cuando en realidad no las hay (un error de inferencia) - falso positivo
30
error tipo II (betha)
concluir que no existe una diferencia entre los parámetros cuando en realidad esta diferencia sí existe - Falsos negativos - aceptar la hipótesis nula cuando era falsa
31
tamaño del efecto (d de Cohen)
corresponde a la diferencia entre el promedio de los dos grupos, dividido por la desviación estándar - efecto pequeño (0.2): alto solapamiento entre las distribuciones, los promedios de los grupos son muy similares entre sí, aunque difieran significativamente (la intervención evaluada sería poco eficiente) - efecto grande (0.8): bajo solapamiento entre las distribuciones, los promedios de los grupos son muy distintos entre sí y difieren significativamente (la intervención evaluada sería altamente eficiente)
32
distribución teórica t student
se ocupa cuando necesitamos realizar la estimación de un parámetro o un contraste de hipótesis cuando SE DESCONOCE LA DESVIACIÓN ESTÁNDAR DE LA POBLACIÓN y cuando el N es menor a 30
33
prueba t para una muestra
comparar una muestra con un parámetro teórico - H0 la media real (muestral) es igual al valor teórico - H1 la media real es distinta del valor teórico
34
prueba t para muestras dependientes
comparar una misma muestra 2 veces luego de que pasara un tiempo o se aplicara un tratamiento - H0 la media entre las dos condiciones son iguales - H1 la media entre las dos condiciones son diferentes
35
prueba t para muestras independientes
comparar dos muestras diferentes - H0 las medias entre los grupos son iguales - H1las medias entre los grupos son diferentes
36
¿ cómo decidir respecto a la hipótesis?
miramos 3 estadígrafos: - p value < .05 (nivel de significancia) : si es mayor aceptar H0, si es menor rechazarla - intervalo de confianza: si contiene el 0 no hay diferencias, se acepta la H0, si no contiene el 0 hay evidencia para rechazar la H0 - T obtenido vs t crítico: el t crítico marca los límites del parea donde no rechazamos la H0 el t obtenido es el que se da como resultado de la prueba estadística, si este es mayor al t crítico, se rechaza la H0. si es menor, se acepta
37
ANOVA (análisis de varianza)
técnica que permite descomponer, analizar y contrastar la razón entre la variabilidad inter e intragrupal de más de 2 grupos si V intra grupal > V inter la diferencia se explica porque los datos son diferentes , no los grupos (se acepta H0= si V inter > V intra la diferencia se explica porque los grupos son diferentes, no los datos (se rechaza H0) - el ANOVA valúa el efecto que produce una variable categórica (independiente) en una variable cuantitativa continua (variable dependiente), comparando por ejemplo los promedios de varias poblacionales
38
variabilidad intragrupal
distancia de cada punto con el promedio de su grupo
39
variabilidad intergrupal
distancia de cada promedio grupal con el promedio total
40
supuestos del ANOVA
- normalidad: los datos de casa grupo se distribuyen de manera (aproximadamente) normal - independencia: observaciones y grupos son independientes entre sí - homocedasticidad de las varianzas: las varianzas de cada grupo son similares se usa la prueba levene y esperamos aceptar la H0 - en caso de rechazar la H0 se deben corregir los datos según la razón de Welch
41
Prueba levene
prueba estadística que se usa para evaluar si varios grupos tienen varianzas iguales, para evaluar el supuesto de homogeneidad de las varianzas - H0: las varianzas de los grupos son iguales y la H1: las varianzas de los grupos son diferentes
42
aceptar (o no) la H0 en ANOVA
- según p value - según comparación inter e intra grupal: varianza intergrupal (modelo), varianza intragrupal (error) - comparación de F obtenido vs F crítico
43
grados de libertad intergrupal
k - 1
44
grados de libertad intragrupal
N - K
45
F obtenido vs F crítico
F = varianza entre grupos dividido varianza dentro de los grupos F < 1: el error es más grande que lo explicado ( se acepta H0) F = 1 el error y lo explicado miden lo mismo ( se acepta H0) F > 1 lo explicado es más grande que el error (diferencia intragrupal) (rechaza H0, pero no basta por sí solo)
46
tamaño del efecto (r2)
podemos dividir la suma de cuadrados entre grupos por la suma de cuadrados total y obtenemos el porcentaje de varianza explicada por la pertenencia a los grupos (r2) - ejemplo: 0.021 = 2.1% de la varianza puede ser explicada por la pertenencia a los distintos grupos esto es un r de 0.14 (raíz cuadrada de 0.021), una correlación débil
47
pruebas post - hoc
ANOVA nos permite saber si al menos uno de los grupos es distinto, pero no nos indica cuál, para esto se necesita una prueba post hoc - algunas pruebas post - hoc: Bnferroni, Holm, Dunnet, HSD turkey - detectan cual de los grupos muestran diferencias significativas entre ellos
48
asociación de variables contínuas: correlación de Pearson
la correlación lineal es un método estadístico que evalúa si existe (o no) relación lineal entre dos variables continuas - y es la variable dependiente - x es la variable independiente la correlación utiliza la prueba T
49
componentes de la correlación
- dirección: positiva o negativa - magnitud: que tan fuerte es la relación - se mide con el coeficiente de relación de Pearson (1 al -1) 0.1 pequeña, 0.5 fuerte relación - significancia estadística: indica si el coeficiente es lo suficientemente fuerte y consistente para ser considerada real en la población
50
¿ cómo se obtiene la significancia estadística de una correlación?
- t observado vs t crítico - intervalo de confianza - p value
51
varianza compartida (r2)
si las varianzas están relacionadas, quiere decir que tienen una varianza en común - para calcularlo, hay que elevar el coeficiente r al cuadrado y multiplicar por 100 (se expresa en porcentaje)
52
chi cuadrado (x2)
medida de asociación entre variables categóricas evalúa que tanto se alejan los datos observados en una muestra de una distribución teórica, es decir, si los datos observados se ajustan o no a lo esperado teóricamente de acuerdo a la hipótesis nula
53
H0 en x2
la distancia entre el puntaje obtenido y el puntaje esperado es pequeña y por ende los puntajes se parece. entonces se concluye que no hay una asociación entre variables
54
H1 en x2
la distancia entre el puntaje obtenido y el puntaje esperado es grande, los puntajes no se parecen. entonces, se concluye que si hay asociación entre variables
55
grados de libertad en x2
representan el número de piezas de información independientes que tienes para calcular tus estadísticos - Los grados de libertad en chi cuadrado son la cantidad de información que realmente puede variar al hacer el cálculo, son cuántos datos “quedan libres” para cambiar una vez que ya hay reglas u obligaciones que deben cumplirse
56
aspectos relevantes de chi cuadrado
- chi no puede ser menor a 0 - la muestra mínima para que funcione es de 5 datos por celda - las observaciones deben ser independientes entre sí - chi solo determina si hay o no asociación, pero no determina donde está esa asociación - SE HABLA DE ASOCIACIÓN NO CORRELACIÓN
57
regresión lineal
modela una ecuación que resume una correlación lineal - x es la variable independiente - y es la variable dependiente
58
ecuación de la recta
y = a + bx - y = variable dependiente - x = variable independiente - b = pendiente - a = constante (punto de y cuando x = 0)
59
indicadores de regresión
- coeficiente de determinación (r2): expresa la proporción de la varianza de la variable dependiente que se encuentra explicada por la variable independiente - ANOVA del modelo: si existe una relación estadísticamente significativa entre las variables
60
formula medias de cuadrado (ANOVA)
suma de cuadrados dividido los grados de libertad
61
r2
porcentaje de la varianza explicado por la pertenencia a los grupos, se usa para ANOVA
62
d cohen
se usa para pruebas t, para explicar que tanto de la diferencia se explica por la pertenencia a los grupos
63
HSD Tukey
compara todos los pares de niveles de la VI para detectar cuales de ellos muestran diferencias estadísticamente significativas (diferencias honestamente significativas)