AA - Psicoestadistica I
AA - Psicoestadistica I
AA - Psicoestadistica I
UNIDAD 1
GENERALIDADES
Se entiende por estadística la recopilación y presentación de datos numéricos por medio de tablas y gráficos.
La estadística es una disciplina que tiene por objeto el estudio de los fenómenos que se presentan en grandes
números y en condiciones generalmente complejas
La estadística es una herramienta de la que se puede valer cualquier ciencia. La estadística es una
condición necesaria para llevar a cabo estudios e investigaciones, es por tanto, una herramienta útil para
investigar con mayor o menor grado de precisión, dependiendo del campo que se estudie.
La estadística es una manera de pensar y elaborar cierta problemática de la realidad, sobre todo
cuando tenemos que tomar una decisión, ya que nos permite lograr un mayor grado de objetividad por el
grado de control de las variables de la investigación.
Nada que no sea definido en forma operativa u operacional se puede investigar. Para que algo pueda
ser investigado x la estadística deb poder ser definido operacionalmente
Si, por ejemplo, estamos investigando sobre apego, una definición teórica plantearía que apego se
refiere a la cercanía emocional existente entre el niño y su cuidador. En cambio, una definición operativa
diría que son conductas de apego aquellas que fomentan la cercanía con la persona a la que el niño esta
vinculado: todos los mimos, el jugueteo, las intimidades de la lactancia, los rituales de bañarlo y vestirlo, etc.;
solo si el niño las dirige a uno o dos cuidadores en particular. La definición operativa es concreta y medible.
1
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
2
El termino estadística proviene del vocablo latino status (estado de las cosas) dando cuenta que el
Estado fue el propulsor de esta necesidad de cuantificar cosas.
Las primeras referencias en la literatura de tipo estadísticas las encontramos en la
Biblia, en el libro de los números
Los autores más representativas de la estadística son: Galton, Spearman, Pearson y Student.
__________________________
Recolectar
Organizar
Resumir
Presentar y
Analizar
datos numéricos relativos a un conjunto de individuos u observaciones, que nos permiten extraer conclusiones
validas y efectuar decisiones lógicas basadas en dicho análisis
2
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
3
Cuanto más distancia haya entre el fenómeno observado y el método utilizado para observar, la
observación es más indirecta. Hay campos de investigación en donde todo es indirecto, por ejemplo el caso de
las relaciones sexuales; y otros, donde la mayoría es directa, el caso de las investigaciones antropológicas o de
las investigaciones sociales de tipo participativa. La observación directa-participante presenta la desventaja de
alterar las cualidades de la interacción propias. De todos modos, no existen las investigaciones perfectas, pero
aun con eso, son siempre preferibles a las suposiciones.
Hay algunos casos en los que se da una especie de mix de ambos tipos de observación, por ejemplo
cuando entrevisto a una mamá con su hijo presente, a ella le aplico un cuestionario mientras observo la
interacción de ambos.
2. Matemática 1
Utilizamos la estadística en aquellos casos en los que tenemos una gran cantidad de observaciones y cuya aparición
se rige por las leyes aleatorias, o del azar
1. determinar el tema
2. formular el problema
3. diseñar la investigation
4. recopilar datos
5. describir datos
6. analizar datos
7. interpretar datos
8. concluir y eventualmente formular una ley
Definición teórica: concepto que es definido por otros conceptos que se supone plenamente adquirido por
nuestro conocimiento Ej. Triangulo, inteligencia
Definición operacional: descripción del instrumento de medición, con las instrucciones para su
aplicación, evaluación del resultado que nos proporciona, campo de su empleo, límites y posibilidades del
mismo
1
Se desarrolla en página 7
3
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
4
Solo aquel concepto que haya sido definido operacionalmente puede ser incluido en p roposiciones o juicios que se
presenten como hipótesis a verificar experimentalmente en una investigación científica. Ejemplo: INTELIGENCIA:
“es la posibilidad de resolver los ítems presentados en el Test de Raven, siempre y cuando lo sujetos sean adultos,
la toma se haga de tal o cual manera y la evaluación se realice de acuerdo a la escala/tabla correspondiente.”
Las variaciones a las que nos referimos más arriba (pg. 2) se denominan variables, que son fenómenos que
se pueden medir en un nivel superior de medición (intervalar o métrico).
Las variables pueden existir en distintas cantidades; en cambio, Ios atributos están o no presentes, pero
no pueden tener variaciones en su cantidad. Si estoy estudiando sobre la incidencia de la cosecha en la deserción
escolar en varones y en niñas que habitan sitios rurales. La variable seria la deserción escolar que puede ser mayor
o menor; y el atributo seria hombre y mujer.
Cuando no puedo establecer ningún tipo de diferencia sensible sobre el continuo de la realidad estamos
frente a una constante (k). Un ejemplo de la geometría seria π, cuyo valor es siempre 3,14...; en las ciencias
sociales es muy poco probable encontrar casos que se mantengan siempre iguales y que se presenten sin
variaciones.
4
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
5
Permite asignar números a objetos o individuos de tal manera que se pueda clasificar a los
mismos en categorías de acuerdo a una característica. El único postulado que se puede aplicar en este
nivel es el de identidad o equivalencia; sólo podemos saber si 2 sujetos son iguales o distintos. Por
ejemplo: clasificación de nacionalidad: argentino, uruguayo, chileno, etc. (no se puede jerarquizar)
Por ejemplo puedo usarlo si necesito saber cuantas personas viven en el B° Tres Estrellas, cuantas
terminaron la primaria, cuantas tienen empleo, etc. La condición necesaria para que los objetos sean
miembros de una clase es que sean idénticos (adaptación a la propiedad de identidad o equivalencia)
En este nivel se pueden establecer porcentajes y frecuencias; se pueden aplicar muy pocas pruebas
estadísticas y la única medida de tendencia central que se puede utilizar es el modo, que es aquella
observación que
se repite con mayor frecuencia dentro de una distribución. Si investigara la adhesión a los cuadros de fútbol
en el BQ Tres Estrellas, estos serian: River, Boca, Independiente, etc.; aquel equipo que contenga la mayor
cantidad de personas seria el modo
Permite además de clasificar, ordenar a los sujetos en función de un orden intrínseco a la característica
que se está estudiando. Por ejemplo: jerarquías eclesiásticas
Dado que se pueden establecer relaciones de “mayor que…” y “menor que…”, a este nivel de medición le
corresponden los postulados de identidad y de orden jerárquico.
Se trata de un ordenamiento en función del menor o mayor grado con el que se presenta un atributo. Su
ventaja con respecto al anterior es que si bien el valor atribuido a la característica no implica que se puedan aplicar
operaciones matemáticas, también es cierto que en todo orden hay un valor mayor que otro. Pero no se puede
hablar de distancia.
No solo sé cuantos miembros tiene cada categoría, sino que además me permite
establecer un orden jerárquico entre los valores de la distribución. Si investigara, en el B° Tres
Estrellas, el grado de conocimiento existente de las políticas de salud que están a disposición de la población en el
5
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
6
Centro de Salud de la zona, podría establecer las siguientes categorías, ordenadas jerárquicamente: conoce todas
las medidas ejecutadas, conoce solo algunas, las desconoce.
Las medidas de tendencia central que se pueden aplicar son el modo y la mediana.
Cuando una escala tiene esta posibilidad la medición es más eficiente. Se cumplen los postulados de
Identidad, orden jerárquico y aditividad.
2. Matemática: todo lo que existe, existe en alguna cantidad, de ahí la importancia de cuantificar. La
medida es el arma de la investi gación. Las matemáti cas permiten cuanti ficar el estado de la
variable. A través de la medición podemos establecer juicios, sacar conclusiones, tomar decisiones,
etc. No es lo mismo saber que en nuestro país hay desocupación, que saber que el porcentaje de
personas desempleadas asciende al 7,5 % (según los datos oficiales del INDEC a enero de 2008).
Se requiere encontrar el nivel de medición más adecuado para el fenómeno estudiado, aunque a veces se
utilizan, en una misma investigación, distintos niveles de medición.
Como las mediciones se hacen a partir de números, es necesario entender o describir algunas
propiedades inherentes a los mismos que son importantes para la medición. Se denominan postulados básicos
para la medición, entendiéndose por postulado todo “juicio que se establece respecto a las relaciones entre
objetos”
2
Desarrollado en página 3
6
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
7
1- Identidad o equivalencia:
• a=b, o bien a≠b los n° son iguales o diferentes
• si a =b → b=a relación de igualdad es simétrica
• si a=b y b=c → a=c dos cosas iguales a una tercera son iguales entre si
2- Orden jerárquico
• Si a>b → b<a la relación mayor que es asimétrica
• Si a>b y b>c → a>c propiedad transitiva
3- Aditividad
• Si a=p y b>0 → a+b>p posibilidad de sumar
• a+b=b+a el orden no afecta el resultado
• a=p y b=q → a+b=p+q los objetos idénticos pueden ser sustituidos
• (a+b) +c=a+(b+c) el orden de las combinaciones o asociaciones no
produce diferencia en los resultados
_____________________
Conceptos relevantes:
Estadísticos muestrales: estadísticos obtenidos (media, desviación estándar, varianza) de una muestra
Estadística aplicada: Es la estadística matemática aplicada a cualquier campo, pero que según sea este,
se enfatizan unos u otros temas y/o problemas
Estadística descriptiva: Conjunto de procedimientos para describir, resumir y analizar datos referentes a
un determinado aspecto de la realidad, de modo que estos datos se puedan emplear mejor o en forma
más significativa. Partiendo de un conjunto de datos, se obtienen conclusiones de los mismos que no
rebasan el conjunto de conocimientos que proporcionan esos datos. Permite obtener conclusiones a
través de síntesis numéricas y son útiles en un corte transversal de los fenómenos. La conclusión es el
número
Estadística inferencial: Conjunto de procedimientos para extender las conclusiones que se obtienen de
una muestra a la población general. Posibilita la obtención de conclusiones validas y confiables que
suponen una posibilidad de generalización. Las conclusiones rebasan los límites del conjunto de datos
aportados y nos permite inferir, dentro de límites probables, valores para un individuo o conjunto mayor.
7
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
8
GRAFICOS UNIDAD 3
Las representaciones gráficas acompañan y complementan la información suministrada por las tablas.
El tipo de gráfico o representación gráfica utilizada dependerá del nivel de medición que se utilice.
El punto de partida de las representaciones gráficas son los ejes cartesianos, que son dos líneas cruzadas en el
espacio delimitando 4 cuadrantes de 90º cada uno.
El origen de los dos ejes es la intersección de ambas rectas y por lo tanto vale 0.
El eje horizontal (X) se denomina abscisa y el vertical (Y) ordenada.
Y
0X
Los gráficos permiten la representación gráfica de la información, traduciendo hechos numéricos a una forma
más concreta, clara, sencilla y sintética.
Todos los gráficos deben llevar título y número para facilitar su comprensión
Sólo trabajaremos con el primer cuadrante y debemos tener las siguientes consideraciones:
1- los ejes deben ser proporcionales, es decir, Y representará el 75% de X
2- todos los gráficos deben tener título
SECTORIAL, PASTEL O TORTA: se elabora a partir de un círculo que se divide proporcionalmente en una cantidad de
sectores de acuerdo a la cantidad de categorías.
El tamaño de cada sector se calcula por regla de 3 simple, teniendo en cuenta que el círculo tiene 360º.
Cuando elaboramos este tipo de gráfico con Excel, el programa calcula el tamaño de cada sector en forma
automática, ya sea en frecuencias o porcentajes.
NIVEL ORDINAL
GRÁFICO DE BARRAS: en el eje X se colocan las categorías ordenadas y en el eje Y las frecuencias.
La frecuencia de la categoría se representa con una barra.
Las barras tendrán el mismo ancho y también los espacios entre ellas.
POLÍGONO DE FRECUENCIA: este grafico se utiliza cuando trabajamos con variables contínuas medidas en un nivel
intervalar o métrico.
Cuando se trata de un nivel de medición intervalar, en el eje X se consigna el punto central de cada intervalo; y en
el eje Y, la frecuencia del intervalo.
Finalmente se unen los puntos de intersección entre ambos ejes, conformando un perfil con líneas rectas. Se
puede utilizar para comparar dos muestras, siempre que ambas muestras tengan el mismo número de sujetos.
Si los picos más altos del polígono son los valores intermedios, ésta se asemeja a una Distribución Normal
(Campana de Gauss).
En el eje Y también se pueden utilizar frecuencias relativas cuando se quiere comparar en un mismo gráfico dos
grupos de sujetos con diferente cantidad de sujetos. En este caso se expresan las frecuencias en proporciones y se
logra un número comparable ya que la sumatoria de las frecuencias será igual a 1.
Para elaborar el Polígono de Frecuencia se marca un punto en la intersección de cada valor de X con la frecuencia
correspondiente, luego se unen todos los puntos y se baja la recta al principio y al final suponiendo que existe un
intervalo anterior y uno posterior. Es decir que el Polígono de Frecuencia no queda suspendido, sino que comienza
y termina tocando el eje X. Por esta razón en la distribución de frecuencias de este ejemplo, la misma comienza y
termina en cero. Cuando elaboramos el gráfico con Excel debemos seleccionar todos los valores, incluyendo los
ceros.
OJIVA DE GALTON: se utiliza para trabajar en el nivel métrico.
Se pueden usar frecuencias acumuladas absolutas o relativas, que se indican en la ordenada, y en la abscisa se
coloca el valor de X.
Se unen los puntos de intersección con una línea continua.
Tanto este grafico como el anterior, facilitan la comparación de dos distribuciones.
Además de ser un tipo de representación gráfica, sirve para obtener gráficamente fractiles, los cuales son medidas
de orden o posición que poseen las ventajas de las medidas estandarizadas.
Para la determinación gráfica de fractiles se utilizará en Y la frecuencia acumulada en proporción o porcentaje.
La Ojiva de Galton es útil para visualizar rápidamente cuantos sujetos o qué proporción de sujetos se ubican hasta
determinado punto de la escala.
Medidas de tendencia central
Sirven fundamentalmente para resumir la información. Estas medidas permiten presentar en vez de todas las
observaciones de una distribución de frecuencias, sólo algunas características que definen los aspectos fundamentales de
la misma. La posibilidad de reducción de información depende del nivel de medición utilizado. Se denominan Medidas de
Tendencia Central porque se ha comprobado empíricamente que en escalas ordinales, intervalares y métricas, estas
medidas tienden a ubicarse en el centro de la distribución.
A. Modo (Mo): se llama también moda. Es aquel valor (si se tratara de números) o categoría de la
variable que presenta la mayor frecuencia dentro de una distribución, es decir, que se repite mayor
cantidad de veces.
En los niveles intervalar o métrico el modo es el punto medio del intervalo que presenta la mayor
frecuencia.
Se puede utilizar en todos los niveles de medición y es por eso único, pero la desventaja que
presenta es que brinda muy poca información (es la que menos información brinda), ya que con él
solo sabemos lo que se presenta más, tenemos así una idea de donde se presenta la mayor cantidad
de observaciones.
Una distribución puede ser unimodal, bimodal o multimodal según presente uno, dos o más modos.
En caso de que la distribución sea simétrica y unimodal, puedo calcular el modo utilizando la
Relación de Pearson: Mo = 3 .M d n - 2 X
9
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
10
- Para nivel Nominal y datos sin agrupar el Modo es la categoría que a simple vista se repite mayor
cantidad de veces. Ej.:
- Para nivel nominal y datos agrupados el Modo es igual a la categoría que presenta mayor frecuencia. Ej.:
Categoría f
Empleada 20
domestica Mo= Albañil –Panadero
Albañil 35
Mozo 21 En esta distribución
Panadero 35 tenemos dos modos, por lo
tanto es bimodal
Carpintero 12
Desempleado 6
N 10
- Para un nivel Ordinal la obtención de Modo es exactamente igual que para nivel
nominal. Ej.:
las desconoce, las conoce todas, conoce solo algunas, conoce solo algunas, las desconoce, las conoce
todas, las desconoce, conoce solo algunas, conoce solo algunas, las conoce todas, las
desconoce, las conoce todas, conoce solo algunas, conoce solo algunas, las desconoce, las conoce
todas, las desconoce, conoce solo algunas, conoce solo algunas, conoce solo algunas. N=20
En esta distribución tenemos un modo, es por lo tanto, unimodal.
Categorías f
conoce todas 5
conoce solo algunas 9
las desconoce 6
10
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
11
- Para un nivel intervalar o métrico el modo es igual al valor que más se repite. Ej.:
7-8-6-5-7-3-2-1-7-6-5-4-7-9-4-8-5-7-5-7-7-6-3-7-1-7
___________________________
B. Mediana (Mdn): Es aquel valor o categoría que da el orden medio de una distribución , dejando por
encima y por debajo la misma cantidad de observaciones, siempre y cuando estén ordenados de > a < o
viceversa. Divide a la distribución en dos partes iguales. No se utiliza en el nivel nominal. Es la MTC que
mejor representa a una distribución cuando existen puntuaciones extremas no compensadas (que se
alejan significativamente de la mayoría) o cuando tenemos intervalos abiertos.
b En un nivel ordinal con un numero par: la Mdn es la categoría que más se repite de las 2 centrales
Mala-mala-mala- reg- reg-buena- muy buena -muy buena- muy buena- muy buena-muy buena- muy buena
Mdn= muy buena
c En niveles intervalares o métricos con N impar, la Mdn es igual al valor que se ubica exactamente en el
centro:
3-3-5-7-9-10-11-11-13-14-15
Mdn= 10
11
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
12
2 20 20
Malo
35 55
Regular
Mdn= regular 40 95
Bueno
15 110
Muy bueno
N= 110
Estadísticos
Puntaje
N Válido 10
Perdidos 0
Mediana 10,0000
Puntaje
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válido 3,00 2 20,0 20,0 20,0
5,00 1 10,0 10,0 30,0
7,00 1 10,0 10,0 40,0
9,00 1 10,0 10,0 50,0
11,00 2 20,0 20,0 70,0
13,00 1 10,0 10,0 80,0
15,00 2 20,0 20,0 100,0
12
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
13
EJEMPLOS:
Datos sin agrupar (se refiere a aquellos casos, como a continuación, en los que los datos no han
sido sistematizados en la Tabla de distribución de frecuencias)
EJEMPLOS:
Datos desordenados: 73, 98, 103, 89, 74, 112, 123, 142, 105, 117, 86, 93, 104, 110, 133, 147, 100, 96, 99,
88, 73, 98, 103, 89, 74, 148, 100, 96, 99, 88, 88, 73, 98, 103, 89, 74, 112, 123, 142, 105, 117, 86, 93, 104, 110, 133,
147, 100, 96, 99, 88.
13
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
14
N = 51 (numero impar)
Datos ordenados: 73, 73, 73, 74, 74, 74, 86, 86, 88, 88, 88, 88, 89, 89, 89, 93, 93, 96, 96, 96, 98, 98, 98, 99,
99, 99, 100, 100, 100, 103, 103, 103, 104, 104, 105, 105, 110, 110, 112, 112, 117, 117, 123, 123, 133, 133, 142, 142,
147, 147, 148.
Mdn = 99. Es el dato que esta en el medio, y que deja la misma cantidad de observaciones por encima
que por debajo.
Datos ordenados: 22, 22, 22, 22, 22, 22, 23, 23, 23, 23, 24, 24, 24, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25,
26, 26, 26, 26, 26,_26, 26, 26, 26, 27, 27, 27, 27, 27, 27, 27, 28, 28, 28, 29, 29, 29, 30, 30, 30, 30, 30, 30, 31, 31, 31, 32, 32,
32, 33, 33.
Mdn = 26. Es el dato que esta en el medio, y que deja la misma cantidad de observaciones por encima que por
debajo.
EJEMPLOS:
14
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
15
EJEMPLOS:
Datos agrupados (se refiere a aquellos casos, como a continuación, en los que los datos ya han
sido sistematizados en la Tabla de distribución de frecuencias)
Datos agrupados
Categoria Tab. f F↑
Las conoce todas IIIIII 6 6
Conoce solo alqunas IIIIIIII 8 14
Las desconoce IIIIII 6 20
=
N= 20
2
0
/
2
1
0
Mdn = conoce solo algunas. Ya que en esta categoría se ubican desde el Iugar8 al 14, por lo tanto 10 esta
incluido en ella.
15
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
16
EJEMPLOS:
2. La Mediana en el nivel Intervalar con SPSS:
La variable en estudio es el coeficiente de inteligencia de 50 alumnos de 7° año de una escuela. Datos: (30
puntajes de Cl) 73, 98, 103, 89, 74,112, 123, 142, 105, 117, 86, 93, 104, 110, 133, 147, 100, 96, 99, 88, 73, 98,
103, 89, 74, 148, 100, 96, 99, 88, 72, 98, 103, 89, 74, 112, 123, 142, 105, 117, 86, 93, 104, 110, 133, 147, 100,
96, 99, 88. N: 50.
Estadísticos
CI alumnos 7º año
N Válido 50
Perdidos 0
Mediana 99,5000
CI alumnos 7º
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válido 72,00 1 2,0 2,0 2,0
73,00 2 4,0 4,0 6,0
74,00 3 6,0 6,0 12,0
86,00 2 4,0 4,0 16,0
88,00 3 6,0 6,0 22,0
89,00 3 6,0 6,0 28,0
93,00 2 4,0 4,0 32,0
96,00 3 6,0 6,0 38,0
98,00 3 6,0 6,0 44,0
99,00 3 6,0 6,0 50,0
100,00 3 6,0 6,0 56,0
103,00 3 6,0 6,0 62,0
104,00 2 4,0 4,0 66,0
105,00 2 4,0 4,0 70,0
110,00 2 4,0 4,0 74,0
112,00 2 4,0 4,0 78,0
117,00 2 4,0 4,0 82,0
123,00 2 4,0 4,0 86,0
133,00 2 4,0 4,0 90,0
142,00 2 4,0 4,0 94,0
147,00 2 4,0 4,0 98,0
148,00 1 2,0 2,0 100,0
Total 50 100,0 100,0
16
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
17
EJEMPLO:
La variable en estudio es el peso de 60 niños de 8 años Datos: 25, 32, 23, 22, 28, 26, 31, 29, 27, 33,
22, 26, 25, 26, 30, 24, 27, 30, 25, 25, 25, 32, 23, 22, 28, 26, 31, 29, 27, 36, 22, 26, 25, 26,' 30, 24, 27, 30,
25, 25, 25, 32, 23, 22, 28, 26, 31, 29, 27, 33, 22, 26, 25, 26, 30, 24, 27, 30, 25, 25. N: 60
Estadísticos
Peso niños 8 años
N Válido 60
Perdidos 0
Mediana 26,0000
17
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
18
0
36,0 1 1,7 1,7 100,0
0
Total 60 100,0 100,0
C. Media (X): estadística o aritmética. Es el valor promedio de todas las observaciones. Si todos los demás valores
de la distribución adoptaran este valor promedio, la sumatoria seria igual a la sumatoria de los valores originales.
Es la medida más confiable porque en su cálculo intervienen todos los valores de la distribución. Se utiliza
solo en los niveles intervalar y métrico. La media se utiliza cuando deseamos que todas las observaciones tengan el
mismo peso, para obtener mayor confiabilidad, se pueden inferir otros valores. Es la medida de tendencia central
que mejor representa a una distribución, salvo cuando existen puntuaciones extremas no compensadas, porque en
ese caso el valor de la media se corre hacia las puntuaciones extremas y se distorsiona la información.
La distancia que existe entre cualquier observación y la media se denomina desvío o desvío real, y se
simboliza con una x minúscula. El desvío real es igual a cualquier observación menos la media:
x=x-x
observación
desvío
Para datos sin agrupar, tanto en nivel intervalar como métrico, la media es igual a la suma de los valores de
todas las observaciones, dividido la cantidad de observaciones:
1-2-3-4-5 x = ∑x (observaciones) =15 = 3
N 5
Ejemplo 2: desvíos con respecto a cualquier otra observación, por ejemplo observación 2
1- 2- 3- 4- 5
a) X = -1, 0, 1, 2, 3
b) X 2 = 1, 0, 1, 4, 9
EJEMPLOS:
1. La Media en el nivel Intervalar:
La variable en estudio es el coeficiente de inteligencia de 50 alumnos de 7° año de una escuela.
Datos: (30 puntajes de Cl) 72, 98, 103, 89, 74, 112, 123, 142, 105, 117, 86, 93, 104, 110, 133, 145,
100, 96, 99, 88 73, 98, 103, 89, 74, 146, 100, 96, 99, 88, 73, 98, 103, 89, 74, 112, 123, 142, 105, 117, 86,
93, 104, 110, 102, 145, 100, 96,. 99, 88. N=50.
Excel: Fx/estadísti cas/Mediana
CI alumnos 7º año
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válido 72,00 1 2,0 2,0 2,0
73,00 2 4,0 4,0 6,0
74,00 3 6,0 6,0 12,0
86,00 2 4,0 4,0 16,0
88,00 3 6,0 6,0 22,0
89,00 3 6,0 6,0 28,0
93,00 2 4,0 4,0 32,0
96,00 3 6,0 6,0 38,0
98,00 3 6,0 6,0 44,0
99,00 3 6,0 6,0 50,0
100,00 3 6,0 6,0 56,0
102,00 1 2,0 2,0 58,0
103,00 3 6,0 6,0 64,0
104,00 2 4,0 4,0 68,0
105,00 2 4,0 4,0 72,0
110,00 2 4,0 4,0 76,0
112,00 2 4,0 4,0 80,0
117,00 2 4,0 4,0 84,0
123,00 2 4,0 4,0 88,0
133,00 1 2,0 2,0 90,0
142,00 2 4,0 4,0 94,0
145,00 2 4,0 4,0 98,0
146,00 1 2,0 2,0 100,0
Total 50 100,0 100,0
19
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
20
Hay un solo caso en el que las tres medidas coinciden y adoptan el mismo valor: cuando trabajamos con
una distribución simétrica.
A X
- Las distribuciones pueden ser simétricas o asimétricas y estas últimas pueden ser positivas o negativas.
- En las distribuciones asimétricas que corresponden a la mayoría de las distribuciones empíricas, la media tiende
a correrse hacia las observaciones extremas.
- Distribución Simétrica
- Distribución Asimétrica3
Mdn Mdn
Positiva Negativa
Mo x x Mo
-Las distribuciones asimétricas positivas implican en general un rendimiento bajo, porque la mayor
concentración de sujetos se ubican en los puntajes bajos de la escala
-Una distribución asimétrica negativa implica rendimiento alto, porque la mayor concentración de sujetos se
ubica en los puntajes altos de la escala.
3
En la unidad 6 se abordará el cálculo de la asimetría a través de la fórmula: As = x – Mo
S
20
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
21
Reglas generales para reconocer cuando conviene utilizar cada Medida de Tendencia Central
- Se utiliza Media: cuando tenemos una escala intervalar o métrica. Cuando cada observación debe tener el
mismo peso. Cuando se quiere la mayor precisión o se quiere inferir. Cuando se desean obtener otros
estadísticos por, ejemplo medidas de dispersión.
- Se utiliza Mediana : cuando Tenemos escalas ordinales, intervalares o métricas. Cuando existen
puntuaciones extremas no compensadas o intervalos abiertos
- Se utiliza Modo: cuando tenemos escalas nominales. En estudios exploratorios donde sólo se desea
conocer en qué lugar de la escala se concentra la mayor cantidad de casos.
Cuando se tiene 1 escala intervalar o métrica que es aproximadamente simétrica y unimodal, y los datos están
agrupados, hay 1 método para obtener el Modo en forma más precisa = Relación de Pearson
Mo= 3. Mdn – 2. X
UNIDAD 5
Los fractiles son medidas de orden o posición que dividen a una distribución en partes iguales, dejando
incluido en cada parte la misma cantidad de sujetos u observaciones, por lo tanto partes iguales no se refiere a
cantidad de unidades de la escala, sino a cantidad de sujetos u observaciones 4 (es siempre una categoría o un
valor)
Los Fractiles son medidas estandarizadas y por lo tanto tienen 2 ventajas o utilidades que no presentan las
puntuaciones directas o en bruto. Estas son:
4
Ver tabla en página 5
21
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
22
1. Permiten conocer la ubicación o posición relativa de 1 sujeto en relación a todos los miembros de
su grupo
2. Permite comparar puntajes obtenidos por un mismo sujeto en distintas escalas.
La mediana, además de ser una medida de tendencia central, es un fractil porque es una medida de
orden que divide a la distribución en dos partes iguales.
Los cuartiles (Q) dividen a la distribución en cuatro partes iguales; por tanto, hay cuatro cuartiles, y cada
uno deja por debajo el 25% de las observaciones. El cuartil uno (Q1) deja por debajo el 25% de las observaciones; el
Q2, el 50% de las observaciones; y el Q 3, el 75% de las observaciones. El Q 4 es igual a N, es decir, a la totalidad de
observaciones.
Los deciles (D) dividen a la distribución en diez partes iguales. Cada decil deja por debajo el 10% de las
observaciones de la distribución.
Los percentiles (P) dividen a la distribución en cien partes iguales. Cada percentil deja por debajo al 1% de
las observaciones de una distribución. Es la medida de orden más precisa. La medida de orden más usada en las
ciencias sociales y de la conducta es el percentil.
Los fractiles se pueden obtener a partir de un nivel de medición ordinal, por que implican un
ordenamiento de los sujetos de menor a mayor, pero en general se usa en los niveles intervalar y métrico
Se calcula el orden del fractil y se determina la categoría que corresponde a ese fractil, ubicando al sujeto que está
es ese orden:
Datos agrupados:
22
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
23
Se obtiene en primer lugar el orden del fractil. Luego se obtienen las F↑ y de acuerdo a éstas, la categoría que
contenga el orden del fractil corresponde al fractil que se está calculando.
10-10-10-11-11-11-11-11-12-12-12-13-13-13-13-13-14-14-14-14-15-15-15-15-15 N=25
La variable en estudio es el coeficiente de inteligencia de 50 alumnos de 7° año de una escuela. Datos: (30
puntajes de Cl) 73, 98, 103, 89, 74,112, 123, 142, 105, 117, 86, 93, 104, 110, 133, 147, 100, 96, 99, 88, 73, 98,
103, 89, 74, 148, 100, 96, 99, 88, 72, 98, 103, 89, 74, 112, 123, 142, 105, 117, 86, 93, 104, 110, 133, 147, 100,
96, 99, 88. N: 50.
Estadísticos
CI alumnos 7º año
N Válido 50
Perdidos 0
Mediana 99,5000
Percentiles 25 89,0000
50 99,5000
75 110,5000
23
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
24
CI alumnos 7º año
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válido 72,00 1 2,0 2,0 2,0
73,00 2 4,0 4,0 6,0
74,00 3 6,0 6,0 12,0
86,00 2 4,0 4,0 16,0
88,00 3 6,0 6,0 22,0
89,00 3 6,0 6,0 28,0
93,00 2 4,0 4,0 32,0
96,00
6,0 6,0 38,0
3
98,00 3 6,0 6,0 44,0
99,00 3 6,0 6,0 50,0
100,00 3 6,0 6,0 56,0
102,00 1 2,0 2,0 58,0
103,00 3 6,0 6,0 64,0
104,00 2 4,0 4,0 68,0
105,00 2 4,0 4,0 72,0
110,00 2 4,0 4,0 76,0
112,00 2 4,0 4,0 80,0
117,00 2 4,0 4,0 84,0
123,00 2 4,0 4,0 88,0
133,00 1 2,0 2,0 90,0
142,00 2 4,0 4,0 94,0
145,00 2 4,0 4,0 98,0
146,00 1 2,0 2,0 100,0
Total 50 100,0 100,0
- Lo que “se deja por debajo” o lo que “está por encima” sirve para hacer un análisis comparativo respecto
de la distribución a la que el dato pertenece.
24
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
25
- La igualdad de la que se habla radica en la cantidad de observaciones. Las distribuciones pueden estar
amontonadas o no. No es una medida de distancia sino de orden en relación con la cantidad de
observaciones.
- En este ejemplo, cada cuartil contiene el equivalente a 12,5 alumnos, dado que el N=50.
- Si representáramos en un esquema alguna medida de orden en un continuo, el dibujo sólo sería simétrico
si la distribución fuera normal.
Q1 Q2 Q3 Q4
Mdn
Otro ejemplo:
La variable en estudio es el peso de 60 niños de 8 años Datos: 25, 32, 23, 22, 28, 26, 31, 29, 27, 33, 22,
26, 25, 26, 30, 24, 27, 30, 25, 25, 25, 32, 23, 22, 28, 26, 31, 29, 27, 36, 22, 26, 25, 26,' 30, 24, 27, 30, 25,
25, 25, 32, 23, 22, 28, 26, 31, 29, 27, 33, 22, 26, 25, 26, 30, 24, 27, 30, 25, 25. N: 60
25
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
26
Estadísticos
Peso de niños de 8 años
N Válido 60
Perdidos 0
Percentiles 10 22,1000
20 24,2000
30 25,0000
40 25,4000
50 26,0000
60 27,0000
70 28,7000
80 30,0000
90 31,9000
26
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
27
Estadísticos
Peso de niños de 8 años
N Válido 60
Perdidos 0
Percentiles 25 25,0000
50 26,0000
75 29,7500
27
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
28
Q3 = 29,75 Lo que nos dice este número es que el 75% de los niños pesa menos de 29,75 kilogramos. En este
caso, de niños de 8 años de edad, ese peso, es normal. Pero nos puede servir este dato, por ejemplo, para
compararlo con el peso de niños de otras áreas.
Si lo anterior lo representamos en el continuo de una recta sería:
Datos : 22, 22, 22, 22, 22, 22, 23, 23, 23, 23, 24, 24, 24, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 25, 26, 26, 26, 26,
26, 26, 26, 26, 26, 27, 27, 27, 27, 27, 27, 28, 28, 28, 29, 29, 29, 30, 30, 30, 30, 30, 30, 31, 31, 31, 32, 32, 32, 33, 33.
Q1 Q2 Q3 Q4
28
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
29
22, 22, 22, 22, 22, 22, 23, 25, 25, 25, 25, 25, 25, 26, 26, 26, 26, 27, 27, 29, 30, 30, 30, 30, 30,
23, 23, 23, 24, 24, 24,25, 25, 25, 25, 25, 26, 26, 27, 27, 27, 27, 28, 28, 30, 31, 31, 31, 32, 32,
25 26, 26, 26 28, 29, 29 32, 33, 33.
25 26 29,75
Además de obtenerse por fórmula en los niveles intervalar y métrico o con el uso de Excel o SPSS, se
puede determinar gráficamente el valor del fractil. Para ello se construye una Ojiva de Galton. En el eje de las y
(ordenada) se coloca la frecuencia acumulada en términos de porcentaje, en la x valor o categoría ,el
procedimiento es:
Porcentaje
Actitud acumulado
3,4 5,0
3,5 10,0
3,86 15,0
4,7 20,0
4,97 25,0
5,01 30,0
5,09 35,0
5,1 40,0
5,17 45,0
5,44 50,0
5,46 55,0
5,58 60,0
5,6 65,0
5,65 70,0
29
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
30
5,74 75,0
5,81 80,0
5,88 90,0
5,95 95,0
6,17 100,0
Bibliografìa de consulta:
- Cortada de Kohan, N. y Corro, J. M. (1975). “Estadística Aplicada”. Buenos Aires. Editorial Universitaria
de Buenos Aires. Capítulo 3
30
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
31
Las Medidas de Dispersión nos orientan respecto de cómo se alejan las observaciones respecto de las
Medidas de Tendencia Central, es decir cómo se distribuye un grupo de observaciones
alrededor de las Medidas de Tendencia Central.
Es decir, que sirven para conocer la homogeneidad o heterogeneidad de una distribución,
porque dos distribuciones pueden tener las mismas Medidas de Tendencia Central y ser muy diferentes.
A continuación, se presentan tres casos de comparación de las medidas de Dispersión con las de
Tendencia Central:
a-Distribución con la misma Media, pero con distinta dispersión.
Amplitud Total o Recorrido (A.T.): Es la diferencia entre el valor más alto de una distribución y el
más bajo. Es la más fácil de calcular, sin embargo, es la que menos información nos proporciona.
Podemos saber cuán extensa es una distribución.
Esta medida no nos sirve en dos casos:
Cuando tenemos un intervalo de clase nulo.
Cuando tenemos muy pocos casos en la distribución.
31
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
32
Es una medida poco confiable porque trabaja sólo con datos extremos, no usa la totalidad de las
observaciones.
Puede suceder que dos distribuciones presenten Medidas de Tendencia Central muy parecidas y que,
sin embargo, las amplitudes de ambas sean diferentes.
Fórmulas:
Puedo aplicar dos formulas
A. T.= Límite Superior Real (se le suma 0,5)– Límite Inferior Real (se le resta 0,5)
A. T.= Límite Superior – Límite Inferior + 1 (en este caso son los valores escritos; el 1 se justifica por la
necesidad de aproximar)
32
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
33
Distribución 1
Distribución 2
Si comparamos ambas distribuciones podemos decir que la primera tiene un recorrido mayor
respecto de la segunda.
Podemos afirmar que esto se debe a que a las escuelas céntricas asisten niños de distintos estratos
sociales.
En cambio, la escuela que está en el asentamiento recibe sólo alumnos del lugar y es probablemente
ése el motivo de las diferencias de peso, presentándose más niños con menor peso respecto de la
primera distribución.
Desviación Intercuartil (DQ - DC): Es la distancia que existe entre el Cuartil 3 (Q3) y el Cuartil 1 (Q1), y
se define como la cantidad de unidades de la escala a través de las cuales se dispersa el 50%
central de las observaciones (sujetos más representativos).
Es la medida indicada cuando existen puntuaciones extremas.
Nos informa cómo se distribuye el 50% central de los casos.
Nos da una idea sobre el grado de homogeneidad de la muestra.
Si la desviación intercuartil es menor, entonces la muestra presenta una mayor homogeneidad, ya
que el 50% central muestra a todos los datos aglutinados.
Caso contrario la muestra es más heterogénea.
Cuando la distribución es simétrica, la distancia entre el Q3 y el Q2 es igual que la distancia entre el Q2 y
el Q1.
En el caso de las asimetrías, esta igualdad desaparece.
La Mediana coincide con el Q2.
La distancia existente entre la Mediana y el Q1 y el Q3 muestra el grado de asimetría o simetría de
una distribución.
Si nos dan por ejemplos la desviación 30 y la desviaión 20 y nos preguntan cual
es mas homogénea? La que nos dio menos es más homogenia pq los datos
están aglutinados osea juntos
Fórmula: Q3 - Q1
EJEMPLO:
La variable en estudio es el peso de 60 niños de 8 años.
33
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
34
Fórmula: Q3 - Q1
Para poder aplicar esa fórmula, primero debo conocer los valores correspondientes a ambos cuartiles,
sabiendo que es Cuartil 3 corresponde con el Percentil 75 y el Cuartil 1 corresponde con el Percentil 25.
La distancia en una distribución entre los cuartiles nos informa acerca de si la misma es simétrica o
asimétrica, y si la asimetría es + o -.
Si representamos lo anterior en una curva, esta sería más o menos así:
Podemos decir que esta curva es simétrica, ya que la distancia existente entre la Mdn y Q1 es igual que
la existente entre la Mdn y Q3
Distribución simétrica
Q3 – Q2 = Q2 – Q1
Q1 Q2 Q3
Q1 Q2 Q3
34
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
35
Desviación Media (DX): es el promedio de los desvíos (reales) de todas las observaciones con respecto
a la media sin considerar el signo. No se considera el signo porque la sumatoria nos daría cero (en una
curva normal), ya que la media es un valor promedio.
Los desvíos se calculan restándole a cada observación la Media.
Esta medida es como una Media de las Desviaciones.
Fórmulas:
4TO AHORA DIVIDO LA SUMA DE LOS DESVIOS (SACO EL PROMEDIO) POR LA CANT QUE SON
Entre –1DX y +1DX se encuentran el 58 o 64% central de los casos (la diferencia de porcentajes se debe
a discrepancias entre los autores), es decir, más de la mitad de las observaciones de una
distribución. El 40% restante se divide en ambos extremos (el 20% en cada uno).
EJEMPLOS
Datos ordenados: 22, 23, 24, 25, 25, 26, 27, 27, 28, 29, 30 N = 11
1-Cálculo de la Media
35
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
36
Desvíos = (22-26), (23-26), (24-26), (25-26), (25-26), (26-26), (27-26), (27-26), (28-26), (29-26), (30-26)
Desvíos = -4, -3, -2, -1, -1, 0, 1, 1, 2, 3, 4 = 22
Importante: al sumar los desvíos no debo considerar el signo, caso contrario me da cero.
Desviación Estándar o típica (S): es la raíz cuadrada de la sumatoria de los cuadrados de los desvíos
con respecto a la Media, sobre N, o expresado de otro modo, es la raíz cuadrada del promedio de los
desvíos al cuadrado con respecto a la Media.
De las medidas de variabilidad es la más confiable porque además de que quedan incluidas todas las
observaciones en su cálculo, se ha demostrado empíricamente que es la medida de dispersión más
estable. Se ha demostrado empíricamente que si se calcula la desviación estándar de varias muestras
representativas de una misma población, éstas van a ser iguales o muy similares y por lo tanto se puede
considerar que la S de una muestra es un buen estimativo de la desviación estándar de la
población a la que pertenece, No es recomendable cuando existen puntuaciones extremas no
compensadas.
Si la distribución tiene gran cantidad de observaciones y es similar a la normal, el 68% central de
los casos se ubica a +/ - 1S, partiendo de la Media.
S2
Valore Desvío
s de x = x-
1 -2 (1-3) 4
2 -1 (2-3) 1
3 0 (3-3) 0
4 1 (4-3) 1
5 2 (5-3) 4
Suma Sum
= 15 a=
10
Cálculo de
Cálculo de S
36
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
37
X= 3
MEDIA =3
Varianza o Variancia (S2): Es la desviación estándar al cuadrado. Permite comparar las variaciones de
2 distribuciones distintas. Además, se utiliza en la aplicación de pruebas de hipótesis paramétricas.
Asimetría y Curtosis
Distribución Normal
Ordenada y
37
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
38
Absisa x
Distribución Normal
Distribución Normal
Distribución Empírica
38
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
39
Si aplicamos esta expresión a una distribución normal el resultado será cero. Ya que en las
distribuciones simétricas todas las medidas de tendencia central coinciden.
Q1 Q3 Mo Mdn
Mdn
Mdn
Mo
Q1 Q3
Mdn
Cuando no hay asimetría, porque la curva es simétrica, normal o representa una Campana de Gauss, el
resultado es cero.
La curva es de una distribución simétrica. La distancia entre la Mdn y los Q1 y Q3 es equivalente
Q1 Q3
Mdn
39
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
40
Mo Md Mdn Md Mo
Mo
PREGUNTAS:
QUE SE REFIERE Si la distribución tiene gran cantidad de observaciones y es similar a la normal,
el 68% central de los casos se ubica a +/ - 1S, partiendo de la Media.
S2
Bibliografía de consulta:
- Aron A. y Aron E. (2006). “Estadística para Psicología”. Buenos Aires. Prentice Hall y Pearson
Educación. Capítulo 2
- Cortada de Kohan, N. y Corro, J. M. (1975). “Estadística Aplicada”. Buenos Aires. Editorial
Universitaria de Buenos Aires. Capítulo 4
40
CATEDRA: PSICOESTADISTICA I
Facultad de Psicología - UDA
41
41
CATEDRA: PSICOESTADISTICA I 42
Facultad de Psicología - UDA
Estadísticos
VAR00004
N Válido 27
Perdidos 0
Media 67,3333
Mediana 74,0000
Moda 43,00
Desv. Desviación 22,30557
Rango 63,00
Percentiles 10 36,8000
20 41,6000
25 43,0000
30 43,0000
40 60,4000
50 74,0000
60 81,0000
70 85,6000
72 86,4800
75 89,0000
80 90,4000
90 93,4000
VAR00004
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Válid 35,0 1 3,7 3,7 3,7
o 0
36,0 1 3,7 3,7 7,4
0
37,0 1 3,7 3,7 11,1
0
40,0 1 3,7 3,7 14,8
0
41,0 1 3,7 3,7 18,5
0
42,0 1 3,7 3,7 22,2
0
43,0 3 11,1 11,1 33,3
42
CATEDRA: PSICOESTADISTICA I 43
Facultad de Psicología - UDA
0
53,0 1 3,7 3,7 37,0
0
59,0 1 3,7 3,7 40,7
0
66,0 1 3,7 3,7 44,4
0
69,0 1 3,7 3,7 48,1
0
74,0 1 3,7 3,7 51,9
0
76,0 1 3,7 3,7 55,6
0
77,0 1 3,7 3,7 59,3
0
82,0 1 3,7 3,7 63,0
0
83,0 1 3,7 3,7 66,7
0
85,0 1 3,7 3,7 70,4
0
86,0 1 3,7 3,7 74,1
0
89,0 1 3,7 3,7 77,8
0
90,0 1 3,7 3,7 81,5
0
91,0 1 3,7 3,7 85,2
0
92,0 1 3,7 3,7 88,9
0
93,0 1 3,7 3,7 92,6
0
95,0 1 3,7 3,7 96,3
0
98,0 1 3,7 3,7 100,0
0
Total 27 100,0 100,0
43
CATEDRA: PSICOESTADISTICA I 44
Facultad de Psicología - UDA
35
36
37
40
41
42
43
43
43
53
59
66
69
74
76
77
82
83
85
86
89
90
91
44
CATEDRA: PSICOESTADISTICA I 45
Facultad de Psicología - UDA
92
93
95
98
Estadísticos
VAR00001
N Válido 27
Perdidos 0
Media 67,3333
Mediana 74,0000
Moda 43,00
Desv. Desviación 22,30557
Rango 63,00
Percentiles 25 43,0000
50 74,0000
72 86,4800
75 89,0000
VAR00001
Frecuencia Porcentaje Porcentaje Porcentaje
válido acumulado
Válid 35,0 1 3,7 3,7 3,7
o 0
36,0 1 3,7 3,7 7,4
0
37,0 1 3,7 3,7 11,1
45
CATEDRA: PSICOESTADISTICA I 46
Facultad de Psicología - UDA
0
40,0 1 3,7 3,7 14,8
0
41,0 1 3,7 3,7 18,5
0
42,0 1 3,7 3,7 22,2
0
43,0 3 11,1 11,1 33,3
0
53,0 1 3,7 3,7 37,0
0
59,0 1 3,7 3,7 40,7
0
66,0 1 3,7 3,7 44,4
0
69,0 1 3,7 3,7 48,1
0
74,0 1 3,7 3,7 51,9
0
76,0 1 3,7 3,7 55,6
0
77,0 1 3,7 3,7 59,3
0
82,0 1 3,7 3,7 63,0
0
83,0 1 3,7 3,7 66,7
0
85,0 1 3,7 3,7 70,4
0
86,0 1 3,7 3,7 74,1
0
89,0 1 3,7 3,7 77,8
0
90,0 1 3,7 3,7 81,5
0
91,0 1 3,7 3,7 85,2
0
92,0 1 3,7 3,7 88,9
0
93,0 1 3,7 3,7 92,6
46
CATEDRA: PSICOESTADISTICA I 47
Facultad de Psicología - UDA
0
95,0 1 3,7 3,7 96,3
0
98,0 1 3,7 3,7 100,0
0
Total 27 100,0 100,0
U N ID A D 7
47
CATEDRA: PSICOESTADISTICA I 48
Facultad de Psicología - UDA
Lo utilizo
cuando 1- Criterio para clase cerrada- Frecuencia relativa ( f ‘):
conozco N, es se aplica cuando se han agotado todas las posibilidades de tener más
decir cuando observaciones. El valor numérico de la probabilidad de que una observación esté
no pueden incluida en una categoría cualquiera es igual a la frecuencia absoluta dividido N, es
haber mas decir, a la frecuencia relativa en términos de proporciones.
posibilidades p = f /N
de
observaciones,
pq ya las La probabilidad es una proporción. Los valores de la probabilidad se mueven entre 0 y 1
conozco a (ya que un hecho no puede más que ocurrir o no ocurrir).
todas. La experiencia indica que es sumamente raro que conozcamos la totalidad de las
observaciones (N). A veces la clase de estudio no es íntegramente accesible a la investigación,
o bien otras veces no es una clase cerrada sino abierta, es decir, que N no es fijo sino
variable. Cuando esto sucede, lo que llamamos clase abierta, necesitamos otros dos criterios
para determinar el valor numérico de la probabilidad. Estos son:
Antes de que 2- Criterio a priori: el valor numérico de la probabilidad de obtener un cierto tipo de
pase algo observación de una variable es igual al número de casos en que puede darse esta
puedo sacar observación (casos favorables- mi probabilidade d salga lo q yo necesito-), divido por el
un crititerio número total de casos en que pueda darse o no darse esta observación (todos los casos
de que algo posibles- probabilidades si hablo d una moneda 2).
ocurra. Lo
utilizo
cuando NO
conozco N,
es decir 48
cuando
pueden haber
CATEDRA: PSICOESTADISTICA I 49
Facultad de Psicología - UDA
49
CATEDRA: PSICOESTADISTICA I 50
Facultad de Psicología - UDA
tiradas
Este hecho empírico permite adoptar la frecuencia relativa, “a la larga”, como el valor
numérico más fidedigno de la probabilidad
Para una clase cerrada como determino la probabilidad frecuencia relativa
En cual de los 3 criterios se comprueba el valor teorico de la probabilidad 3ero
Entonces una vez establecida la probabilidad como p= el valor numérico de la
probabilidad de que se den F casos favorables en N casos posibles, el valor numérico
de la probabilidad de que no se den los casos favorables es un número q, tal que:
q= N–f
N
p = probabilidad de ocurrencia.
50
CATEDRA: PSICOESTADISTICA I 51
Facultad de Psicología - UDA
q = probabilidad de no-ocurrencia
51
CATEDRA: PSICOESTADISTICA I 52
Facultad de Psicología - UDA
Nos permite
calcular que LEY DE PROBABILIDAD NORMAL
valor va a Permite calcular la proporción de veces (cuerpo d la tabla) que una variable aleatoria
adpotar (puntaje dirc) adopte determinados valores (puntaje z) en la escala de medición que le
determinada es propia. Permite predecir los valores más probables.
variable y esta
Para poder aplicar la Ley de Probabilidad normal la variable aleatoria debe ser continua
variable para
y la distribución de la misma debe ser aproximadamente normal.
poder aplicar la
ley debe ser El parecido o similitud de cómo se distribuyen la mayoría de las variables psicológicas,
continua y su sociológicas, pedagógicas, antropológicas, etc., indican una tendencia general de
distribución campana denominada campana de Gauss o curva normal probabilidades.
cuando la La curva normal es la expresión gráfica de una ecuación matemática. Para poder
grafiquemos aplicar éste modelo teórico a un grupo de observaciones se deben hacer 2
normal. transformaciones en la escala original.
DESPÚES:
Antes veíamos que el 0 en la distribución que el origen de los ejes era la interseión d
las cordenadas
Trabajabajavamos con puntajes directos y funcionaba con el 0 en la intersección
valores mas grandes que la media iban a la drch y mas pequeños a la izq
AHORA:
0 ESTA EN LA MEDIA
YA NO TRABAJO CON PUNTAJE DIREC AHORA PUNTAJE Z SE HACE EN
FUNCIÓN DE LA DESVIACIÓN ESTANDAR (S)
1º Transformación: correr el punto origen de la escala. El 0 de la escala se traslada al
lugar en donde se ubica la (media), transformando el punto central en 0 y todas las
observaciones se consideran como desvío ó en relación a la (media) de su
distribución. POSI A LA DRCH D LA X
NEGA A LA IZQ D LA X
0 X (media) absisa x
52
CATEDRA: PSICOESTADISTICA I 53
Facultad de Psicología - UDA
Z= x – X 72-3
S 14 =5 Es el que voy a usar en la curva y puede
Z= 5s ser posi o negativ
Para cada puntaje Z va a haber una
probabilidad entonces uso la tabla d
¿Cuál es su utilidad? puntajes Z
Los puntajes Z son puntajes estandarizados y por lo tanto ofrecen las mismas
utilidades que los fractiles, es decir conocer la posición relativa de un sujeto con
respecto a los demás sujetos de la población y comparar puntajes de distintas escalas.
34% 34%
14% 14%
2% 2%
(Z) -3 -2 -1 0 1 2 3
50% 50%
Tabla de probabilidades: Existe una tabla en donde ya se encuentran calculados los
valores de las probabilidades bajo la curva normal. En ella encontramos en la 1º
columna a la izquierda y la 1º hilera superior los puntajes Z. La columna indica las dos
primeras cifras de ese puntaje; la hilera las segunda y tercer cifra.
Las tablas han sido construidas calculando los valores de p para diversos valores de X.
En el cuerpo de la tabla aparecen las proporciones o probabilidades entre un puntaje Z
( o , indistintamente por ser una distribución simétrica) y la media de la distribución.
53
CATEDRA: PSICOESTADISTICA I 54
Facultad de Psicología - UDA
0,27
Valor de probabilidad es entre el 0 y el puntaje Z si yo a la probabilidad la pongo en % dice q entre 0 y 0,27 hay 20%
0 X (media) absisa x
SINTESIS:
PASAMOS PUNTAJE DIREC Z
EL Z ME DEJA BUSCAR LA PROBABILIDAD EN LA TABLA
--- puedo realizar un paso mas si quiero PASAR A % DESDE EL 0 AL 0,27 (siguiendo el
ejemplo) ESTA EL 20% (siguiendo el ejemplo) DE LOS CASOS
La tabla representa el 50% de los casos, yo le pongo el signo por ej si yo mi valor en vez d darme
0,27 me hubiera dado -0,27 entonces mi puntaje cuando lo busque en la tabla va a ser el
mismo (POSITIVO) (pq dividimos 3 los mismos 3 numeros) lo q va a variar es donde lo
ubico en la curva osea ahora un lado izq pq en ese caso seria un valor negativo.
“PROFE PERO LA TABLA MUESTRA LA MITAD DE LA TABLA” NO LO Q MUESTRA SON
TODAS LAS PROBABILIDADES EL SIGNO (OSEA EL LADO PARA EL Q VA A IR SE LO
PONGO YO)
Fórmulas y consideraciones básicas:
A partir de utilizar el modelo teórico de la curva normal y estandarizar los puntajes por la
ecuación, se pueden calcular la proporción o probabilidad de sujetos u observaciones que se
ubican entre dos puntajes determinados, o por encima o debajo de un puntaje o bien entre un
puntaje y la media; o cuántos sujetos han obtenido un puntaje determinado, o qué probabilidad
existe de que un sujeto obtenga dicho puntaje5
Z= x–X
S
x= Z.s X
54
CATEDRA: PSICOESTADISTICA I 55
Facultad de Psicología - UDA
Z 2 = 16 – 12 = 1
4
Los valores reducidos son 8= -1(z) y 16= 1(z); por lo tanto
2do paso. buscando en la tabla encontramos que entre 0 y 1 está p= 0,34 (tanto para el
posi cm para el nagativo);
55
CATEDRA: PSICOESTADISTICA I 56
Facultad de Psicología - UDA
0,34 0,34
-1 0X 1 absisa x
Representa al: 8 16
3er paso.
Antes teniamos el 8 pasamos a z -1 p=0,34 ahora tengo q sacar en t. de % los
casos existen entre los puntajes 8 y 16
Deducimos: 0,34 0,34= 0,68 0,68 x100 (para sacar porcentaje) = 68 % de casos
están entre los puntajes 8 y 16.
56
CATEDRA: PSICOESTADISTICA I 57
Facultad de Psicología - UDA
0 1,5 (z)
Ejemplo 2: dada una distribución normal cuya X =16 y s=4. ¿Qué límites (puntaje directo)
incluyen el 75% central de los casos?
Bien. Si dividimos 75% por 2 (dos pq estamos hablando d la media), tenemos 37,5% o,
expresado en proporciones, 0,375 por encima y por debajo de la X. Buscando los valores
en la tabla nos da un z= 1,15. dividimos 03 y 75, si hacemos d 75 aproximación nos da 8 entonces
es 0,148 0,15
Ya podemos utilizar los datos para obtener los puntajes directos que buscamos. En la
formula tenemos q poner uno positivo y uno negativo para q nos den los puntajes directos
dif.
x=Z.S+X
x1 = -1,15 4 16 = 11,4
x2= 1,15 4 16 = 20,6
Los límites que encierran el 75% central de los casos son 11,4 y 20,6 (puntajes directos).
0,375 0,375
Z= x- X FORMULA PARA P.
Z
SABER COMO EL
PADRE NUESTRO
Ptaje directo Ptaje Z(CON FORMULA) BUSCO TABLA LA prop/probab PASO A . porcentaje
cantidad de sujetos
57
CATEDRA: PSICOESTADISTICA I 58
Facultad de Psicología - UDA
50% :2 = 25%
25% (0,25) = -0,68 y 0,68
x = Z*S+ N
X1 = 0,68*10+100 = 106,8
X2 = -0,68*10+100 = 93,2
Rsp: Los puntajes directos que encierran en el 50% central de los casos son 93,2 y 106,8
Z = x-N /s
Z X1 = 91
X2= 102
Z1= 91-100/10 = -0,9
Z2 = 102-100/10 = 0,2
Z1 = -0,9 =0,31 31%
Z2 = 0,2 = 0,079= 0,08 8%
Z1+Z2 31% + 8% = 39%
39% de 1000 (N) = 390
Rsp: entre 91 y 102 puntos hay 390 sujetos
3-¿Qué probabilidad existe de que un sujeto elegido al azar se ubique entre Z1 = 1,20 y
Z2 = 1,90?
Z1 = 1,2 = 0,38493 = 0,38
Z2 = 1,9 = 0,47128 = 0,47
Z1-Z2= 0,47 – 0,38 = 0,09
Rsp: La probabilidad existe de que un sujeto elegido al azar se ubique entre Z1 y Z2 es 0,09
4-¿Qué puntaje directo obtuvo un sujeto si fue superado por el 84% de los sujetos?
84% -50%= 34% 0,34
0,34 = 1
x = Z*S+N
X = -1*10+100 = 90
RSP: El puntaje directo que obtuvo un sujeto que fue superado por el 84% es 90
58
CATEDRA: PSICOESTADISTICA I 59
Facultad de Psicología - UDA
- Cortada de Kohan, N. y Corro, J. M. (1975). “Estadística Aplicada”. Buenos Aires. Editorial Universitaria
de Buenos Aires. Capítulo
UNIDAD 8
Correlación y Regresión (Predicción)6
Conociendo la correlación entre dos variables se puede predecir el valor más probable de
un sujeto en una de ellas, conociendo el puntaje de ese sujeto en la otra variable. Por ej. Si se
conoce la talla o estatura de un sujeto, se puede predecir cuál será su peso más probable ya
que se ha comprobado empíricamente que existe una correlación interna entre estas dos
variables.
La interpretación del coeficiente de correlación lineal como medida de la interrelación lineal
entre dos variables es en esencia una interpretación puramente matemática, y está
desprovista de toda connotación causa – efecto. Así por ejemplo, la cantidad de llamadas
telefónicas que se inician en Bs. As. entre las 11 y 12 de la mañana y la cantidad de huevos
que ponen las gallinas en el campo en dicho período, tienen una fuerte correlación lineal
positiva a pesar de que uno de estos hechos no tiene ninguna influencia sobre el otro.
Correlación cuando lo saco en el Excel me va a dar un numero entre 1 y -1 y ese resultado me va a dar 3
informaciones la existencia, la direc la intensidad
Preguntan sobre q es el índice d correlación , d q nos informa (LAS 3 INFO Q NOS DA) , que es cuando es
posi perfecta(una aumenta y otra tb)
Es el grado de relación que existe entre dos o más variables, y constituye uno de los
principales objetos de la estadística porque nos permite, dados los valores de una variable,
conocer o predecir los valores de otra variable, sobre la base de la relación que tenga con la
primera.
6
-Cortada de Kohan, N. y Carro J. M. (1975). “Estadística Aplicada”. Editorial Universitaria de Buenos Aires. Bs. As.
-Aron A. y Aron E. (2006). Estadística para Psicología. Buenos Aires. Prentice Hall y Pearson Educación
-Documentos de Cátedra
-www.edutecne.utn.edu.ar/probabilidad/indice.htm#inicio
59
CATEDRA: PSICOESTADISTICA I 60
Facultad de Psicología - UDA
Esta relación cuantitativa existente entre dos variables se puede determinar a través del
índice de correlación, el cual nos brinda tres datos:
1- Existencia o no de correlación: los límites entre los cuales se mueve la correlación son
entre –1 y +1 (puede ser positivo o negativo). Es positivo a medida que una variable
aumenta la otra también aumenta (+ trabajo + gano), y es negativo cuando una de las
variables aumenta y la otra disminuye (+ falto al trabajo –gano). Si el valor se acerca a
0 o 0 no existe correlación y mientras más cerca de los extremos se valla, o sea del 1 o
-1 la correlación es + fuerte, mientras más a los extremos estén más fuerte es
0 al -1 –negativauna aumenta y otra disminuye
0 al 1—postivalas dos aumentan
60
CATEDRA: PSICOESTADISTICA I 61
Facultad de Psicología - UDA
Ej:
Variable X: Aptitud hacia la aritmética
Variable Y: Aptitud hacia la geometría
variable variable
Momento X Y
1 1 1
2 2 2
3 3 3
4 4 4
5 5 5
6 6 6
7 7 7
8 8 8
9 9 9
10 10 10
r=1
61
CATEDRA: PSICOESTADISTICA I 62
Facultad de Psicología - UDA
NubeX devariable
Momento variable puntosY
12
1 1 2
2 2 2
10
3 3 3
8
4 4 5
65 5 6
46 6 8
27 7 8
08 8 9
90 2 94 6 9 8 10 12
10 10 10
r= 0.99 a 0.31
r= 0,97533746
Correlación Negativa perfecta: a cada aumento unitario en una variable le corresponde una
disminución unitaria en la otra. r=-1 una aumenta y otra dismunuye en la misma proporción
Nube de
Momento variable X puntos
variable Y
12 1 1 10
10 2 2 9
8 3 3 8
6 4 4 7
4 5
5 6
2
6 6 5
7 7 4
0
8
0 2 8 4 6 3 8 10
9 9 2
10 10 1
r= -1
62
CATEDRA: PSICOESTADISTICA I 63
Facultad de Psicología - UDA
Nube de
Momento variable X puntos
variable Y
12
1 1 10
2 2 9
10
3 3 9
8
4 4 7
65 5 7
46 6 6
27 7 5
08 8 4
-1 9 1 39 5 37 9 11
10 10 1
r= -0.31 a -0.99
r= -0,98590216
Correlación Nula: a medida que una aumenta la otra aumenta o disminuye arbitrariamente.
R=0.30 a 0.01, r=-0.30 a –0.01 una aumenta la otra aumenta o disminuye en cualquier
proporción se comporta NO HAY CORRELACION PQ SE COMPORTA MUY
AZAROZAMENTE
r= +0.01 a +0.30
r= -0.01 a –0.30
r= -0,20578862
63
CATEDRA: PSICOESTADISTICA I 64
Facultad de Psicología - UDA
Correlación Nula Perfecta: a medida que una variable aumenta únicamente la otra permanece
constante. R=0 una aumenta Y la otra se mantiene constate
r= 0 Nube de puntos
10
9
En8las tres correlaciones perfectas, la unión de puntos en el diagrama forma una línea recta
7
6
5
4
3
2
1
0
1 3 5 7 9 11
64
CATEDRA: PSICOESTADISTICA I 65
Facultad de Psicología - UDA
Una vez hecho eso hago el grafico en Excel, voy a insertar grafico
65
CATEDRA: PSICOESTADISTICA I 66
Facultad de Psicología - UDA
Ahí toco en el cuadrito d la izq agregar y horizal las X y en el vartical las Y (borra el 1). Toco
aceptar y ahí queda la nube d puntos
Ecuación de regresión
Conociendo la correlación y si esta es alta, se puede predecir el valor de una de las variables
conociendo el valor de la otra asociada a la primera (siempre que hayamos comprobado
que existe esta correlación). Y esto es lo que se denomina “Regresión”. a esto de predecir
una variable habiendo conocido a la otra asociada, es decir haber conocido la correlación, se le
denomina regresión.
¿Por qué a veces la predicción se denomina regresión? 7 El término regresión proviene del
NO HACE hecho de que si transformáramos los puntajes de ambas variables correlacionadas en puntajes
FALTA
SABER LO Q Z, y la correlación entre ambas fuera menos que perfecta (menos que 1), la puntuación
NO ESTA
RESALTADO
Z de Y (variable dependiente), siendo una fracción (la fracción equivale al valor de r) de la
puntuación Z de X (variable independiente); como resultado la puntuación Z de Y se
encontraría más cerca de su media, sufriría una regresión o retorno hacia 0.
Toda vez que se confirme un grado de correlación entre dos variables, se supone la
existencia de una serie de ecuaciones matemáticas que determinan la línea que mejor se
ajusta a la nube de puntos. (recta, parábola, circunferencia, etc.) hice la nube d puntos y
va haber una recta por medio d la nube que se construirá a partir de mi predicción del valor que
a cada valor d x le correspondería en Y
7
Ver Aron A. y Aron E. (2006). Estadística para Psicología. Buenos Aires. Prentice Hall y Pearson Educación,
capítulo 4.
66
CATEDRA: PSICOESTADISTICA I 67
Facultad de Psicología - UDA
Esta recta que se ajusta a una nube de puntos para realizar las predicciones se puede trazar
de dos maneras:
- a simple vista.
por el método de los Mínimos Cuadrados (que hace que las predicciones sean más
precisas). Y= a+b.X
El método de los Mínimos Cuadrados se basa en postular que, en nuestro caso, la recta que
mejor se ajusta a una serie de observaciones es la que hace mínima la suma de los
cuadrados de los desvíos de cada observación con respecto a esa recta. Este criterio define
dos rectas, no una sola según sigamos el sentido del eje X o el del eje Y.
Esto último implica que la recta de regresión debe cumplir con dos propiedades:
1- la de los desvíos con respecto a la recta es =0. Esta propiedad la cumplen todas las NO HACE
rectas que pasan por el punto de intersección de la media de X y la media de Y ; porque FALTA
SABER LO Q
también se cumple en relación a la x. NO ESTA
RESALTADO
2- la de los desvíos al cuadrado con respecto a la recta sea mínima. Esta, en cambio, es
privativa o exclusiva de la recta de regresión. La recta de regresión por el método de los
mínimos cuadrados, se obtiene a partir de fórmulas y de la ecuación de regresión.
Y Y
Recta d Recta d
regresion regresion
b
b
a a
X X
8
Ver diferencias entre ejemplo 1 y ejemplo 2
67
CATEDRA: PSICOESTADISTICA I 68
Facultad de Psicología - UDA
b=r. Sy
Sx
Media de la variable Y media de la variable X
a= Y -b.X
Diagramas de Dispersión
Toda vez que un grupo de sujetos es medido por dos variables se puede trazar un diagrama de
dispersión en los ejes octogonales, en donde queda graficada la dirección e intensidad de la
correlación.
Ejemplo 1:
Actitud
Obtenemos la correlación de Pearson
X –subescala Y -subescala
(r), mediante el uso de Excel y/o SPSS
A B
r = 0,819
4,85 4,27
4,18 3,25
68
CATEDRA: PSICOESTADISTICA I 69
Facultad de Psicología - UDA
2,21 1,80
3,06 3,06 Obtenemos los parámetros a y b, mediante el
3,27 3,04 uso de fórmulas.
4,01 4,33
4,05 3,05 b = 0,898 . 1,050437119= 0,87
5,90 5,63 0,987504471
2,07 2,09
3,72 4,40 a= 3,597619048- [ 0,87. 3,616666667] = 0,45
3,33 3,15
4,20 4,95
2,10 3,18 Obtenemos los parámetros a y b, mediante el
3,50 4,50 uso de SPSS.
4,35 5,00
3,10 3,10 CoeficientesaModeloCoeficientes no
4,93 3,80 estandarizadosCoeficientes estandarizadostSig.BError
2,39 1,94 estándarBeta1(Constante),446,525,851,406x,871,140,819
2,72 2,53 6,224,000a. Variable dependiente: y
3,56 3,57
4,45 4,91
-
- Construimos la nube de puntos en Excel y agregamos línea de tendencia (click derecho en
alguno de los puntos/agregar línea de tendencia) Si yo en el grafico d nube toco cualquiera de los
puntitos con el botón derecho y pogo agregar línea d tendencia ,la línea q se dibuje inluiria a
todos los valores nuevos q obtuviéramos con la formula
69
CATEDRA: PSICOESTADISTICA I 70
Facultad de Psicología - UDA
Y= 0,45+0,87 * 7 = 6,54
-Ahora calcularemos los valores de Y para varios valores de X, mediante el uso de la función
Tendencia de Excel.
1- Función/Estadísticas/Tendencia
2- Conocido Y: seleccionar todos los valores de la variable Y
3- Conocido X: seleccionar todos los valores de la variable X
4- Nueva matriz: el valor que se quiere calcular de Y
5- Constante: Verdadero
Actitud
X –subescala Y -subescala Valor de Y, para un X Tendencia
A B de:
4,85 4,27 6 6,10639385081736
4,18 3,25 7 7,1237696221717
2,21 1,80 9 9,15852116488037
3,06 3,06 11 11,193272707589
3,27 3,22
4,32 4,33
3,05 3,05
5,90 5,63
2,07 2,09
3,72 4,40
3,33 4,00
4,20 4,95
3,10 3,18
3,50 4,50
4,35 5,00
3,10 3,10
4,93 4,85
2,39 1,94
2,72 2,53
3,56 3,57
4,45 4,91
70
CATEDRA: PSICOESTADISTICA I 71
Facultad de Psicología - UDA
6 5,67425757
9 8,28820816
7 6,54557443 Aquí copiamos los valores de arriba
11 10,0308419
- Generamos una nueva nube de puntos, ahora incluyendo los valores nuevos:
- Los puntos
En esta que grafique
nueva nube de con la podemos observar cómo se crean nuevos puntos, los cuales
puntos
tabla original
marcan por donde se extenderá la Recta de Regresión, coincidiendo con ésta.
EJEMPLO EN SPSS:
En el spss pongo la tabla analizar regresión lineales depend Y e indepen X (arriba
siempre la Y y abajo X) BUSCO LA 4TA TABLA EN MIS RESULTADOS,la q dice
coeficientes el a es el q dice constate y el q dice x es la b
Coeficientesa
Coeficientes
71
Estos nuevos valores va a ser los q permitan trazar una recta entonces la recta q
mejor se ajusta a la nube puntos original
CATEDRA: PSICOESTADISTICA I 72
Facultad de Psicología - UDA
Pongo en el casillero alado d mis “X” nuevas, la función TENDENCIA (entonces esta función
tendencia es la q me va a permitir sacar la regresión o predicción de ciertos valores) en
conocio d y copio la columba d Y pero sin mis valores nuevos. En conocido d x copio la
Columba de x sin incluir los valores nuevos en mi selección. En nueva matriz el NUEVO
VALOR. En constante escribo VERDADERO
72
CATEDRA: PSICOESTADISTICA I 73
Facultad de Psicología - UDA
Y AHÍ M APARECE EL VALOR D Y si yo quiero graficar voy a ver dsp d graficar q estos
valores me va a aparecer
Antes despues
Por ejemplo si quiero saber cuanto sacaría un sujeto en una prueba de escritura si tuvo un valor
x en la prueba d lectura
Sinetsis tengo tabla, la pongo y hago con los valores el grafico de dispersion(variable depen y e ind x)
Saco el índice d correlacion ,r =coef. De correl. me piden valores nuevos lo pongo abajo d X los
valores nuevos y en Y el valor nuevo (los saco con la formula tendencia ) grafico nuevamente
con los valores nuevos y agrego la línea d tendencia
COEFICIENTE ALFA DE CRONBACH
73
Requiere de una sola aplicación del instrumento y se basa en la
medición CATEDRA: PSICOESTADISTICA I
de la le cambias 74
1-pegas tabla y en vista d variables el nombre respectivo a X y a Y
respuesta del Facultad
sujeto de Psicología
con respecto - UDA
a los ítems del
2- analizar escalasanalisis d fabilidad
3-esta seleccionadoinstrumento.
alfa q es alfa d cobrach asi q solo paso las 2variables
4- pongo aceptar
5- en el visor d resultados solo El número de de combrach y ese es el q voy a pegar
K me importa
S
2el segundo cuadrito
q dice alfa
en Word (metiene q dar mas d1 ,800
(q significa
i
0,8 pqK: ítems
acordémosnos q ahí te das cuenta q es aceptable o no)
K 1 2 Sumatoria de Varianzas de los
S T
Si : Items
2
Coeficiente de Alfa de
Cronbach
Suma de
Items I II III Items
Sujetos
Campos (1) 3 5 5 13
Gómez (2) 5 4 5 14
Linares (3) 4 4 5 13
Rodas (4) 4 5 3 12
Saavedra (5) 1 2 2 5
Tafur (6) 4 3 3 10
VARP 1,58 1,14 1,47 ST 2 : 9,14
(Varianza de la
Población) Si2 : 4,19
El número de
K: ítems 3
Sumatoria de las Varianzas de
Si2 : los Items 4,19
La Varianza de la suma de los
ST2 : Items 9,14
Coeficiente de Alfa de Cronbach
3 4,19
1
3 1
9,14
1,5 [ 0,54 ]
0,81
N %
74
Casos Válido 6 100,0
Excluidoa 0 ,0
CATEDRA: PSICOESTADISTICA I 75
Facultad de Psicología - UDA
Coeficientes Derivados de r
1- Coeficiente de Alienación: k
Así como la correlación indica el grado de relación o co-variación entre dos variables, la
alienación indica el grado de independencia entre dos variables y se usa cuando interesa medir
más el grado de independencia que el de relación o de interdependencia.
Resumen de procesamiento de casosN
%CasosVálido21100,0Excluidoa0,0Total21100,0a. La eliminación
K= 1 – r por lista se basa en todas las variables del procedimiento.
75
CATEDRA: PSICOESTADISTICA I 76
Facultad de Psicología - UDA
Bibliografìa de consulta:
- Aron A. y Aron E. (2006). Estadística para Psicología. Buenos Aires. Prentice Hall y Pearson Educación.
Capítulo 3
- Cortada de Kohan, N. y Corro, J. M. (1975). “Estadística Aplicada”. Buenos Aires. Editorial Universitaria
de Buenos Aires. Capítulo 8
UNIDAD 9
UNIDAD DE MUESTREO
La teoría de las muestras intenta por vía inferencial sacar conclusiones válidas para la
población a partir del estudio de un sector de la misma, esto es lo que se denomina “muestra”.
Población o universo: todos los sujetos o entidades, que poseen una o más características en
común que se desean investigar.
Para que una muestra sea probabilística se deben cumplir dos requisitos:
1- Que todos los sujetos de la población tengan la misma probabilidad de ser incluidos en la
muestra
2- Que la elección se realice al azar ya sea por bolillero o tabla de números aleatorios.
1- Muestras al azar simple: el primer paso para obtener una muestra al azar simple, es la
confección de un esquema. Se denomina esquema a la información escrita de todas las
entidades de una población y éste debe ser lo más fidedigno posible a la población o universo
real. Una vez obtenido el esquema y conocido el N poblacional, se determina el n muestral con
el que se desea trabajar. El “n” muestral dependerá del objeto de estudio, de los objetivos
de la investigación, del tiempo y presupuesto del que se dispone.
76
CATEDRA: PSICOESTADISTICA I 77
Facultad de Psicología - UDA
Este método nos garantiza una selección completamente aleatoria, pero resulta muy lento y
costoso, pues nos obliga a elaborar listas completas de todas las unidades de interés, lo que a
veces es sencillamente imposible.
Este método no será adecuado si, por ejemplo, queremos sacar una muestra de todas las
personas analfabetas que existen en un país. En cambio, si nuestra intención es extraer una
muestra del universo de todos los alumnos que ingresan a una universidad en un determinado
año, resultará muy adecuado.
2- Muestras al azar sistemático: esta técnica se usa cuando tenemos poblaciones más
numerosas y en consecuencia se deben seleccionar gran cantidad de sujetos.
Paso 1: la confección de un esquema. Es decir, también se requiere de un listado completo de las unidades
que integran el universo en estudio
Ahora, mediante cualquier procedimiento, buscamos al azar un número entero cuyo valor figure
entre los límites de 1 y 40. En este caso, el número elegido es el 32. Entonces, las unidades
que pasarán a formar parte de la muestra serán las que lleven los siguientes números de orden:
1° unidad 32
2° unidad 32 + 40= 72
3° unidad 32 + 80 =112
....
70° unidad 32 + 2760 =2.792
Las ventajas y desventajas de este procedimiento son casi idénticas a la de las muestras al
azar simple. Los procedimientos computacionales hacen mucho más fácil efectuar el sorteo de
las unidades y no existe el riesgo de que la muestra quede sesgada por algún tipo de
regularidad que no conocemos y que esté presente en el universo.
77
CATEDRA: PSICOESTADISTICA I 78
Facultad de Psicología - UDA
Por ejemplo, si quisiéramos estudiar las actitudes políticas de los estudiantes de una
universidad, podríamos subdividir en estratos de acuerdo con el tipo de estudios que cursen,
suponiendo que estas actitudes van a ser diferentes entre quienes siguen Ingeniería, Letras,
Medicina u otras carreras. Luego, efectuaríamos un muestreo dentro de cada sub – universo así
definido para, finalmente, realizar un análisis integrando los resultados de todas las sub –
muestras
78
CATEDRA: PSICOESTADISTICA I 79
Facultad de Psicología - UDA
Paso 1: dividir a la población en conglomerados. Es una división geográfica del territorio. Los
conglomerados deben ser lo mas heterogéneos posible dentro de sí, en relación a las
características que influyen en la variable de estudio; y lo más homogéneos entre sí, ya que un
conglomerado debe poder representar a toda la población.
Godo
y cruz
Muestras - Ocasionales
no - Intencionales
probabilísticas - Autogeneradas
- Ocasionales
Integradas por sujetos que ocasionalmente se le presentan al investigador de forma casual
o espontánea
- Intencionales
Integradas por sujetos que poseen determinadas características que el investigador supone
que influyen en la variable de estudio. Entonces la elección e totalmente intencional
- Autogeneradas
Integradas por unos pocos sujetos a los que el investigador tiene fácil acceso. Luego a
cada uno de estos sujetos se les pide que contacten a otros sujetos con determinadas
características y así sucesivamente hasta lograr el nº de sujetos deseados. “Efecto bola de
nieve”
Cuando una muestra es aleatoria o probabilística, es posible calcular sobre ella el error
muestral. Este error indica el porcentaje de incertidumbre, es decir, el riesgo que se corre de
que la muestra elegida no sea representativa. Si trabajamos con un error calculado en 5%, ello
significa que existe un 95% de probabilidades de que el conjunto muestral represente
79
CATEDRA: PSICOESTADISTICA I 80
Facultad de Psicología - UDA
Del mismo modo, para una muestra determinada, su error será menor cuanto más pequeño
sea el universo a partir del cual se la ha seleccionado. Así, para un universo de 10.000 casos,
una muestra de 200 unidades tendrá un error mayor que una de 300; una muestra de 200
casos, por otra parte, tendrá un error mayor si el universo tiene 10.000 unidades que si éste
posee solamente 2.000.
Para fijar el tamaño de la muestra adecuado a cada investigación, es preciso primero
determinar el porcentaje de error que estamos dispuestos a admitir. Una vez hecho esto,
deberán realizarse las operaciones estadísticas correspondientes para poder calcular el tamaño
de la muestra que nos permite situarnos dentro del margen de error aceptado.
Bibliografìa de consulta:
- Cortada de Kohan, N. y Corro, J. M. (1975). “Estadística Aplicada”. Buenos Aires. Editorial Universitaria
de Buenos Aires. Capítulo 6
80
CATEDRA: PSICOESTADISTICA I 81
Facultad de Psicología - UDA
Unidad 10
Uno de los investigadores del proyecto ha tenido una idea. Sobre la base de algunas nuevas
Edad (meses): 7 8 9 10 11 12 13 14 15 16
17 18 19 20 21
Puntuaciones Z: -2 . -1 0 +1 +2
teorías, razona que si la vitamina que toman los bebés estuviera más refinada, su efecto podría
ser notablemente mayor, y que los bebés que tomaran la versión con alto grado de refinamiento
deberían comenzar a caminar mucho antes que los otros bebés. (Supondremos que el proceso
9
Ejemplo extraído de Aron A. y Aron E. (2006). Estadística para Psicología. Buenos Aires. Prentice Hall y Pearson Educación
81
CATEDRA: PSICOESTADISTICA I 82
Facultad de Psicología - UDA
de purificación no podía de ningún modo hacer que la vitamina fuera dañina para los bebés).
Sin embargo, refinar la vitamina de este modo eleva en gran medida el costo de cada dosis; por
lo tanto, el equipo de investigación decide probar el procedimiento con dosis suficientes para un
sólo bebé. Entonces, se selecciona al azar un bebé del proyecto para suministrarle la versión
altamente refinada de la vitamina, y se realiza un seguimiento de su progreso junto con el de
todos los otros bebés del mismo proyecto. ¿Qué tipo de resultado llevaría a los investigadores a
sacar la conclusión de que la vitamina altamente purificada hace que los bebés caminen a más
temprana edad?
Lo que acabamos de describir es el ejemplo de un problema que se resuelve a través de la
prueba de hipótesis. Los investigadores pretenden sacar una conclusión acerca de si la
vitamina purificada hace que los bebés en general caminen antes de lo esperado. La conclusión
referida a los bebés en general, sin embargo, se basará en los resultados obtenidos, estudiando
sólo una muestra. (En este extraño ejemplo, la muestra es un sólo bebé).
En casi todas las investigaciones psicológicas, ya sea con experimentos, encuestas u otro
método, sacamos conclusiones evaluando la probabilidad de obtener nuestros resultados
de investigación si fuera verdad lo contrario a lo que estamos prediciendo.
_____________________________
Si se comparan 2 Si se compara o
medias o me da me habla d
números en valores entr 0 y 1
forma d puntaje utilizo
direc, utilizo esto Proporción
Compara proporción d Compara proporción d
una población con la una muestra con la
Compara media d una propor d una muestra. propor d una muestra.
Compara media d muestra con la media de La utilizo cuando Por
población con media d La utilizo cuando Por
otra muestra. Por ej si yo ej comparo la ej comparo la
una muestra. Por ej si comparo la media de el
yo comparo la media proporción d recibidxs proporción d recibidxs
CI de los alumos d 1ero de los alumnos d 2019 de los alumnos d 2019
del CI de los alumnos y la media del CI d los
d 1ero (muestra) y la (muestra) y la (muestra) y la
alumnos d segundo proporción del proporción de reibidxs
media del CI del N estoy comparando dos
total d alumnos TOTAL d reibidxs a en la carrera
83d
muestrs. Entendiendo q lo largo d historia d la psicología (muestra)
universitario N total es total d
(población)s uni (población)s
alumnos universitarios
CATEDRA: PSICOESTADISTICA I 84
Facultad de Psicología - UDA
Cuando esté haciendo el practico tengo q ver el enunciado, identifico si está comparando media
o proporciones y luego si compara muestra con población o muestra con muestra y por ultimo
utilizo LA UNICA PRUEBA correspondiente.
Las pruebas paramétricas son las que se usan cuando existen escalas intervalares o
métricas, o cuando se supone que la distribución de la característica se distribuye en la
población en forma similar a la curva normal.
SABER D MEMORIA
10
Ver página 11 NO PARAMÉTRICAS
84
CATEDRA: PSICOESTADISTICA I 85
Facultad de Psicología - UDA
b- Prueba de la media sirve para verificar si existen diferencias significativas entre una
media muestral y la media poblacional.
Ejemplo (H1):
La escuela A tiene un rendimiento significativamente más bajo que el total de las escuelas de la
provincia a la que pertenece la escuela A
PRIMER AÑO TIENE UN RENDIMIENTO ACADEMICO SIGNIFICATIVAMENTE QUE EL
RENDIMIENTO TOTAL DE LOS ALUMNOS DE LA UNI. D LA ACONCAGUA
Modelo : (pongo primero la muestra) tiene un (variable) significativamente más bajo [o alto] que
el total de (pongo la población que medi)
Ejemplo (Ho):
Ejemplo (H1):
Ejemplo (Ho):
No existen diferencias significativas entre la proporción de ausentismo de la zona A y la
zona B
Ejemplo (H1):
La proporción de ausentismo de la escuela A es significativamente mayor que la
proporción de ausentismo del total de las escuelas de la provincia a la que pertenece la
escuela A
85
CATEDRA: PSICOESTADISTICA I 86
Facultad de Psicología - UDA
Ejemplo (Ho):
No existen diferencias significativas entre la proporción de ausentismo de la escuela A y la
proporción de ausentismo del total de las escuelas de la provincia a la que pertenece la
escuela A
Hallar el nivel de significación o margen de error que se puede cometer al realizar una
inferencia tener en cuenta el nivel d margen d error q voy a realizar en mi prueba d hipófisis
Existen dos tipos de errores al inferir: error tipo 1 (α) y error tipo 2 (β)
β: es el que se comete cuando se acepta la hipótesis nula y en realidad es falsa. –no había
dif significativas y en realidad si habia
En general, los investigadores psicólogos utilizan un corte en la distribución comparativa (es
decir, los límites de aceptación de la H0) que coincide con una probabilidad del 5% de que un
valor sea al menos tan extremo. Es decir, los investigadores rechazan la hipótesis nula si la
probabilidad de obtener un resultado tan extremo (si la hipótesis nula fuera verdadera) es
menor al 5%.
86
CATEDRA: PSICOESTADISTICA I 87
Facultad de Psicología - UDA
La distribución T de student es muy similar a la normal, pero cuando los n de las muestras son
pequeños, adopta una forma más aplanada, a medida que aumenta n la forma de la curva
siga equiparando a la normal y cuando n es mayor de 100 o 120 se estabiliza y se llevara a
la normal.
La distribución T de student es platicúrtica (chatita) en relación a la normal pq comparamos
2 muestras a nivel d media el n se supondría como bajo.
T de student
5- Definir la zona de rechazo – una vez q dibuje la curva voy a construir la zona d rechazo
q es poner dos parámetros q me van a servir para cuando yo saque la cuenta ver si
supero o no ese parámetro y aceptar la hipótesis nula u alternativa.
87
CATEDRA: PSICOESTADISTICA I 88
Facultad de Psicología - UDA
α: 0,05
Nueva hipótesis
Nueva hipótesis
nuevo aporte
nuevo aporte
2,5% Zona de 2,5% probabilidad de rechazar la H0
cuando en realidad es verdadera (α)
aceptación
de Ho
H1 H1
zt = -1,96 zt = 1,96
α: 0,01
zt = -2,58 zt = 2,58
Por encima o por debajo de estos valores de zt teórico, quedan las zonas de rechazo de
hipótesis nula, o aceptación de hipótesis de investigación alternativa.
tt tt
gl = (n1-1) + (n2 – 1)
el n d la muestra 1 menos uno sumado el n d la muestra 2 menos uno
Si los grados d libertad dan +120 los valores van a ser lo mismo q para las otras pruebas; el t
teórico (si mi grados d libertad son mayores a 120).
supongamos q el gl me da 70 y margen d error 0,1; busco en la columna vertical izq el 70 (si no
lo tengo busco el q más cerca este, en este caso 60) y en la horizontal busco el margen d error (si
tengo 0,05 en la columna 0,05 y si tengo 0,01 la columna correspondiente)
88
CATEDRA: PSICOESTADISTICA I 89
Facultad de Psicología - UDA
6- Establecer la decisión
La decisión se establece de la siguiente manera: toda vez que el valor numérico de z empírico o
t empírico sean más altos que los valores de z teórico y t teórico respectivamente, se rechaza la
hipótesis nula y se verifica para la población en general que las diferencias son significativas.
Toda vez que ze o te adopten un valor numérico menor a zt y tt respectivamente, se acepta la
hipótesis nula y se verifica que las diferencias no son significativas, o sea que se deben atribuir
al azar.
¿Qué valor extremo necesitaría tener la muestra para poder sacar un conclusión
confiable?
¿Cuán extremo debería ser ese valor para que resultara demasiado improbable que
pudiera obtenerse ese valor extremo si la H0 fuera verdadera?
89
CATEDRA: PSICOESTADISTICA I 90
Facultad de Psicología - UDA
Fórmulas
te = X1 – X2
Dx (error estándar de la diferencia entre medias)
DX = S12 + S22
n1 n2
gl = (n1-1) + (n2 – 1)
- Prueba de la media
11
Aron A. y Aron E. (2006). Estadística para Psicología. Buenos Aires. Prentice Hall y Pearson Educación. Capítulo 6, pág.
184
90
CATEDRA: PSICOESTADISTICA I 91
Facultad de Psicología - UDA
Ze = Xm - Xp
Ze = P1 – P2
Dp
Dp = p1. q 1 + p2 . q 2 q=1-p
n1 n2 (error estándar de la diferencia entre proporciones)
- Prueba de la proporción
Ze = Pm – Pp
p
(error estándar de la prueba de la proporción)
p = pp. q p
nm
Ejercicios
Con los siguientes datos, formular hipótesis nula e hipótesis alternativa. Aplicar la prueba de
hipótesis correspondiente y establecer la decisión.
Puede inferirse con un α= 0,05 que el rendimiento de los niños de la zona rural es
significativamente más bajo que el rendimiento de los niños de la zona urbana
Ya hice el paso dos d Elegir la prueba estadística apropiada
91
CATEDRA: PSICOESTADISTICA I 92
Facultad de Psicología - UDA
-distribución muestral: distribución t de student [pq es dif d medias, si fueran las otras
distribución muestral z]
Saco los grados d libertad; me dio más d 120 por lo tanto el
gl = (n1-1) + (n2 – 1) parámetro d significación quedo en 1,96 y -1,96
gl= 45 + 79 = 124
Y ahora saco el valor empírico; primero saco el denominador y dsp la formula matriz
te = X1 – X2 matriz
Dx
DX = 82 + 62 = 1,36
46 80
Por fuera del 1,96 y -1,96
te= 66 – 77 = - 8,09 Osea ACEPTO MI HIPOTESIS
1,36 ALTERNATIVA NUEVO
APORTE
-8,09 8,09
tt = -1,96 tt = 1,96
1- Formulación de hipótesis
2- Elegir la prueba estadística apropiada
92
CATEDRA: PSICOESTADISTICA I 93
Facultad de Psicología - UDA
Ejemplo (Ho):
No existen diferencias significativas entre la proporción de ausentismo de la escuela A y la
proporción de ausentismo del total de las escuelas de la provincia a la que pertenece la
escuela A
Bibliografìa de consulta:
- Aron A. y Aron E. (2006). Estadística para Psicología. Buenos Aires. Prentice Hall y Pearson Educación.
Capítulos 6 y 7
- Cortada de Kohan, N. y Corro, J. M. (1975). “Estadística Aplicada”. Buenos Aires. Editorial
Universitaria de Buenos Aires. Capítulo 7
93