Informacion del Dia

Distribución probabilistica

CONCEPTOS BASICOS
Para el buen manejo y entenidimiento de este parte, se debe tener los conceptos básicos de probabilidades, pues juega un papel importante cuando se trata de elección de un modelo que permita la descripción del comportamiento de los datos. El término modelo, corresponde a una expresión empleada para estudiar los resultados de un experimento, como a su vez, ver el comportamiento en futuras repeticiones. Algunos conceptos a tener en cuenta:
7.1.1 Distribución de probabilidad.
Son todos los posibles valores que resultan de un experimento aleatorio, junto con la probabilidad asociada a cada valor.
7.1.2 Variable aleatoria.
Corresponde a una caracterización cualitativa de los resultados que constituyen un espacio muestral. Cada cantidad o valor es el resultado de un experimento aleatorio y, como tal, puede tomar distintos valores. Las variables aleatorias se clasifican en discreta y continua.
Variable aleatoria discreta, cuando los valores que asume se pueden contar y si estos pueden organizarse en una secuencia al igual que los numeros enteros positivos. Solo puede asumir un numero finito de valores.
Variable aleatoria continua. Cuando puede asumir cualquier valor dentro de un intervalo o en una union de intervalos. Admiten fracciones.
Dentro de los modelos de probabilidad, correspondiente a variables aleatorias discretas, con mayor aplicación se tienen: Bernoulli, Binomial, Poisson, Exponencial, Multinomial e Hipergeométrico y en cuanto a la variable aleatoria continua se considera el modelo normal estandarizado. En este apartado tratare la Normal.
7.1 CURVA NORMAL.
Corresponde a un adistribución de variable aleatoria continua, que se extiende sobre un campo de variabilidad infinito y está determinada:
n= Numero de datos. = Desviación estandar de la distribucion binomial . e =Base de los logaritmos naturales = 2.71828 = 3.141592… () = media de la distribución binomial = np.
Se le denomina tambien, Gaussiana, Laplaciana, Distribución de Laplace-Gauss o de Gauss-Laplace o bien la segunda ley de Laplace. Aparentemente fue descubierta por De Moivre(1756) como forma límite de la Distribución Binomial.
La curva normal es el tipo de distribución más comun. Una característica importante de la curva normal es que dice con exactitud la cantidad de casos que caen entre dos puntos cualesquiera de la misma.
La simetría de la curva indica que la mitad del área está a la izquierda del vértice y la otra mitad a la derecha, así que la mitad de las probabilidades están asociadas con los valores a la izquierda del vértice y la otra mitad a los valores de la derecha del mismo. Debido a esta simetría, las desviaciones positivas y negativas respecto del valor x, donde está situado el vértice, tienen igual peso y por lo tanto se compensan entre sí, lo cual permite apreciar que el vértice ocurre para x = u. Adviértase tambien que la figura muestra el procentaje de casos que caen dentro de una, dos, y tres desviaciones estándar por encima y debajo de la media. Un 34% de los casos cae dentro de +1 DS (o -1 DS). Al alejarse de la media, el número disminuye. Asi las áreas cubiertas desde +1 DS hasta +2 DS, desde -1 DS hasta -2 DS representan cada una casi 14% de los casos. Entre 2 y 3 DS de la media existen menos casos aún, alrededor de 2% de la distribución.

En el eje horizontal de esta curva se han marcado las distancias que representan una, dos y tres desviaciones típicas, por encima y por debajo de la media. Así, en el ejemplo que se da, la media corresponde a una puntuación de 40 y un DS de 4.9. Por lo tanto, + 1 DS estará a 44.9 (40+4.9); +2 DS, a 49.8 (40+2x4.9) y asi sucesivamente. El porcentaje de casos que en una curva normal figuran entre la media y +1 DS es 34.13%. Como la curva es simétrica, tambien se encuentra el 34.13% de los casos entre la media y -1 DS
7.2 PUNTUACIÓN TÍPICA LINEAL.
Las puntuaciones típicas expresan la distancia del individuo a la media en función de la desviación típica de la distribución.
Las puntuaciones típicas lineales pueden obtenerse por transformaciones, lineales o no de las puntuaciones directas originales. Todos los cálculos que se puedan realizar con las puntuaciones directas originales pueden tambien efectuarse con las puntuaciones típicas lineales, sin ninguna distorsión de los resultados.
Las puntuaciones típicas deducidas linealmente se designan a menudo simplemente como puntuaciones típicas o puntuaciones z. Se dice tambien que es variable normalizada ya que mide la desviación de la media en unidades de desviación típica.
z =
Ejemplo,
Calcular la probabilidad de obtener 4, 5, 6 caras en 9 lanzamientos de una moneda.
Mediante la aproximación binomial se tiene:
n = 9, p= ½ , q = ½ u= np = 9(1/2) = 4.5

p(3.5<x<6.5) = ? ( Se tiene que x=3.5 corresponde al límite inferior de 4 y x=6.5 es el límite superior de 6.
Se quiere buscar el área a partir de la media hasta el límite inferior, dado que el área de cada lado vale 50%; la suma total será igual a uno. Se tiene que
z = Ahora, haciendo uso de la tabla para valores z (distribución normal que viene como anexo en los libros de estadística). Tenemos que el area es igual a 0.2486 (este valor se encuentra de la siguiente manera: en dicha tabla se va hacia abajo por la columna encabezada por z, hasta alcanzar el valor 0.6. Sobre esta misma fila hacia la derecha hasta la columna encabezada por 0.07, la intercepción da el valor).

z =
Ahora se desea obtener el área comprendida entre z=-0.67 y z=1.33. Para ello sumamos los valores 0.2486 + 0.4082 = 0.6568. Por lo tanto la probabilidad de que aparezcan 4, 5 y 6 caras es de 65.68%

Ejemplo:
1. Determinar el área bajo la curva normal a la izquierda de z = -1.78
P(z<-1.78) = ? P= 0.5000 – 0.4625 = 0.0375
P = 3.75%
(La suma de las partes es igual a 1. Por ello a 0.5000 se le resta el valor dado). Como z es menor a este valor, quiere decir que el area está al lado izquierdo de la curva.
2. Encontrar el valor de z si el area a la derecha de z es igual a 0.2266.
0.5000 – 0.2266 = 02734
A(0.2734) por lo tanto z = 0.75 (debe buscarse en la tabla)
3. Hallar z si el area bajo la curva normal entre 0 y z es 0.4515
A(0.4515), por lo tanto z= 1.66

Ejercicios.
Determinar el área bajo la curva normal.
  1. A la derecha de z = 0.56
  2. A la dercha de z= -1.45
  3. Correspondiente a z < 2.16
  4. Correspondiente a -0.80 < z < 1.53
Encontrar el valor de z:
  1. El area a la izquierda de z es 0.0314
  2. El area entre –0.23 y z es igual a 0.5722
  3. El area entre 1.15 y z es 0.0730
  4. A la derecha de z es 0.8023
  5. Entre –z y z es 0.7436

7.3 EL TEST CHI-CUADRADO (X2).
Test estadístico para evaluar la asociación o independencia entre dos variables. Trabaja con variables categóricas o discretas.
Algunos interrogantes que se pueden resolver con chi-cuadrado. Está el rendimiento académico asociado al sexo del alumno?. Está el talento deportivo asociado a la nacionalidad de las personas?
Para realizar el cálculo del Chi-cuadrado es preciso construir una tabla de contingencia. La tabla de Contingencia es una estructura de filas y columnas que sirven para mostrar el resultado(cifra, número) de clasificar el total de casos(datos). Se pueden construir tablas de contingencia de 2x2, 2x3, 3x3, etc. No está limitado por el número de categorías. El Chi-cuadrado si está limitado fuertemente el que exista una o mas celdas con una frecuencia menor de 5 casos(datos), ya que la distorsión de los resultados es muy grande generando una falsa interpretación.
Para aplicar la prueba se deben definir frecuencias observadas y esperadas. Supongamos que se ha medido a 180 alumnos de la escuela "La Rochela", que cursan el 6° año de bachillerato. Previamente se ha definido una escala de rendimiento con un rango de 1 a 7, donde el puntaje 4 significa aprobación mínima de la asignatura y 7 es sobresaliente y menos de 4 es reprobación. De los 180 estudiantes encontramos 75 con una calificación de alto rendimiento. El grupo restante (105) se encuentra de bajo rendimiento.
En cuanto a la motivación, recurriendo a un test específico, se ha medido a los mismos 180 alumnos y encontramos que hay 60 estudiantes con alta motivación y otro grupo de 120 con baja motivación. Estos puntajes corresponden a los obtenidos en la realidad, es decir son el producto de la evaluación mediante la aplicación de los intrumentos respectivos. Estas cifras se encuentran en los extremos del cuadro por lo tanto corresponde a las frencuencias observadas. Ademas se observaron los siguientes resultados:
a) Rendimiento alto y alta motivación: 50 estudiantes
b) Rendimiento alto y baja motivación: 25 estudiantes
c) Rendimiento bajo y alta motiviación: 10 estudiantes
d) Rendimiento bajo y baja motivación: 95 estudiantes
Con estos datos se construye la tabla de Frecuencias observadas. (Haga uso de la hoja electrónica)

RENDIMIENTO
MOTIVACION
ALTO
BAJO
TOTAL
ALTA
50
10
60
BAJA
25
95
120
TOTAL
75
105
180

7.3.1 Frecuencias esperadas.
Para determinar las frecuencias esperadas a partir de los datos observados, resulta de multiplicar los respectivos marginales y dividir por el gran total.
RENDIMIENTO
MOTIVACION
ALTO
BAJO
TOTAL
ALTA
60(75)/180
60(105)/180
60
BAJA
120(75)/180
120(105)/180
120
TOTAL
75
105
180
Porqué se presenta este resultado? Si estamos preguntándonos si existe relación entre dos sucesos o eventos, hemos de considerar que lo esperado es que los dos sucesos sean independientes. Por ejemplo, en el caso que nos ocupa, la celda superior izquierda relaciona los individuos de Alta Motivación y de Alto Rendimiento. Los alumnos de alta motivación son 60 de 180, es decir 60/180. Los alumnos de alto rendimiento son 75 de 180, es decir, 75/180
Cuántos individuos (X) de los 180 se espera que sean al mismo tiempo de alta motivación y de alto rendimiento?. Segun las leyes probabílisticas, se espera que la probabilidad de que dos eventos independientes se den en el mismo estudiante, es igual al producto de las probabilidades individuales, es decir, 60(75)/180 = X X= 25
A través de Chi-cuadrado se probará de forma afirmativa o negativa que la distribución de las frecuencias observadas difiere significativamente en relación a la distribución de la frecuencias que deberiamos esperar.

O= Frecuencia Observada
E= Frecuencia Esperada
O
E
(O - E)
(O – E)2
(O - E)2/E
50
25
25
625
25
25
50
-25
625
12.5
10
35
-25
625
17.8
95
70
25
625
8.9
X2 = 64.2
Qué nos dice este valor ?
a) Se requiere para ello constatar el valor obtenido (64.2) con el Chi-cuadrado crítico de la tabla de valores criticos que viene como anexo en los libros de estadistica.
Nota: Normalmente todos los libros de estadística traen como anexo, tablas con sus respectivos valores críticos.
b) Si X2 observado es mayor que el X2 crítico entonces, podemos afirmar que existe una asociación, estadísticamente significativa entre las variables estudiadas.
c) Para encontrar X2 crítico se requiere comprender dos conceptos:
Grados de libertad y Nivel de significación
Grados de libertad(GL): Se define como (Número de columnas -1)(Número de filas -1). Para el ejemplo sería: Tabla de 2x2 , entonces, GL = (2-1)(2-1) = 1
Nivel de significación (P): Denominado nivel de confianza, se refiere a la probabilidad de que los resultados observados se deban al azar. Este valor es fijado por el investigador, usualmente es el 5% o 10%. Lo que indica que si se toma P=0.05, se está significando que solo en un 5% de las veces en que se realice la medición, el resultado obtenido podría deberse al azar. De lo contrario sería decir que existe un nivel de confianza del 95% que el resultado es real y no debido a la casualidad. Considerando P=0.05 y GL=1, se tiene que X2 crítico es igual a 3.84. Se observa que X2 calculado (64.2) es mayor a X2 critico (3.84).
Luego podemos afirmar que el rendimiento en la matemática está asociado a la motivación de los alumnos por dicha asignatura.
Finalmente, mediante una tabla de 2x2 se muestran los resultados principales obtenidos al cruzar las dos variables: rendimiento y motivación.
RENDIMIENTO
MOTIVACION
ALTO
BAJO
ALTA
50 (66.6%)
10 (9.5%)
BAJA
25 (33.3%)
95 (90.5%)
TOTAL
75 (100%)
105 (100%)
Como se puede observar, los estudiantes de más alto logro(rendimiento), en matemáticas, son aquellos que tienen una mas alta motivación, del mismo modo, los que evidencian un menor logro muestran tambien una mas baja motivación.
Aplicando la prueba de asociación estadística Chi-cuadrado y los procedimientos de cálculo apropiados, se demuestra que ambas variables se encuentran estadísticamente asociadas con un nivel de confiabilidad del 95% (X2=64.2, GL=1 y P=0.05)
La principal consecuencia que se deriva del estudio, es la necesidad de implementar un conjunto de acciones y actividades pedagógicas y recreativas con el fin de evaluar la motivación de los alumnos por la matemática, lo cual se espera demuestre efectos positivos en sus rendimientos en dicha asignatura.
Ejercicios:
1) Determine si puede o no realizar la prueba Chi-cuadrado, y porque.
  1. Se desea determinar la relación que existe entre la ubicación del estudiante en el aula de clase y su nivel de atención. Se han escogido las categorías por la ubicación en el aula de: alumno adelante y alumno atrás. Por el nivel de atención de: bajo, medio-bajo y bajo-bajo.
  2. Se desea determinar la relación que existe entre consumo de cigarrillos y rendimiento en el trabajo en una oficina de 10 empleados. Se categoriza a los fumadores en altamente fumadores, poco fumadores y no fumadores y el rendimiento en alto y bajo.
2) Qué margen de error se puede permitir el programa espacial para el acoplamiento de naves que circundan la tierra ?
3) Tres grupos de alumnos de una Universidad respondieron a la Escala E de Dogmatismo de Milton Rokcach. Los resultados fueron:

Grupo A
Grupo B
Grupo C
Por debajo de X
10
6
12
Por encima de X
8
14
5

Son iguales los tres grupos en la variable de personalidad medida?. Explique la respuesta.

No hay comentarios:

Publicar un comentario