Taller de herramientas informáticas para el análisis de datos : octubre 2017

jueves, 19 de octubre de 2017

Muestra de población de 24 años con relación a la zona centro-norte y sur-oeste

Numero de-poblacion de MERIBETH DECENA MORALES

miércoles, 11 de octubre de 2017

CORRELACIÓN DE SPEARMAN

¿Cuándo utilizar la prueba de correlación de rangos de Spearman?

El coeficiente de correlación no debe utilizarse para comparar dos métodos que intentan medir el mismo evento, como por ejemplo dos instrumentos que miden la saturación de oxígeno en sangre. El coeficiente de correlación mide el grado de asociación entre dos cantidades, pero no mira el nivel de acuerdo o concordancia. Si los instrumentos de medida miden sistemáticamente cantidades diferentes uno del otro, la correlación puede ser 1 y su concordancia ser nula. El coeficiente de correlación de Spearman es recomendable utilizarlo cuando los datos presentan valores extremos, ya que dichos valores afectan mucho el coeficiente de correlación de Pearson, o ante distribuciones no normales. No está afectada por los cambios en las unidades de medida.

Coeficiente de correlación de rangos de Spearman Como resultado de la revisión de varios autores, asumimos el siguiente concepto: SPEARMAN (Rho de Spearman). Este coeficiente es una medida de asociación lineal que utiliza los rangos, números de orden, de cada grupo de sujetos y compara dichos rangos.

Los asesores estadísticos de la actualidad, procesan grandes bases de datos, en un tiempo extraordinariamente breve, por lo que recomendamos la utilización de los mismos para optimizar el tiempo del que dispone el investigador para el análisis de los datos. Proponemos el Paquete Estadístico para Ciencias Sociales (SPSS).Pasos a seguir en el asesor Crear la base de datos 1. Realizar un gráfico de dispersión. a. Gráficos. b. Dispersión. c. Simple. d. Definir. e. Asignar las variables en los ejes X y Y. (Anexos 1 a 3). f. Realizar el cálculo del coeficiente de correlación. g. Analizar. h. Correlación. i. Divariada. j. Seleccionar las variables. k. Marcar Pearson y Spearman para comparar si las diferencias son significativas.

Interpretación de la correlación En la interpretación de la prueba estadística correlación de Spearman, es necesario tener en cuenta el objetivo de la investigación que se define en primera instancia y la relevancia de estas relaciones en el fenómeno clínico que se estudia, no depende en nuestras conclusiones solamente de la cifra matemática obtenida, sino basarnos en experiencias científicas del tema de investigación, para evitar que interfiera la casualidad. La explicación de un coeficiente de correlación como medida de la intensidad de la relación lineal entre dos variables es puramente matemática y libre de cualquier implicación de causa-efecto. El hecho de que las dos variables tiendan a crecer o decrecer juntas no indica que la una tenga un efecto directo o indirecto sobre la otra. Ambas pueden estar influidas por otras variables de modo que se origine una fuerte relación matemática. La interpretación de rho depende principalmente de los detalles de la investigación y la experiencia propia en el tema de estudio. La experiencia previa sirve generalmente como base de comparación para determinar si un coeficiente de correlación es digno de ser mencionado.

CHI CUADRADA

Es una prueba no paramétrica de comparación de proporciones para dos y más de dos muestras independientes, debe cumplir las siguientes características:

• Los datos se ajustan a la distribución de chi cuadrada

• Nivel nominal de la variable dependiente

• Su función es comparar dos o más de dos distribuciones de proporciones y determinar que la diferencia no se deba al azar, que las diferencia sea estadísticamente significativa.

• Parte de la distribución de frecuencias de dos variables cruzadas, representadas en las llamadas tablas cruzadas.

• Se pueden comparar 2 tipos de distribuciones de frecuencias o proporciones:

• Cuando las dos variables tienen cada una dos valores (2 X 2)

• Cuando alguna o las dos variables tiene más de dos valores

La prueba Chi cuadrada en el paquete estadístico SPSS se encuentra en el menú Analizar / Estadísticos descriptivos / Tablas de contingencia.

La V. I. o de agrupación se coloca siempre en Columnas y la V. D. en Filas.

Se debe elegir en la sección de Estadísticas la prueba de Chi cuadrado.

Finalmente en Casillas marcar en la sección de Porcentajes la opción de Columna.

Interpretación de resultados para una tabla de 2 X 2: 1. Primero aparece la tabla cruzada con frecuencias y porcentajes –en este caso, por columnas para la VI.

Interpretación de resultados para una tabla de 2 X 2: 2. En la tabla de prueba de chi-cuadrado, elegir corrección por continuidad para tablas de 2 X 2 cuando todas las celdas tienen 5 o más casos o la prueba exacta de Fisher que se interpreta cuando en alguna de las celdas hay una frecuencia menor a 5. Estos datos sólo aparecen en tablas de 2 X 2. En importante verificar la leyenda de porcentaje celdas con frecuencias esperadas inferiores a 5, si éste es 20% o superior se invalidará la prueba de chi cuadrada –es necesario verificar si la prueba de Fisher es aplicable.

Interpretación de resultados para una tabla de 2 X 2: 3. En este caso la prueba de hipótesis se realiza con los datos de corrección de continuidad (señalados en la tabla anterior con el recuadro).

jueves, 5 de octubre de 2017

COEFICIENTE ALFA DE CROBACH

El coeficiente Alfa de Cronbach es un modelo de consistencia interna, basado en el promedio de las correlaciones entre los ítems. Entre las ventajas de esta medida se encuentra la posibilidad de evaluar cuánto mejoraría (o empeoraría) la fiabilidad de la prueba si se excluyera un determinado ítem.

El procedimiento consiste en:

• Analizar…

 Escala…

• Análisis de fiabilidad…

Seleccionamos todos los ítems:

y pinchamos en la flecha para pasarlo a la casilla de “Elementos” que vamos a analizar.

 Pinchamos en estadísticos y seleccionamos los estadísticos que queremos.

Pinchamos en Continuar …

 Modelo alfa, aunque viene predeterminado por el sistema, y… o Aceptar…

Ahora nos aparecerán los resultados en el Visor de Resultados. Encontraremos diferentes cuadros o ventanas, las cuales nos aportan los datos necesarios para realizar la interpretación. Visor de resultados: En el primer cuadro de diálogo que aparece, podemos ver el resultado de Alfa. A mayor valor de Alfa, mayor fiabilidad. El mayor valor teórico de Alfa es 1, y en general 0.80 se considera un valor aceptable.

En el caso de nuestro ejemplo el resultado es el siguiente:

El siguiente cuadro de diálogo es el de “Estadísticos de los elementos” en el cual podemos observar,

en la columna que pone “Media”, el índice de dificultad de los ítems.

Otros cuadros que encontramos son la “Matriz de correlación inter-elementos”

La “Matriz de covarianzas inter-elementos”

Otros cuadros que encontramos son la “Matriz de correlación inter-elementos”

Más abajo, encontramos otra ventana o cuadro de diálogo en el que aparecen los “Estadísticos de resumen de los elementos”

Los “Estadísticos total-elemento”. En este último podemos observar los siguientes datos:

Por último aparece otra ventana en la que podemos observar los “Estadísticos de la escala”, es decir los estadísticos de la prueba en conjunto.

CORRELACIÓN DE PEARSON

Correlación de Pearson

Es una prueba estadística para analizar la relación entre dos variables medidas en un nivel por intervalos o de razón. Se le conoce también como “coeficiente producto-momento”. Se simboliza: r Hipótesis a probar: correlacional, del tipo de “a mayor X, mayor Y”, “a mayor X, menor Y”, “altos valores en X están asociados con altos valores en Y”, “altos valores en X se asocian con bajos valores de Y”. La hipótesis de investigación señala que la correlación es significativa. Variables: dos. La prueba en sí no considera a una como independiente y a otra como dependiente, ya que no evalúa la causalidad. La noción de causa-efecto (independiente-dependiente) es posible establecerla teóricamente, pero la prueba no asume dicha causalidad.

El coeficiente de correlación de Pearson se calcula a partir de las puntuaciones obtenidas en una muestra en dos variables. Se relacionan las puntuaciones recolectadas de una variable con las puntuaciones obtenidas de la otra, con los mismos participantes o casos (The SAGE Glossary of the Social and Behavioral Sciences, 2009g; Bagiella, 2007; Onwuegbuzie, Daniel y Leech, 2006a).

Nivel de medición de las variables: intervalos o razón. Interpretación: el coeficiente r de Pearson puede variar de −1.00 a +1.00, donde: −1.00 = correlación negativa perfecta. (“A mayor X, menor Y”, de manera proporcional. Es decir, cada vez que X aumenta una unidad, Y disminuye siempre una cantidad constante). Esto también se aplica “a menor X, mayor Y”. −0.90 = Correlación negativa muy fuerte. −0.75 = Correlación negativa considerable. −0.50 = Correlación negativa media. −0.25 = Correlación negativa débil. −0.10 = Correlación negativa muy débil. 0.00 = No existe correlación alguna entre las variables. +0.10 = Correlación positiva muy débil. +0.25 = Correlación positiva débil. +0.50 = Correlación positiva media. +0.75 = Correlación positiva considerable. +0.90 = Correlación positiva muy fuerte. +1.00 = Correlación positiva perfecta (“A mayor X, mayor Y” o “a menor X, menor Y”, de manera proporcional. Cada vez que X aumenta, Y aumenta siempre una cantidad constante). El signo indica la dirección de la correlación (positiva o negativa); y el valor numérico, la magnitud de la correlación. Los principales programas computacionales de análisis estadístico indican si el coeficiente es o no significativo de la siguiente manera: r = 0.7831 (valor del coeficiente) s o P = 0.001 (significancia) N = 625 (número de casos correlacionados) Si s o P es menor del valor 0.05, se dice que el coeficiente es significativo en el nivel de 0.05 (95% de confianza en que la correlación sea verdadera y 5% de probabilidad de error). Si es menor a 0.01, el coeficiente es significativo al nivel de 0.01 (99% de confianza de que la correlación sea verdadera y 1% de probabilidad de error).

Una correlación de Pearson puede ser significativa, pero si es menor a 0.30 resulta débil, aunque de cualquier manera ayuda a explicar el vínculo entre las variables. Si queremos asociar la presión arterial y el peso de un grupo de pacientes, la solubilidad del gas con la temperatura (en ingeniería petrolera) y la inversión en publicidad y las ventas, es útil este coeficiente.

miércoles, 4 de octubre de 2017

Resultados de encuesta tiempo libre

Informacion encuesta 1 de MERIBETH DECENA MORALES

domingo, 1 de octubre de 2017

DISTRIBUCIÓN DE FRECUENCIA, ASIMETRÍA Y CURTOSIS

DISTRIBUCIÓN DE FRECUENCIA

En estadística, se le llama distribución de frecuencias a la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría. Esto proporciona un valor añadido a la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase.

Las frecuencias pueden ser:

2.1 FRECUENCIA ABSOLUTA (fi): Es el número de veces que se repite un determinado valor de la variable (xi).

Se designa por fi. PROPIEDAD: la suma de todas las frecuencias absolutas es igual al total de observaciones (n).

2.2 FRECUENCIA ACUMULADA (Fi): Las frecuencias acumuladas de una distribución de frecuencias son aquellas que se obtienen de las sumas sucesivas de las fi que integran cada una de las filas de una distribución de frecuencia, esto se logra cuando la acumulación de las frecuencias se realiza tomando en cuenta la primera fila hasta alcanzar la última.

Las frecuencias acumuladas se designan con las letras Fi. Se calcula: ∑ = − +== i j i iij fFfF 1 1 PROPIEDAD: La última frecuencia acumulada absoluta es igual al total de observaciones.

2.3 FRECUENCIA RELATIVA (hi): Es aquella que resulta de dividir cada una de las frecuencias absolutas entre el número total de datos. Las frecuencias relativas se designan con las letras hi.

PROPIEDAD: la suma de todas las frecuencias relativas es igual a la unidad.

2.4 FRECUENCIA RELATIVA ACUMULADA (Hi): Es aquella que resulta de dividir cada una de las frecuencias acumuladas entre número total de datos. Se designa con las letras Hi .

PROPIEDAD: La última frecuencia relativa acumulada es la unidad.

DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS

Es la representación estructurada en forma de tabla de toda la información que se ha recogido sobre la variable que se estudia, es decir, es una tabla que presenta de manera ordenada los distintos valores de una variable y sus correspondientes frecuencias.

DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS

Es aquella distribución en la que la disposición tabular de los datos estadísticos se encuentran ordenados en clases y con la frecuencia en cada clase; es decir, los datos originales de varios valores adyacentes del conjunto se combinan para formar un intervalo de clase. No existen normas establecidas para determinar cuándo es apropiado utilizar datos agrupados o datos no agrupados; sin embargo, se sugiere que cuando el número total de datos (N) es igual o superior 50 y además el rango o recorrido de la serie de datos es mayor de 20, entonces, se utilizará la distribución de frecuencia para datos agrupados, también se utilizará este tipo de distribución cuando se requiera elaborar gráficos lineales como el histograma, el polígono de frecuencia o la ojiva. La razón fundamental para utilizar la distribución de frecuencia de clases es proporcionar mejor comunicación acerca del patrón establecido en los datos y facilitar la manipulación de los mismos. Los datos se agrupan en clases con el fin de sintetizar, resumir, condensar o hacer que la información obtenida de una investigación sea manejable con mayor facilidad. Al agrupar los datos en una distribución de frecuencia de clase se pierde parte de la información. La reducción o agrupamiento a que son sometidos los datos de una serie de valores cuando existen muchos valores diferentes, originan los denominados errores de agrupamiento; sin embargo, estos errores son en general muy pequeños, razón por la cual la distribución de frecuencia de clase tiene una validez estadística práctica.

Para agrupar los datos en intervalos de clase se deben seguir las siguientes reglas generales:

• El número de intervalos de clase se toma entre 5 y 15 dependiendo de los datos.

• Cada observación debe estar incluida en una y solo una clase o intervalo.

• El valor más pequeño y más grande deben entrar en la clasificación.

• No deben existir brechas o vacíos entre clases sucesivas.

• Los intervalos no se deben sobreponer.

• En la medida de lo posible, se debe utilizar la misma amplitud para todos los intervalos.

COMPONENTES DE UNA DISTRIBUCIÓN DE FRECUENCIAS DE CLASES

1.- Clase o Intervalo de clase.- Son divisiones o categorías en las cuales se agrupan un conjunto de datos ordenados con características comunes. Para organizar los valores de la serie de datos hay que determinar un número de clases que sea conveniente. En otras palabras, que ese número de intervalos no origine un número pequeño de clases ni muy grande. Un número de clases pequeño puede ocultar la naturaleza natural de los datos y un número muy alto puede provocar demasiados detalles como para observar alguna información de gran utilidad en la investigación. A las fronteras del intervalo, la llamaremos, límites inferior y superior de la clase y los denotaremos por Li-1, Li.

2.- Punto medio o Marca de clase ( X& ).- Es la semisuma del límite inferior y superior de una clase.

3.- Amplitud, Longitud o Tamaño del Intervalo.- Los intervalos de clases pueden ser de tres tipos: Clases de igual tamaño, clases de tamaños desiguales y clases abiertas. En términos generales, las clases de igual tamaño son los más utilizados y recomendados para los cálculos estadísticos. Se designa por las letras Ic.

Nota: Al número de observaciones de una clase se le llama frecuencia de clase, si dividimos esta frecuencia por el número total de observaciones, se llama frecuencia relativa de clase, y del mismo modo que lo hacíamos para datos sin agrupar definiríamos Hi, y Fi.

PROCEDIMIENTO PARA CONSTRUIR UNA DISTRIBUCIÓN DE FRECUENCIAS AGRUPADA EN INTERVALOS

1. Determinar el máximo y mínimo entre los valores que tenemos en la muestra y calcular el recorrido de la variable o rango.

2. Calcular el número de clases a utilizar. Existen diversos criterios para determinar el número de clases, ante tanta diversidad de criterios, se ha considerado que lo más importante es dar un ancho o longitud de clases a todos los intervalos de tal manera que respondan a la naturaleza de los datos y al objetivo que se persigue y esto se logra con la práctica.

Existe una forma para determinar el número de clases y la misma puede ilustrarse en el siguiente cuadro: Numero de Datos Numero de Intervalos 10 - 100 De 4 a 8 100 - 1.000 De 8 a 11 1.000 - 10.000 De 11 a 14

Cuando se tenga dudas en determinar el número de intervalos de clases, es de gran utilidad utilizar el método sugerido por Hebert A. Sturges, el cual establece que: K= 1+3,322 log(n) = número de intervalos. En este curso se utilizará este método siempre y cuando el mismo sea aplicable.

MÉTODOS GRÁFICOS

La forma de la distribución de frecuencias se percibe más rápidamente si la representamos gráficamente. Se resume la información de la muestra de forma gráfica con fines clarificadores o para enfatizar y descubrir determinadas características que de otra manera seria muy difícil de apreciar. Un gráfico siempre es más inmediato de comprender que un conjunto de datos estadísticos. Las representaciones graficas varían según el tipo de variable: a. Gráficos para variables Discretas y Categóricas DIAGRAMA DE BARRAS: Es la representación gráfica usual para variables cuantitativas discretas o para variables cualitativas. En el eje de ordenadas representamos los diferentes valores de la variable (xi). Sobre cada valor levantamos una barra de altura igual a la frecuencia (absoluta o relativa). Ejemplo: 0 20 40 60 80 100 120 140 160 180 1er trim. 2do trim. 3er trim. 4to trim.

DIAGRAMA DE SECTORES O DE PASTEL:

Es el más usual en variables cualitativas. Se representan mediante círculos. A cada valor de la variable se le asocia el sector circular proporcional a su frecuencia. Ejemplo: Los siguientes datos corresponden a una encuesta referente a elecciones locales de un partido político: xi fi a favor 50% en contra 40% abstención 10% Para construir el diagrama de sectores partimos del hecho de que un circulo encierra un total de 360 grados. Luego, mediante una regla de tres simple, repartimos los 360 grados en distintos sectores, de acuerdo con cada porcentaje; tenemos así que para determinar el sector correspondiente al 50%.

ASIMETRÍA

Es una medida de forma de una distribución que permite identificar y describir la manera como los datos tiende a reunirse de acuerdo con la frecuencia con que se hallen dentro de la distribución. Permite identificar las características de la distribución de datos sin necesidad de generar el gráfico.

TIPOS DE ASIMETRÍA

La asimetría presenta las siguientes formas:

Asimetría Negativa o a la Izquierda.- Se da cuando en una distribución la minoría de los datos está en la parte izquierda de la media. Este tipo de distribución presenta un alargamiento o sesgo hacia la izquierda, es decir, la distribución de los datos tiene a la izquierda una cola más larga que a la derecha. También se dice que una distribución es simétrica a la izquierda o tiene sesgo negativo cuando el valor de la media aritmética es menor que la mediana y éste valor de la mediana a su vez es menor que la moda, en simbolos Monografias.com

Nota: Sesgo es el grado de asimetría de una distribución, es decir, cuánto se aparta de la simetría.

Simétrica.- Se da cuando en una distribución se distribuyen aproximadamente la misma cantidad de los datos a ambos lados de la media aritmética. No tiene alargamiento o sesgo. Se representa por una curva normal en forma de campana llamada campana de Gauss (matemático Alemán 1777-1855) o también conocida como de laplace (1749-1827).También se dice que una distribución es simétrica cuando su media aritmética, su mediana y su moda son iguales, en símbolos Monografias.com

Md=Mo

Asimetría Positiva o a la Derecha.- Se da cuando en una distribución la minoría de los datos está en la parte derecha de la media aritmética. Este tipo de distribución presenta un alargamiento o sesgo hacia la derecha, es decir, la distribución de los datos tiene a la derecha una cola más larga que a la izquierda.

También se dice que una distribución es simétrica a la derecha o tiene sesgo positivo cuando el valor de la media aritmética es mayor que la mediana y éste a valor de la mediana a su vez es mayor que la moda, en símbolos Monografias.com

CURTOSIS O APUNTAMIENTO

La curtosis mide el grado de agudeza o achatamiento de una distribución con relación a la distribución normal, es decir, mide cuán puntiaguda es una distribución.
2.1) TIPOS DE CURTOSISLa curtosis determina el grado de concentración que presentan los valores en la región central de la distribución. Así puede ser:
Leptocúrtica.- Existe una gran concentración.
Mesocúrtica.- Existe una concentración normal.
Platicúrtica.- Existe una baja concentración.