Funciones Estadísticas
Conceptos básicos de estadística
Entendemos por estadística al conjunto de técnicas y métodos matemáticos empleados para coleccionar, analizar y presentar información.
La Estadísticva se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales.
La estadística descriptiva permite mostrar los datos existentes de manera que sean fáciles de entender, en gráficas, tablas y diagramas.
La estadística inferencial emplea los datos conocidos para elaborar pronósticos de resultados futuros, por ejemplo con los datos de las ventas de los últimos años puede estimarse las ventas del siguiente año.
En estadística, se entiende por población a un todo (por ejemplo todos los habitantes de un país en edad de votar). Una muestra es una fracción o segmento de ese todo (por ejemplo una muestra de mil posibles votantes a los que se consultan sus preferencias electorales).
Distribuciones de frecuencia
En estadística usualmente se manejan listas o tablas de datos. Conviene ordenar los datos para facilitar su interpretación.
Las listas de datos desagrupados son difíciles de interpretar. Las distribuciones de frecuencia nos ayudan a presentar los datos de manera que sean significativos y compresibles. En una tabla de frecuencias o distribución de frecuencias se organizan los datos en clases o grupos de frecuencia, por ejemplo en una lista de calificaciones podemos agrupar las calificaciones que están entre 100 y 90 en una clase, las que estan entre 89 y 80 en otra, las de 79 a 70 en otra más, etc.
Un histograma es un diagrama simple de frecuencia. Las barras del histograma representan las frecuencias con que ocurren ciertos valores dentro de una muestra.
Si hay demasiadas columnas no se obtiene una buena representación visual de los datos, si hay muy pocas puede perderse la perspectiva. Usualmente se hace por intento y falla, aunque algunos autores sugieren emplear la fórmula:
Columnas = 1 + 3.3*log(observaciones)
La Campana de Gauss
En estadística, la curva en forma de campana, representa la frecuencia central de muchos fenómenos. También se le denomina curva normal, curva de distribución de frecuencia, curva de Gauss, curva ideal o curva de distribución simétrica.
Medidas de tendencia central
Media aritmética. En una lista de valores el promedio de los mismos es una de las medidas más importantes y significativas. Por ejemplo en una lista de calificaciones, el promedio o calificación media, nos proporciona información acerca del desempeño obtenido.
En estadística, la media corresponde al promedio aritmético.
Mediana. Es la observación central, o sea el punto medio de los datos colocados en orden. Si el número de datos es impar, por ejemplo 15, la mediana es el octavo valor de los datos en orden. Si el número de datos es impar la mediana es el promedio de los dos números centrales.
Moda. Es el valor de datos más común, o sea el que ocurre con mayor frecuencia. Por ejemplo en una hipotética lista de calificaciones pudiera ser una calificación de 75.
En la curva ideal, la media, la mediana y la moda corresponden al mismo valor y la curva es perfectamente simétrica.
La mediana siempre esta en medio de la moda y la media porque es la medida central.
Sesgo. Una curva de distribución real puede estar corrida a un lado u otro del eje central. Decimos que la curva esta corrida a la derecha, cuando la media esta a la derecha (o sea que es mayor) que la moda. En esta curva el área bajo la curva de la sección de la derecha es mayor que el área de la sección izquierda (aunque el pico queda en la parte izquierda).
Ejemplo: Calificaciones 50 60 60 70 80 90 100
promedio 72.85 (media), moda 60, mediana 70
por eso esta sesgada a la derecha (porque el promedio esta a la derecha de la medida central(mediana)
Medidas de dispersión
Se denomina dispersión a la extensión de los datos en una distribución.
Por ejemplo: si el rango de las calificaciones va de 25 a 100 esta más disperso que el rango de calificaciones de 70 a 100.
Rango o alcance, es la diferencia entre el valor máximo y el mínimo de los valores observados.
La Varianza es una operación intermedia para obtener la desviación estándar y corresponde al promedio de las desviaciones elevadas al cuadrado. Es una medida de la dispersión del total de valores. Al elevar al cuadrado las desviaciones se logra que todos los valores sean positivos y se asigna más peso a las desviaciones grandes.
La Desviación estándar es la raíz cuadrada de la Varianza. Es lo que se espera desviar de la media.
El coeficiente de variación es una medida relativa expresada como un por ciento. Corresponde a dividir la desviación estándar entre la media aritmética y multiplicar el resultado por 100.
Coeficiente de variación = ( desviación estandar / media aritmética ) x 100 %
Ejemplo: Si el promedio es 80 y la desviación estándar es de 4 el coeficiente de variación es 4/80*100% = 5%
Relaciones entre variables.
En ocasiones existen relaciones entre variables, que pueden ser expresadas en una ecuación.
Las técnicas de regresión y las de análisis de correlación buscan encontrar la relación entre dos variables.
La variable conocida se denomina variable independiente, la que se trata de predecir decimos que es la variable dependiente.
Las relaciones pueden ser directas o inversas.
Relación causal, cuando la variable independiente ocasiona que la variable dependiente cambie (por ejem. Temperatura y venta de helado).
Relaciones de asociación, cuando otros factores ocasionan cambios tanto entre las variables dependientes como las independientes (por ejem. Ventas de casas y Ventas de Autos, que no dependen entre sí, sino que ambas dependen de otra variable, el poder adquisitivo de los compradores).
Medidas de distribución
Se indico previamente que si un conjunto de datos está ordenado por magnitud, el valor central que divide al conjunto en dos mitades iguales, es la mediana . Extendiendo esa idea, podemos pensar en aquellos valores que dividen al conjunto de datos en cuatro partes iguales. Esos valores denotados Q1, Q2, y Q3, se llaman primer cuartíl, segundo cuartíl y tercer cuartíl, respectivamente. EL Q2 coincide con la mediana.
Análogamente, los valores que dividen a los datos en 10 partes iguales se llaman deciles, y se le denotan D1, D2,...,D9, mientras que los valores que lo dividen en 100 partes iguales se llaman percentiles, denotados por P1, P2,...,P99. El 5º decil y el 50º percentil coinciden con la mediana. Los 25º y 75º percentiles coinciden con el primer y tercer cuartiles.
Colectivamente, cuartiles, deciles y percentiles se denominan cuantiles
Entendemos por estadística al conjunto de técnicas y métodos matemáticos empleados para coleccionar, analizar y presentar información.
La Estadísticva se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales.
La estadística descriptiva permite mostrar los datos existentes de manera que sean fáciles de entender, en gráficas, tablas y diagramas.
La estadística inferencial emplea los datos conocidos para elaborar pronósticos de resultados futuros, por ejemplo con los datos de las ventas de los últimos años puede estimarse las ventas del siguiente año.
En estadística, se entiende por población a un todo (por ejemplo todos los habitantes de un país en edad de votar). Una muestra es una fracción o segmento de ese todo (por ejemplo una muestra de mil posibles votantes a los que se consultan sus preferencias electorales).
Distribuciones de frecuencia
En estadística usualmente se manejan listas o tablas de datos. Conviene ordenar los datos para facilitar su interpretación.
Las listas de datos desagrupados son difíciles de interpretar. Las distribuciones de frecuencia nos ayudan a presentar los datos de manera que sean significativos y compresibles. En una tabla de frecuencias o distribución de frecuencias se organizan los datos en clases o grupos de frecuencia, por ejemplo en una lista de calificaciones podemos agrupar las calificaciones que están entre 100 y 90 en una clase, las que estan entre 89 y 80 en otra, las de 79 a 70 en otra más, etc.
Un histograma es un diagrama simple de frecuencia. Las barras del histograma representan las frecuencias con que ocurren ciertos valores dentro de una muestra.
Si hay demasiadas columnas no se obtiene una buena representación visual de los datos, si hay muy pocas puede perderse la perspectiva. Usualmente se hace por intento y falla, aunque algunos autores sugieren emplear la fórmula:
Columnas = 1 + 3.3*log(observaciones)
La Campana de Gauss
En estadística, la curva en forma de campana, representa la frecuencia central de muchos fenómenos. También se le denomina curva normal, curva de distribución de frecuencia, curva de Gauss, curva ideal o curva de distribución simétrica.
Medidas de tendencia central
Media aritmética. En una lista de valores el promedio de los mismos es una de las medidas más importantes y significativas. Por ejemplo en una lista de calificaciones, el promedio o calificación media, nos proporciona información acerca del desempeño obtenido.
En estadística, la media corresponde al promedio aritmético.
Mediana. Es la observación central, o sea el punto medio de los datos colocados en orden. Si el número de datos es impar, por ejemplo 15, la mediana es el octavo valor de los datos en orden. Si el número de datos es impar la mediana es el promedio de los dos números centrales.
Moda. Es el valor de datos más común, o sea el que ocurre con mayor frecuencia. Por ejemplo en una hipotética lista de calificaciones pudiera ser una calificación de 75.
En la curva ideal, la media, la mediana y la moda corresponden al mismo valor y la curva es perfectamente simétrica.
La mediana siempre esta en medio de la moda y la media porque es la medida central.
Sesgo. Una curva de distribución real puede estar corrida a un lado u otro del eje central. Decimos que la curva esta corrida a la derecha, cuando la media esta a la derecha (o sea que es mayor) que la moda. En esta curva el área bajo la curva de la sección de la derecha es mayor que el área de la sección izquierda (aunque el pico queda en la parte izquierda).
Ejemplo: Calificaciones 50 60 60 70 80 90 100
promedio 72.85 (media), moda 60, mediana 70
por eso esta sesgada a la derecha (porque el promedio esta a la derecha de la medida central(mediana)
Medidas de dispersión
Se denomina dispersión a la extensión de los datos en una distribución.
Por ejemplo: si el rango de las calificaciones va de 25 a 100 esta más disperso que el rango de calificaciones de 70 a 100.
Rango o alcance, es la diferencia entre el valor máximo y el mínimo de los valores observados.
La Varianza es una operación intermedia para obtener la desviación estándar y corresponde al promedio de las desviaciones elevadas al cuadrado. Es una medida de la dispersión del total de valores. Al elevar al cuadrado las desviaciones se logra que todos los valores sean positivos y se asigna más peso a las desviaciones grandes.
La Desviación estándar es la raíz cuadrada de la Varianza. Es lo que se espera desviar de la media.
El coeficiente de variación es una medida relativa expresada como un por ciento. Corresponde a dividir la desviación estándar entre la media aritmética y multiplicar el resultado por 100.
Coeficiente de variación = ( desviación estandar / media aritmética ) x 100 %
Ejemplo: Si el promedio es 80 y la desviación estándar es de 4 el coeficiente de variación es 4/80*100% = 5%
Relaciones entre variables.
En ocasiones existen relaciones entre variables, que pueden ser expresadas en una ecuación.
Las técnicas de regresión y las de análisis de correlación buscan encontrar la relación entre dos variables.
La variable conocida se denomina variable independiente, la que se trata de predecir decimos que es la variable dependiente.
Las relaciones pueden ser directas o inversas.
Relación causal, cuando la variable independiente ocasiona que la variable dependiente cambie (por ejem. Temperatura y venta de helado).
Relaciones de asociación, cuando otros factores ocasionan cambios tanto entre las variables dependientes como las independientes (por ejem. Ventas de casas y Ventas de Autos, que no dependen entre sí, sino que ambas dependen de otra variable, el poder adquisitivo de los compradores).
Medidas de distribución
Se indico previamente que si un conjunto de datos está ordenado por magnitud, el valor central que divide al conjunto en dos mitades iguales, es la mediana . Extendiendo esa idea, podemos pensar en aquellos valores que dividen al conjunto de datos en cuatro partes iguales. Esos valores denotados Q1, Q2, y Q3, se llaman primer cuartíl, segundo cuartíl y tercer cuartíl, respectivamente. EL Q2 coincide con la mediana.
Análogamente, los valores que dividen a los datos en 10 partes iguales se llaman deciles, y se le denotan D1, D2,...,D9, mientras que los valores que lo dividen en 100 partes iguales se llaman percentiles, denotados por P1, P2,...,P99. El 5º decil y el 50º percentil coinciden con la mediana. Los 25º y 75º percentiles coinciden con el primer y tercer cuartiles.
Colectivamente, cuartiles, deciles y percentiles se denominan cuantiles
Función | Descripción |
---|---|
PROMEDIO | Devuelve el promedio de sus argumentos |
INTERVALO.CONFIANZA | Devuelve el intervalo de confianza de la media de una población |
COEF.DE.CORREL | Devuelve el coeficiente de correlación entre dos conjuntos de datos |
CONTAR | Cuenta cuántos números hay en la lista de argumentos |
CONTARA | Cuenta cuántos valores hay en la lista de argumentos |
CONTAR.BLANCO | Cuenta el número de celdas en blanco de un rango |
CONTAR.SI | Cuenta el número de celdas, dentro del rango, que cumplen el criterio especificado. |
COVAR | Devuelve la covarianza, que es el promedio de los productos de las desviaciones para cada pareja de puntos de datos |
PRONOSTICO | Devuelve un valor en una tendencia lineal |
FRECUENCIA | Devuelve una distribución de frecuencia como una matriz vertical |
INTERSECCION.EJE | Devuelve la intersección de la línea de regresión lineal |
CURTOSIS | Devuelve la curtosis de un conjunto de datos |
ESTIMACION.LINEAL | Devuelve los parámetros de una tendencia lineal |
ESTIMACION.LOGARITMICA | Devuelve los parámetros de una tendencia exponencial |
MAX | Devuelve el mayor valor de una lista de argumentos |
MEDIANA | Devuelve la mediana de los números dados |
MIN | Devuelve el valor mínimo de una lista de argumentos |
MODA | Devuelve el valor más común de un conjunto de datos |
DISTR.NORM | Devuelve la distribución normal acumulativa |
DISTR.NORM.INV | Devuelve la función inversa de la distribución normal acumulativa |
PERCENTIL | Devuelve el k-ésimo percentil de los valores de un rango |
RANGO.PERCENTIL | Devuelve el rango porcentual de un valor de un conjunto de datos |
PERMUTACIONES | Devuelve el número de permutaciones de un número determinado de objetos |
PROBABILIDAD | Devuelve la probabilidad de que los valores de un rango se encuentren entre dos límites |
CUARTIL | Devuelve el cuartil de un conjunto de datos |
COEFICIENTE.ASIMETRIA | Devuelve la asimetría de una distribución |
PENDIENTE | Devuelve la pendiente de la línea de regresión lineal |
NORMALIZACION | Devuelve un valor normalizado |
DESVEST | Calcula la desviación estándar a partir de una muestra |
DESVESTA | Calcula la desviación estándar a partir de una muestra, incluidos números, texto y valores lógicos |
DESVESTP | Calcula la desviación estándar en función de toda la población |
DESVESTPA | Calcula la desviación estándar en función de toda la población, incluidos números, texto y valores lógicos |
ERROR.TIPICO.XY | Devuelve el error estándar del valor de "y" previsto para cada "x" de la regresión |
TENDENCIA | Devuelve valores en una tendencia lineal |
VAR | Calcula la varianza de una muestra |
VARA | Calcula la varianza a partir de una muestra, incluidos números, texto y valores lógicos |
VARP | Calcula la varianza en función de toda la población |
VARPA | Calcula la varianza en función de toda la población, incluidos números, texto y valores lógicos |
Comentarios
Publicar un comentario