archivo

Archivo de la etiqueta: Conceptos Fundamentales de Estadística

Distribución normal con calificación Z

En julio de 2025, y como parte de la serie dedicada a la Ciencia de Datos, publiqué en el blog de Datarmony el artículo Data Science II-E: Estadística descriptiva unidimensional. La curva normal. En él se hace un repaso de las apariciones del concepto de normalidad (en la acepción estadística del término) en los artículos publicados hasta ese momento, desde sus primeros atisbos gráficos, donde mencionamos la consabida «forma de campana», hasta su definición empírica:

«Si una variable está normalmente distribuida, entonces (1) dentro de una desviación estándar de la media habrá aproximadamente un 68% de los datos; (2) dentro de dos desviaciones estándar de la media habrá aproximadamente un 95% de los datos; y (3) dentro de tres desviaciones estándar de la media habrá aproximadamente un 99.7% de los datos» (Johnson & Kuby, 2008).

Acabado el repaso, el artículo se adentra en el estudio de la distribución normal teórica, tanto desde una perspectiva histórica, donde se mencionan las contribuciones de de Moivre, Laplace y Gauss al concepto, como desde una perspectiva matemática, momento en el cual se analiza la función de densidad normal.

El artículo acaba con un estudio de las medidas de forma y concentración (simetría y curtosis, respectivamente), con el objetivo de aportar una visión completa y rigurosa del tema.

Enlace al artículo completo

Histograma de salarios

En el artículo Data Science II-B: Estadística descriptiva unidimensional. Medidas de tendencia central repaso los conceptos de media aritmética, mediana, moda y rango medio.

A partir de un conjunto de datos simulados con Python, defino dichas métricas y las calculo con las funciones de pandas y numpy.

Adicionalmente, adelanto informalmente otros conceptos como distribución normal y valores atípicos.

Enlace al artículo completo

En septiembre de 2024 publiqué el segundo artículo de la serie sobre ciencia de datos. En él se repasan las tablas de frecuencias y su representación gráfica en forma de histogramas.

A partir de un conjunto de datos ficticios, pensados para ejemplificar los conceptos, explico qué es una tabla de frecuencias y cómo se construye definiendo sus elementos uno por uno:

  • Frecuencia absoluta (n_i): número de veces que aparece un valor
  • Frecuencia absoluta acumulada (N_i): suma de las frecuencias absolutas de los valores iguales o inferiores.
  • Frecuencia relativa (f_i​): proporción de veces que aparece un valor sobre el total.
  • Frecuencia relativa acumulada (F_i​): Suma de las frecuencias relativas, indicando la proporción de valores iguales o inferiores.

Cuando la variable adquiere muchos valores distintos, como es el caso en los datos de ejemplo, es conveniente agrupar los datos con el objetivo de simplificar el análisis. En el texto presento un procedimiento adecuado de agrupación de variables.

Finalmente, repaso en detalle los gráficos de frecuencia, en concreto los histogramas, y muestro los métodos más comunes para establecer el número óptimo de contenedores:

  • Método de la raíz cuadrada (adecuado para conjuntos de datos pequeños)
  • Criterio de Sturges (para conjuntos de datos grandes).

Enlace al artículo original completo

El 29 de julio de 2024 inicié la publicación de una serie de artículos sobre Ciencia de Datos, en el blog de Datarmony. En el primero se repasan los conceptos estadísticos básicos, y se subraya la necesidad de dominar los conceptos estadísticos fundamentales antes de abordar herramientas avanzadas de modelización de datos.

Enlace al artículo completo en Datarmony