CRISP-DM: Análisis de Contaminación Atmosférica
Libro interactivo sobre metodología CRISP-DM aplicada a datos ambientales
Enlaces del Proyecto
Explora la metodología CRISP-DM aplicada paso a paso
Accede al repositorio completo en GitHub
Resumen del Proyecto
Este proyecto presenta un libro digital interactivo que demuestra la aplicación práctica de la metodología CRISP-DM en un caso de estudio real: el análisis de datos de contaminación atmosférica en Madrid.
Resultado: Recurso educativo completo con código reproducible, análisis detallado y aplicación web interactiva para explorar patrones de contaminación en la capital española.
¿Qué es CRISP-DM?
CRISP-DM es una metodología que divide el proceso de minería de datos en seis fases interconectadas:
- Comprensión del Negocio: Definir objetivos y requisitos
- Comprensión de los Datos: Exploración inicial y evaluación de calidad
- Preparación de los Datos: Limpieza, transformación y selección
- Modelado: Aplicación de técnicas de análisis y modelado
- Evaluación: Validación de resultados y modelos
- Despliegue: Implementación y puesta en producción
Objetivos y Alcance
Objetivos Principales
- Demostrar CRISP-DM: Aplicar cada fase de la metodología en un caso real
- Análisis Ambiental: Identificar patrones temporales y espaciales en la contaminación de Madrid
- Modelado Predictivo: Desarrollar modelos para forecasting de contaminantes
- Herramientas Interactivas: Crear dashboard web para exploración de datos
- Recurso Educativo: Generar material open source para la comunidad
Stack Tecnológico
Análisis de Datos: - {tidyverse}: Manipulación y transformación de datos - {lubridate}: Manejo de fechas y series temporales - {tidymodels}: Framework de modelado estadístico
Visualización: - {ggplot2}: Gráficos estáticos avanzados - {plotly}: Visualizaciones interactivas
Modelado Predictivo: - {modeltime}: Series temporales y forecasting - Machine learning integrado con tidymodels
Despliegue: - {shiny}: Aplicaciones web interactivas - GitHub Pages: Publicación del libro
Desarrollo y Metodología
Implementación de CRISP-DM
1. Comprensión del Negocio - Definición del problema de contaminación atmosférica en Madrid - Establecimiento de objetivos analíticos y métricas de éxito
2. Comprensión de los Datos - Exploración de datasets de calidad del aire - Análisis descriptivo y evaluación de calidad de datos
3. Preparación de los Datos - Limpieza y transformación de datos ambientales - Ingeniería de características temporales y espaciales
4. Modelado - Desarrollo de modelos predictivos para diferentes contaminantes - Aplicación de técnicas de series temporales y machine learning
5. Evaluación - Validación de modelos con métricas específicas - Interpretación de resultados y selección de modelos óptimos
6. Despliegue - Creación de aplicación Shiny interactiva - Publicación del libro digital en GitHub Pages
Resultados y Deliverables
📚 Libro Digital Interactivo
- Contenido completo: Guía paso a paso de CRISP-DM con caso real
- Código reproducible: Todo el análisis documentado y ejecutable
- Visualizaciones interactivas: Gráficos explorables con Plotly
🚀 Aplicación Web
- Dashboard Shiny: Interfaz interactiva para explorar datos de contaminación
- Análisis en tiempo real: Herramientas para filtrar y visualizar patrones
- Modelos integrados: Predicciones accesibles desde la web
💻 Código Abierto
- Repositorio GitHub: Código fuente completo y documentado
- Reproducibilidad: Instrucciones para replicar todo el análisis
- Extensibilidad: Base para adaptar a otros casos de uso ambientales
Impacto y Aprendizajes
Valor Educativo
- Metodología aplicada: Demostración práctica de CRISP-DM en un caso real
- Reproducibilidad: Todo el código documentado y ejecutable
- Escalabilidad: Framework adaptable a otros dominios de datos
Contribución Técnica
- Integración de herramientas: Ecosistema R completo para ciencia de datos
- Visualización avanzada: Combinación de análisis estático e interactivo
- Despliegue web: Pipeline completo desde análisis hasta aplicación
Relevancia Ambiental
- Datos reales: Análisis de contaminación atmosférica en Madrid
- Impacto social: Herramientas para comprender la calidad del aire urbano
- Aplicabilidad: Metodología transferible a otros problemas ambientales
Este proyecto combina rigor metodológico, herramientas modernas y relevancia práctica para crear un recurso valioso tanto para el aprendizaje como para la aplicación profesional de ciencia de datos en el ámbito ambiental.