Este repositorio contiene un proyecto completo de Machine Learning Operations (MLOps) para predecir los resultados de los partidos de la Liga MX. El sistema se construye sobre un pipeline automatizado que abarca desde la extracción de datos mediante web scraping hasta el despliegue de un modelo interpretable como una API en un contenedor Docker.
Este proyecto se está desarrollando de forma iterativa. El estado actual de cada fase es:
- Fase 0: Configuración y Estructura: ✅
Completado - Fase 1: Pipeline de Datos (Web Scraping): ⏳
En Progreso - Fase 2: Análisis Exploratorio de Datos (EDA): 📋
Pendiente - Fase 3: Entrenamiento y Optimización de Modelos: 📋
Pendiente - Fase 4: Despliegue de API: 📋
Pendiente
- Lenguaje: Python 3.11
- Gestión de Dependencias: Poetry
- Extracción de Datos: Requests, BeautifulSoup4
- Análisis y ML: Pandas, Scikit-learn, XGBoost, SHAP
- Framework de API: FastAPI
- Contenerización: Docker
- MLOps Tools: MLflow, DVC
- Pruebas y Calidad: Pytest, Ruff, Black
Sigue estos pasos para configurar el entorno de desarrollo en tu máquina local.
- Git
- Python 3.11+
- Poetry
- DVC
-
Clonar el Repositorio:
git clone [https://github.com/tu_usuario/match-predictor.git](https://github.com/tu_usuario/match-predictor.git) cd match-predictor -
Crear y Activar el Entorno Virtual:
python -m venv venv source venv/bin/activate # En Windows: venv\Scripts\activate
-
Configurar Poetry e Instalar Dependencias: Este comando le indica a Poetry que use el entorno virtual que acabas de activar.
poetry config virtualenvs.create false --local poetry install -
Inicializar DVC: Configura tu almacenamiento remoto de DVC (ej. Google Drive, S3, etc.).
dvc init dvc remote add -d myremote gdrive://ID_DE_TU_CARPETA
(Esta sección se completará a medida que se desarrollen los pipelines de datos y entrenamiento).
Para ejecutar el conjunto de pruebas unitarias y de integración, asegúrate de tener el entorno activado y ejecuta:
pytestEste proyecto está bajo la Licencia MIT. Ver el archivo LICENSE para más detalles.