Estimación de Sexo Biológico mediante Análisis Osteométrico y Machine Learning
Colaboradores: Felipe Olivares, Claudio Velquen, Felipe Romero
Descripción del Proyecto
Este proyecto aplica Machine Learning para estimar el sexo biológico a partir de medidas osteométricas del dataset Goldman (1,538 registros, 69 variables). El análisis se realizó de forma sistemática para todas las extremidades del cuerpo: húmero, radio, fémur, tibia y pelvis.
Resultado Principal
86.31% de accuracy con Regresión Logística en extremidad superior izquierda, superando métodos tradicionales de antropología forense.
Contexto Científico
Dimorfismo Sexual en Antropología
El dimorfismo sexual se refiere a las diferencias morfológicas y métricas entre individuos masculinos y femeninos. En antropología forense y bioarqueología, la estimación del sexo biológico es fundamental para el perfil biológico.
Métodos Tradicionales
Morfoscopia
Evaluación visual
Precisión: 70-80%
Limitación: Subjetividad
Ecuaciones Discriminantes
Regresión estadística
Precisión: 80-90%
Limitación: Población-específicas
Ventaja del Machine Learning
- Análisis simultáneo de múltiples variables
- Detección de patrones complejos no lineales
- Reproducibilidad total
- Aplicable a elementos fragmentarios
Metodología
1. Análisis Exploratorio (EDA)
- Limpieza de datos con codificación latina
- Pruebas t-student: 43 variables significativas (p < 0.05)
- Detección de outliers mediante IQR
- Visualizaciones: boxplots, heatmaps, scatter plots
2. Modelos Evaluados
3. Pipeline de Evaluación
División: Train 64% / Validación 16% / Test 20%
Optimización: Grid Search exhaustivo (504+ combinaciones)
Métricas: Accuracy, Precision, Recall, F1-Score, ROC-AUC
Resultados
Extremidad Superior Izquierda (Mejor Rendimiento) 🏆
Modelo Ganador
Regresión Logística
Accuracy
86.31%
ROC-AUC
92.09%
Variable Clave
LHHD (35.7%)
LHHD: Diámetro cabeza del húmero - Mayor dimorfismo sexual
Comparación entre Extremidades
Ranking de Modelos (Promedio General)
| Modelo | Accuracy | Ventajas |
|---|---|---|
| Regresión Logística | 85-86% | Interpretable, eficiente |
| Random Forest | 84-86% | Robusto, no linealidad |
| SVM | 84-85% | Mejor separación |
| XGBoost | 83-85% | Balance bias-varianza |
Aplicaciones
Antropología Forense
- Identificación en desastres masivos
- Perfiles biológicos médico-legales
- Investigación de derechos humanos
- Resultados rápidos y reproducibles
Bioarqueología
- Estudios de poblaciones antiguas
- Análisis de dimorfismo histórico
- Reconstrucción demográfica
- Aplicable a restos fragmentarios
Medicina Legal
- Complemento a morfoscopia
- Segunda opinión automatizada
- Casos con preservación diferencial
- Objetividad y consistencia
Stack Tecnológico
Python
3.10+
Scikit-learn
ML Framework
XGBoost
Boosting
Pandas
Datos
NumPy
Cómputo
Matplotlib
Visualización
Seaborn
Gráficos
SciPy
Estadística
Conclusiones
Machine Learning alcanza 85-86% accuracy, superando métodos tradicionales
Todas las extremidades son informativas, con Pelvis > Fémur > Húmero
Regresión Logística ofrece mejor balance entre desempeño e interpretabilidad
Diámetros articulares son las variables más discriminativas del esqueleto
Metodología reproducible y automatizada, aplicable en contextos forenses reales