Modelo Supervisado para Predecir la Adopción de IA

Modelamiento de Datos I

Autor: Gaston Nina Sossa

Dataset: Stack Overflow Annual Developer Survey 2025

🗂️ Índice General

Definición del Problema
Determinación de la Técnica Analítica
Técnicas Competidoras
Comparación con Criterio Preciso
Optimización del Modelo
Limitaciones y Ética
Insights y Decisiones
Reproducibilidad

📘 Introducción

Use flecha ↓ para ver cada sección.

Contexto

Este sitio presenta el Sprint 1 de Modelamiento de Datos I (UMSA), usando el dataset Stack Overflow Annual Developer Survey 2025. Se aborda un problema de clasificación enfocada en la adopción de herramientas de IA por parte de desarrolladores.

Objetivo

Predecir si un encuestado usa IA (Sí/No) a partir de su perfil técnico y demográfico.

Tipo de modelo

Clasificación

Pregunta de investigación

¿Podemos predecir la adopción de IA en desarrolladores utilizando su perfil profesional y tecnológico en 2025 en un estudio global?

Criterio de éxito

F1-score ≥ 0.80 en conjunto de prueba con validación cruzada (k=5).

🧩
- Sección 1 -
Definición del problema

Lineamientos de la Sección 1 del instructivo: problema de negocio, objetivo analítico y alcance.

Use flecha ↓ para ver cada sección.

Necesidad de negocio

Comprender qué factores explican la adopción de IA para orientar formación, herramientas y estrategias de talento en organizaciones tecnológicas.

Variable objetivo

AI_Usage (binaria: 1=usa IA, 0=no)

Pregunta original del dataset

“Do you currently use AI tools in your development process?”

Opciones del formulario

Yes, I use AI tools daily
Yes, I use AI tools weekly
Yes, I use AI tools monthly or infrequently
No, but I plan to soon
No, and I don't plan to


        AI_Usage = 1  →  Usa IA (Daily / Weekly / Monthly)
        AI_Usage = 0  →  No usa IA (No / No y no planea)

Esta variable será la variable objetivo de nuestro modelo de clasificación.

Predictoras usadas

Tipo de variable	Columna	Justificación
Profesional	DevType	El rol del desarrollador influye en la adopción de IA
Experiencia	WorkExp	Años de experiencia laboral
Tecnológica	LanguageHaveWorkedWith	Lenguajes usados (Python, R, etc.)
Geográfica	Country	Contexto regional y acceso a IA
Laboral	RemoteWork	Modalidad de trabajo
Sectorial	Industry	Tipo de industria o empresa
Organizacional	OrgSize	Tamaño de la empresa
Educativa	EdLevel	Nivel de formación formal

Restricciones

No se incluyen datos históricos previos al 2025
Dataset autodeclarado (posible sesgo de encuesta)

Hipótesis

Un modelo predictivo permite identificar la tendencia de uso de IA en el desarrollo de software

📊
- Sección 2 -
EDA – 5 bivariados

Exploración de la relación entre AI_Usage y variables clave, como insumo para la selección de la técnica analítica.

AI_Usage x WorkExp — boxplots
AI_Usage × NumLanguages — histograma
AI_Usage × Country — map
AI_Usage × Industry — barras
AI_Usage × EdLevel — barras

Use flecha ↓ para ver cada gráfico.

Matriz de Correlación Mixta

Las correlaciones con AI_Usage son bajas; destacan DevType (0.19), Country (0.17), Industry (0.12), OrgSize (0.09), EdLevel (0.06) y WorkExp (-0.09) como factores con influencia leve pero contextual.

En esta matriz las correlaciones con AI_Usage son en general bajas, pero permiten identificar patrones contextuales relevantes:

DevType (0.19): los roles técnicos especializados, como científicos de datos o desarrolladores de IA, muestran mayor adopción.
Country (0.17): la adopción es mayor en países con ecosistemas tecnológicos consolidados.
Industry (0.12): sectores de software, fintech y telecomunicaciones lideran el uso de IA.
OrgSize (0.09): las grandes empresas tienen más recursos para implementar IA, aunque también crece entre autónomos y startups.
EdLevel (0.06): la educación universitaria y de posgrado facilita la adopción, pero el aprendizaje autodidacta reduce la brecha.
WorkExp (-0.09): la relación negativa leve sugiere que la experiencia no determina el uso de IA; algunos perfiles junior la adoptan más rápido que los senior.

En conjunto, estas asociaciones confirman que el uso de IA depende de una combinación de factores laborales, educativos y organizacionales, más que de una sola variable dominante.

Metadatos del EDA

📘 Metadatos del Dataset Limpio

Columna	Tipo (pandas)	Naturaleza
DevType	category	Categórica nominal (rol profesional)
WorkExp	float64	Numérica continua (años de experiencia)
Country	category	Categórica nominal (país)
RemoteWork	category	Categórica ordinal (grado de trabajo remoto)
Industry	category	Categórica nominal (sector/industria)
OrgSize	category	Categórica ordinal (rangos de tamaño de empresa)
EdLevel	category	Categórica ordinal (nivel educativo)
AI_Usage	int64	Binaria (variable objetivo: 0/1)
NumLanguages	int64	Numérica discreta (conteo de lenguajes)

AI_Usage x WorkExp

Las medianas son similares, con ligera menor experiencia en quienes usan IA; hay outliers con mucha experiencia usando IA.

AI_Usage × NumLanguages

Ambos grupos usan un número similar de lenguajes, aunque los usuarios de IA muestran una ligera mayor diversidad.

Este gráfico combina un boxplot y un histograma para comparar la distribución del número de lenguajes usados entre quienes usan IA y quienes no. Se observa que:

La mediana es cercana a 5 lenguajes en ambos grupos, sin diferencias marcadas.
Los usuarios de IA muestran una dispersión ligeramente mayor y más outliers, indicando más diversidad tecnológica.
Esto sugiere que el uso de IA no depende directamente de cuántos lenguajes se conozcan, sino del tipo de lenguaje o la apertura a herramientas nuevas (p. ej. Python, R).

En síntesis, la cantidad de lenguajes es un factor neutro, pero puede reflejar una mayor curiosidad técnica entre quienes adoptan IA.

AI_Usage × Country

La adopción de IA se concentra en polos tecnológicos como EE.UU., India, Reino Unido y Alemania.

Este mapa mundial muestra la distribución geográfica de los encuestados que usan IA. Se aprecian patrones regionales marcados:

EE.UU. y la India destacan como los principales centros de adopción, seguidos de Reino Unido, Alemania y Canadá.
La concentración refleja ecosistemas tecnológicos maduros, alta inversión en IA y disponibilidad de infraestructura.
En Latinoamérica y África la adopción es menor, aunque se observa crecimiento en países con comunidades tecnológicas emergentes, como Brasil y México.
Esta variable sugiere que la adopción está influida por factores macroeconómicos y disponibilidad de recursos digitales.

En conjunto, Country (r ≈ 0.17) tiene una correlación leve pero significativa con AI_Usage, actuando como indicador del entorno tecnológico nacional.

AI_Usage × Industry

Las industrias tecnológicas presentan mayor adopción de IA.

AI_Usage × EdLevel

La adopción de IA aumenta con la formación universitaria y de posgrado, aunque también crece entre técnicos.

Este gráfico presenta la proporción de usuarios de IA según el nivel educativo alcanzado. Se observan patrones claros:

Los niveles de licenciatura (Bachelor’s) y maestría (Master’s) concentran las mayores tasas de adopción, cercanas al 80%.
También hay participación considerable entre quienes cursaron estudios universitarios incompletos o grados asociados, lo que sugiere democratización del acceso a la IA.
Los niveles más bajos (primaria o secundaria) muestran menor adopción, probablemente por menor exposición a herramientas tecnológicas.
En conjunto, la correlación con AI_Usage es baja (≈ 0.06), pero la tendencia indica que la educación facilita la adopción y comprensión de tecnologías emergentes.

Conclusión: el nivel educativo influye levemente, aunque la expansión de recursos de aprendizaje online está reduciendo las brechas tradicionales.

🛠️
- Sección 2 -
Determinación de la técnica

Use flecha ↓ para ver cada sección.

2.1 Tipo de Problema

Tipo de análisis: Clasificación supervisada
Objetivo: Predecir si un desarrollador adopta IA
Variable objetivo: AI_Usage (0/1)
Naturaleza de los datos: Mezcla de variables categóricas
(DevType, Country, EdLevel…) y numéricas (WorkExp, NumLanguages)
Evaluación: Métricas de clasificación (Accuracy, Recall, F1)

2.3 Justificación del Modelo

Regresión Logística

Modelo interpretable
Forma un baseline sólido
Rápido y estable
Bueno para explicar factores de adopción

Random Forest

Captura relaciones no lineales
Robusto frente a ruido y outliers
Mejor rendimiento en estructuras complejas
Aporta una visión complementaria

Ambos modelos se probaron en versiones balanceadas para manejar el desbalance en AI_Usage.

2.4 Funciones Matemáticas

📌 Regresión Logística

Modelo probabilístico que estima la probabilidad de que un desarrollador use IA a partir de una combinación lineal de variables predictoras.

Interpretación:

P(Y = 1 | X) → probabilidad estimada de uso de IA.
β₀ → constante del modelo.
βᵢ → influencia de cada predictor.
σ(z) → función sigmoide para convertir a probabilidad.

🌲 Random Forest

Modelo no lineal basado en múltiples árboles de decisión. Cada árbol vota por una clase, y la predicción final se obtiene por votación mayoritaria.

Interpretación:

Tₖ(X) → predicción del árbol k.
K → número total de árboles.
Ŷ → clase final decidida por mayoría.
Robusto, captura relaciones no lineales y reduce sobreajuste.

⚔️
- Sección 3 -
Técnicas competidoras

📊 Resultados de Modelos Principales y Competidores

Los mejores resultados se obtienen con Random Forest (sin balance) y Logistic Regression (sin balance), ambos con F1-score ≈ 0.88.

📈 Comparación de Métricas entre Modelos (Plotly)

Comparación general del rendimiento en Accuracy, Precision, Recall, F1 y ROC-AUC para los modelos evaluados.

Matriz de Confusión
Logistic Regression (sin balance)

El modelo acierta ampliamente la clase 1 (usuarios de IA), pero confunde algunos casos de clase 0.

Matriz de Confusión
Random Forest (sin balance)

Random Forest mejora la identificación de la clase 0, manteniendo un desempeño sobresaliente en la clase 1.

📉 Curvas ROC comparadas entre modelos

Curvas ROC de Logistic Regression y Random Forest

Las curvas ROC muestran un comportamiento similar entre modelos y un AUC moderado (≈ 0.65–0.67), indicando discriminación aceptable en un problema con señales débiles.

🔁 Validación Cruzada Estratificada (k=5)

Se aplicó validación cruzada estratificada con k=5 para estimar el rendimiento real de los modelos. Este método divide el dataset en 5 partes manteniendo la proporción de clases (0/1).

La regresión logística sin balance logró el mejor F1 promedio (0.8817) con la menor variabilidad, confirmando su estabilidad y generalización.

• La validación cruzada estratificada k=5 divide los datos en cinco subconjuntos con la misma proporción de clases.
• En cada iteración, el modelo se entrena con 4 folds y se evalúa en el fold restante.
• Este proceso reduce la dependencia de un único train/test split y produce métricas más estables.
• Logistic Regression sin balance obtuvo un F1 promedio de 0.8817 y una desviación estándar extremadamente baja (0.0015), lo que indica un desempeño consistente en todos los subconjuntos.
• Random Forest sin balance también obtuvo un desempeño alto (0.8752), pero con mayor variabilidad.
• Ambos modelos superaron el criterio de éxito (F1 ≥ 0.80), pero la regresión logística se destaca por estabilidad y eficiencia computacional.

📈
- Sección 4 -
Comparación (criterio preciso)

Use flecha ↓ para ver cada sección.

📈 Comparación según el Criterio Preciso

El Sprint exige seleccionar el modelo ganador usando un criterio cuantitativo. Aquí se utiliza F1-score por el leve desbalance de la variable objetivo.

Modelo	F1 (CV k=5)	Std
Logistic Regression (sin balance)	0.8817	0.0015
Random Forest (sin balance)	0.8752	0.0023

El modelo que cumple y supera el criterio preciso con mejor estabilidad es Logistic Regression (sin balance).

🏆 Modelo Seleccionado

Regresión Logística (sin balance)

Mejor F1-score promedio (0.8817)
Menor variabilidad (0.0015)
Mejor AUC entre los modelos (0.673)
Entrenamiento rápido y alto rendimiento
Interpretabilidad superior

Cumple el criterio de éxito y ofrece el mejor equilibrio entre rendimiento, estabilidad y simplicidad.

⚙️
- Sección 5 -
Optimización del modelo

Ajuste de hiperparámetros de Regresión Logística usando GridSearchCV y RandomizedSearchCV.

Estrategia de optimización

Pipeline con ColumnTransformer:
- OneHotEncoder para variables categóricas
- StandardScaler para variables numéricas
Clasificador final: LogisticRegression
GridSearchCV (k=5, scoring = F1 clase 1)
RandomizedSearchCV para explorar C en rango continuo

Espacio de búsqueda (Grid):

C ∈ {0.01, 0.1, 1, 10}
penalty ∈ {l1, l2}
solver = liblinear

Resultados de la Optimización

Modelo	C	Penalty	F1 (CV k=5)
LogReg baseline	1.0	l2	≈ 0.881
LogReg optimizada (GridSearch)	0.01	l2	≈ 0.883
LogReg optimizada (Randomized)	≈ 0.0466	l2	≈ 0.883

Matriz de confusión – Baseline vs Optimizada

Comparación de matrices de confusión para Logistic Regression baseline y optimizada

La versión optimizada reduce drásticamente los falsos negativos (de 105 a 17) a costa de aumentar ligeramente los falsos positivos (de 1277 a 1376).

Leo los valores de las matrices:

Baseline:
- TN = 115, FP = 1277
- FN = 105, TP = 5116
Optimizada:
- TN = 16, FP = 1376
- FN = 17, TP = 5204

Explico que:

El recall de la clase 1 mejora mucho: casi no dejamos pasar usuarios de IA sin detectar (FN bajan de 105 a 17).
A cambio, cometemos algunos falsos positivos adicionales, lo que reduce levemente la precisión y el AUC.
Este trade-off es razonable si el costo de no detectar a un usuario de IA es más alto que el costo de etiquetar algunos no-usuarios como usuarios.

¿Se cumplió el criterio de éxito?

Mejora en F1: de ≈0.8810 a ≈0.8820 (≈ +0.1%)
El instructivo pedía ≈ +5% de mejora
No se alcanza el +5%, pero:
- Se gana recall en la clase positiva
- Se confirma que el baseline ya estaba casi en su máximo

La optimización refina el modelo, pero no produce una mejora dramática: la Regresión Logística ya era una buena solución con las variables actuales.

⚖️ Limitaciones y ética

Use flecha ↓ para ver cada sección.

⚖️ Limitaciones y Ética

Dataset autodeclarado — puede contener sesgos de percepción.
Variables reducidas del dataset original (solo parte de Kaggle).
Uso ético: el modelo debe apoyar decisiones formativas, no discriminatorias.

💡 Insights y decisiones

Use flecha ↓ para ver cada sección.

💡 Principales Insights del Modelo

Los roles técnicos especializados incrementan la probabilidad de usar IA.
La adopción de IA está influenciada por el país y la industria, no tanto por experiencia.
El uso de IA es transversal: tanto juniors como seniors la adoptan en proporciones similares.
La educación universitaria facilita la adopción, pero no es determinante.
El desbalance no impactó negativamente en el desempeño final.

🧭 Decisiones

Implementar campañas de formación en IA dirigidas por rol profesional.
Priorizar estrategias de IA en sectores con alta adopción (software, fintech).
Promover programas de capacitación técnica accesibles para dinamizar la adopción.
Utilizar la regresión logística como modelo base para predicciones futuras.

🔁 Reproducibilidad

Los artefactos completos del proyecto están disponibles aquí:

Sitio Web (Slides):
https://gastonnina.github.io/miadas_mod_08_proy/

Repositorio GitHub:
https://github.com/gastonnina/miadas_mod_08_proy

Modelo Supervisado para Predecir la Adopción de IA

Modelamiento de Datos I

🗂️ Índice General

📘 Introducción

Contexto

Objetivo

Tipo de modelo

Pregunta de investigación

Criterio de éxito

🧩- Sección 1 -Definición del problema

Necesidad de negocio

Variable objetivo

Pregunta original del dataset

Opciones del formulario

Predictoras usadas

Restricciones

Hipótesis

📊- Sección 2 - EDA – 5 bivariados

Matriz de Correlación Mixta

Metadatos del EDA

📘 Metadatos del Dataset Limpio

AI_Usage x WorkExp

AI_Usage × NumLanguages

AI_Usage × Country

AI_Usage × Industry

AI_Usage × EdLevel

🛠️- Sección 2 - Determinación de la técnica

2.1 Tipo de Problema

2.3 Justificación del Modelo

Regresión Logística

Random Forest

2.4 Funciones Matemáticas

📌 Regresión Logística

🌲 Random Forest

⚔️- Sección 3 -Técnicas competidoras

📊 Resultados de Modelos Principales y Competidores

📈 Comparación de Métricas entre Modelos (Plotly)

Matriz de ConfusiónLogistic Regression (sin balance)

Matriz de ConfusiónRandom Forest (sin balance)

📉 Curvas ROC comparadas entre modelos

🔁 Validación Cruzada Estratificada (k=5)

📈- Sección 4 -Comparación (criterio preciso)

📈 Comparación según el Criterio Preciso

🏆 Modelo Seleccionado

⚙️- Sección 5 -Optimización del modelo

Estrategia de optimización

Resultados de la Optimización

Matriz de confusión – Baseline vs Optimizada

¿Se cumplió el criterio de éxito?

⚖️ Limitaciones y ética

⚖️ Limitaciones y Ética

💡 Insights y decisiones

💡 Principales Insights del Modelo

🧭 Decisiones

🔁 Reproducibilidad

🧩
- Sección 1 -
Definición del problema

📊
- Sección 2 -
EDA – 5 bivariados

🛠️
- Sección 2 -
Determinación de la técnica

⚔️
- Sección 3 -
Técnicas competidoras

Matriz de Confusión
Logistic Regression (sin balance)

Matriz de Confusión
Random Forest (sin balance)

📈
- Sección 4 -
Comparación (criterio preciso)

⚙️
- Sección 5 -
Optimización del modelo