Propuesta de Proyectos para la carrera de Sociología Facultad de Humanidades UAGRM

Se presenta la lista de 10 proyectos de investigación aplicada (TRL 6–8) para la carrera de Sociología de la UAGRM, siguiendo el mismo formato riguroso que en los casos anteriores.

—

🎯 Enfoque prioritario para Sociología

· Análisis de redes sociales (SNA) para estudiar cohesión comunitaria y difusión de información.
· Detección de patrones de segregación urbana y movilidad residencial mediante big data (GPS, censo).
· Modelado de opinión pública y formación de burbujas ideológicas con simulación basada en agentes.
· Análisis de discursos políticos y movimientos sociales con PLN y teoría de marcos.
· Predicción de conflictos sociales y protestas mediante series temporales y eventos.
· Estudio de desigualdad y movilidad social intergeneracional con machine learning (Random Forest, XGBoost).

—

1. MovilidadSocialML – Predicción de movilidad social intergeneracional en Santa Cruz usando datos censales y aprendizaje automático (XGBoost)

Problema científico
Los modelos tradicionales de movilidad social usan regresiones lineales y no capturan interacciones complejas entre factores (educación de los padres, barrio, etnia). Bolivia carece de estudios cuantitativos recientes con machine learning.

Hipótesis principal
Un modelo XGBoost entrenado con datos del censo (INE) y encuestas de hogares predice el quintil de ingreso del hijo en función de variables de los padres y del barrio, con un error medio absoluto (MAE) <0,6 quintiles y supera a la regresión logística en un 20% en AUC.

Modelo de Red Neuronal Propuesto
XGBoost (árboles de decisión con boosting) para clasificación ordinal (quintiles). Características: nivel educativo de los padres, ocupación, etnia, tipo de vivienda, índice de pobreza del barrio, acceso a internet.

Base sociológica
La movilidad social depende de la transmisión intergeneracional de capital cultural y social (Bourdieu). El machine learning puede identificar combinaciones no lineales de factores (ej. barrio pobre + madre con educación alta → movilidad ascendente).

Diseño Metodológico
Recopilación de microdatos censales (2001, 2012, 2024) y encuestas de hogares (INE). Muestra de 50.000 individuos emparejados (padre-hijo). Entrenamiento con 80%, validación 20%. Métricas: MAE, precisión por quintil.

Viabilidad Técnica (TRL)
TRL 6 – prototipo en servidor con datos anonimizados. Infraestructura: Python, scikit-learn. Acceso a datos censales mediante convenio UAGRM-INE. Costo: $10.000.

Impacto Cuantificable
Identificación de los 5 predictores más importantes (ej. educación de la madre, barrio de residencia en la infancia). Matriz de transición de quintiles.

Aplicabilidad Práctica Inmediata
Gobernación de Santa Cruz (planificación de políticas sociales), ministerios de planificación, organizaciones de desarrollo (PNUD).

Proyección a 5 años
Plataforma interactiva “MovilidadSocial Bolivia” con simulador de impacto de políticas (ej. becas escolares).

—

2. ProtestaForecast – Predicción de protestas sociales y conflictos en Bolivia mediante series temporales de noticias y clima económico (LSTM)

Problema científico
Bolivia tiene ciclos de protesta social, pero no existen modelos predictivos que integren datos de prensa (eventos) e indicadores económicos.

Hipótesis principal
Un modelo LSTM entrenado con series temporales diarias de número de protestas (fuente: observatorio), precio de combustibles, inflación y eventos climáticos (inundaciones) predice el número de protestas en la próxima semana con error absoluto medio <2 protestas/día, superando a ARIMA.

Modelo de Red Neuronal Propuesto
LSTM bidireccional con capa de atención. Entrada: 30 días de historia de variables (protestas, precio, inflación, desempleo, noticias codificadas). Salida: predicción a 7 días.

Base sociológica
Teoría de la privación relativa y movilización de recursos. Las protestas aumentan tras choques económicos y se propagan por contagio espacial.

Diseño Metodológico
Recopilación de datos diarios de 2015-2024 (protestas de base de datos de conflictos del CEDLA o prensa). Entrenamiento LSTM con validación temporal (entrenar 2015-2022, probar 2023-2024).

Viabilidad Técnica (TRL)
TRL 6 – prototipo con web scraping de titulares de prensa (El Deber, La Razón, Los Tiempos). Servidor GPU. Costo: $15.000.

Impacto Cuantificable
Error MAE <2 protestas/día. Capacidad de alertar con 3 días de anticipación sobre aumentos súbitos.

Aplicabilidad Práctica Inmediata
Ministerio de Gobierno, Defensoría del Pueblo, empresas de riesgos políticos.

Proyección a 5 años
API pública “ProtestaForecast” para periodistas e investigadores. Integración con sistema de alerta temprana de la ONU.

—

3. SegregaciónGPS – Medición de segregación socioespacial en tiempo real mediante datos de movilidad de telefonía móvil (Call Detail Records)

Problema científico
La segregación residencial se mide con censos cada 10 años. Los datos de movilidad de celulares permiten analizar interacciones diarias entre barrios (quién se encuentra con quién).

Hipótesis principal
Un índice de segregación de interacción (basado en redes de contactos) derivado de CDRs anonimizados muestra una correlación >0,8 con el índice de segregación residencial tradicional (dissimilarity index) en Santa Cruz, pero con resolución horaria.

Modelo de Red Neuronal Propuesto
Construcción de grafos bipartitos (torres de celda – usuarios) y cálculo de modularidad para medir segregación. No se requiere red neuronal, pero sí procesamiento masivo con Spark.

Base sociológica
La segregación no es solo residencial sino también interaccional (no compartir espacios públicos). Los CDRs revelan patrones de encuentro no capturados por el censo.

Diseño Metodológico
Convenio con empresa de telefonía (Tigo o Entel) para acceder a datos agregados y anonimizados de 100.000 usuarios durante un mes. Calcular la probabilidad de que dos usuarios de barrios distintos compartan torre. Construir mapas de segregación horaria (día/noche, fin de semana).

Viabilidad Técnica (TRL)
TRL 6 – prototipo con datos de prueba. Infraestructura: cluster Hadoop/Spark. Costo: $30.000 (incluye acceso a datos y procesamiento). Desafío ético: datos anonimizados, aprobación por comité de ética.

Impacto Cuantificable
Mapas de segregación diurna vs. nocturna. Identificación de “puentes” (espacios integradores) y “barreras”.

Aplicabilidad Práctica Inmediata
Planificación urbana (GAM Santa Cruz), diseño de transporte público, políticas de integración social.

Proyección a 5 años
Sistema de monitoreo continuo de segregación para el municipio, con paneles públicos (datos agregados).

—

4. BurbujaIdeológica – Detección de cámaras de eco en Twitter durante debates electorales bolivianos mediante análisis de redes sociales (SNA) y NLP

Problema científico
Las burbujas ideológicas (interacción solo con afines) intensifican la polarización. No se ha cuantificado su dinámica en el contexto boliviano.

Hipótesis principal
El grafo de retweets y menciones durante la campaña electoral de 2025 mostrará dos comunidades claramente separadas (pro-gobierno vs. oposición), con un coeficiente de modularidad >0,6 y baja conectividad entre comunidades.

Modelo de Red Neuronal Propuesto
Algoritmo de detección de comunidades (Louvain) sobre grafo dirigido. Clasificación ideológica de usuarios con BERT fine-tuned sobre tuits políticos.

Base sociológica
Las cámaras de eco reducen la exposición a contraargumentos, aumentando la polarización afectiva (Sunstein, 2017). Las redes sociales amplifican este fenómeno.

Diseño Metodológico
Recopilación de 500.000 tuits durante 3 meses de campaña (con API académica). Construcción de red de interacciones. Cálculo de modularidad y coeficiente de homofilia. Entrevistas a usuarios para validar etiquetas.

Viabilidad Técnica (TRL)
TRL 6 – prototipo con servidor y base de datos. Uso de Gephi o NetworkX. Costo: $12.000.

Impacto Cuantificable
Mapa visual de comunidades políticas. Métrica: ratio de interacciones entre comunidades (menos del 10% del total).

Aplicabilidad Práctica Inmediata
Tribunal Electoral (monitoreo de desinformación), periodistas, ONG de transparencia.

Proyección a 5 años
Plataforma “BurbujaIdeológica” para educadores y ciudadanos, mostrando su propia red de interacciones.

—

5. MovimientosSocialesNLP – Análisis de marcos discursivos en movimientos indígenas y campesinos de Bolivia (2000-2024) con modelado de tópicos (BERTopic)

Problema científico
Los movimientos sociales bolivianos (guerra del agua, gas, TIPNIS) tienen repertorios discursivos que evolucionan. Falta un análisis cuantitativo a gran escala de sus marcos (derechos, autonomía, medio ambiente).

Hipótesis principal
El modelo BERTopic extraerá 10-15 tópicos dominantes a lo largo del tiempo, mostrando un desplazamiento desde marcos de “recursos” (agua, gas) hacia marcos de “territorio y autonomía” después de 2010.

Modelo de Red Neuronal Propuesto
BERTopic (BERT + reducción dimensional UMAP + clustering HDBSCAN + representación de tópicos con c-TF-IDF).

Base sociológica
La teoría de los marcos de acción colectiva (Snow & Benford) explica cómo los movimientos enmarcan sus demandas para movilizar apoyo.

Diseño Metodológico
Recopilación de 10.000 documentos (comunicados de prensa de organizaciones, discursos de líderes, artículos de periódicos de la época) digitalizados. Aplicación de BERTopic. Validación con historiadores y sociólogos.

Viabilidad Técnica (TRL)
TRL 6 – prototipo en servidor con GPU. Corpus en español. Costo: $15.000 (digitalización y procesamiento).

Impacto Cuantificable
Mapa de tópicos por década y organización. Identificación de marcos emergentes (cambio climático, feminismo indígena).

Aplicabilidad Práctica Inmediata
Institutos de investigación social (CIDES, CESU), formuladores de políticas públicas, organizaciones de base.

Proyección a 5 años
Base de datos abierta “MovimientosBolivia” con buscador semántico y series temporales de tópicos.

—

6. ConfianzaVecinal – Predicción de confianza interpersonal en barrios de Santa Cruz usando sensores de ruido y luminosidad (IoT) y encuestas

Problema científico
La confianza vecinal es un componente del capital social, pero su medición se basa solo en encuestas. Las condiciones físicas del barrio (iluminación, ruido, mantenimiento) pueden ser predictores objetivos.

Hipótesis principal
Un modelo Random Forest que combina variables de encuesta (ingreso, tiempo de residencia) con datos de sensores IoT (luminosidad nocturna, ruido promedio, presencia de basura) predice la confianza vecinal (escala de 1 a 10) con R² >0,6, mejor que solo encuesta (R²=0,4).

Modelo de Red Neuronal Propuesto
Random Forest con 100 árboles. Características: nivel de ruido (dB nocturno), lux (iluminación), índice de vegetación (NDVI), más variables sociodemográficas.

Base sociológica
La teoría de las ventanas rotas (Wilson & Kelling) sugiere que el deterioro físico reduce la confianza y el control social informal.

Diseño Metodológico
Selección de 30 barrios de Santa Cruz. Instalación de 5 sensores por barrio (medición durante 1 mes). Encuesta a 20 residentes por barrio (n=600). Entrenamiento del modelo.

Viabilidad Técnica (TRL)
TRL 6 – prototipo con sensores de bajo costo (ESP8266 + sensor de sonido y luz, costo $30/unidad). 150 sensores: $4.500. Encuesta y análisis: $10.000. Total: $14.500.

Impacto Cuantificable
Identificación de los predictores más importantes (ej. luminosidad nocturna >20 lux → confianza +2 puntos). Recomendaciones para políticas de mejoramiento urbano.

Aplicabilidad Práctica Inmediata
GAM Santa Cruz (Programa “Barrios Seguros”), organizaciones vecinales, policía comunitaria.

Proyección a 5 años
Sistema de monitoreo continuo de capital social en barrios, integrado con plataforma de gobierno abierto.

—

7. DesinformaciónCampesina – Propagación de desinformación en WhatsApp en zonas rurales de Santa Cruz: modelado de redes de reenvío y detección de nodos superspreaders

Problema científico
La desinformación en WhatsApp es un problema grave en áreas rurales, pero la naturaleza cifrada de la plataforma impide el análisis de contenido. Sin embargo, los metadatos (quién reenvía a quién) sí pueden analizarse.

Hipótesis principal
El grafo de reenvíos en comunidades rurales tiene una estructura de “hub and spoke” con pocos nodos superspreaders (líderes comunitarios, profesores) que son responsables del 80% de las cadenas. Detectar estos nodos permite intervenciones focalizadas.

Modelo de Red Neuronal Propuesto
Métricas de centralidad (grado, intermediación, PageRank) sobre el grafo de contactos (teléfonos). Clasificación de superspreaders por umbral de centralidad.

Base sociológica
Teoría de los dos pasos (Lazarsfeld): la información fluye de los medios a líderes de opinión y de ellos al resto. En zonas rurales, los líderes comunitarios tienen alta centralidad.

Diseño Metodológico
Estudio con 5 comunidades rurales (aprox. 200 personas por comunidad). Con consentimiento, se recolectan metadatos de reenvíos (no el contenido) de 6 meses. Se construye el grafo y se identifican los superspreaders. Se valida con entrevistas a informantes clave.

Viabilidad Técnica (TRL)
TRL 6 – prototipo con script de Python (NetworkX). Recolección de datos requiere app especial o colaboración con operadora (complejo ético). Alternativa: simulación validada con datos reales anonimizados. Costo: $20.000 (incluye trabajo de campo).

Impacto Cuantificable
Identificación de 5-10 superspreaders por comunidad. Campañas de alfabetización mediática focalizadas en ellos podrían reducir la propagación de desinformación en un 50%.

Aplicabilidad Práctica Inmediata
Programas de fact-checking rural (Bolivia Verifica), unidades de comunicación de municipios rurales.

Proyección a 5 años
Metodología exportable a otras regiones. Desarrollo de una app de alerta para líderes comunitarios.

—

8. EmpleoGenero – Brecha de género en el mercado laboral cruceño: análisis de anuncios de empleo online con PLN y detección de sesgos implícitos

Problema científico
Las mujeres en Santa Cruz tienen menor participación laboral y salarios más bajos. Los anuncios de empleo pueden contener sesgos lingüísticos (ej. “se busca hombre proactivo” o descripciones masculinizadas).

Hipótesis principal
Un modelo BERT fine-tuned para detectar lenguaje con sesgo de género (masculino genérico, adjetivos estereotipados) en 50.000 anuncios de empleo online mostrará que el 40% de los anuncios tienen sesgo, y que los anuncios sin sesgo reciben 30% más postulaciones femeninas.

Modelo de Red Neuronal Propuesto
BERT multilingüe fine-tuned con 5.000 anuncios anotados por sociólogas como “sesgado” o “neutral”. Luego se procesan 50.000 anuncios y se correlaciona con datos de postulaciones (de plataforma de empleo).

Base sociológica
La segregación ocupacional vertical y horizontal se reproduce a través del lenguaje de las ofertas de trabajo. Los sesgos implícitos desalientan la postulación de mujeres (Gaucher et al., 2011).

Diseño Metodológico
Web scraping de portales de empleo (Bolsa de Trabajo UAGRM, Indeed, Computrabajo) durante 1 año. Anotación de 5.000 anuncios por 5 jueces (kappa >0,75). Fine-tuning de BERT. Análisis de correlación con postulaciones (si se accede a datos agregados).

Viabilidad Técnica (TRL)
TRL 6 – prototipo de scraper y modelo. Servidor GPU. Costo: $12.000.

Impacto Cuantificable
Porcentaje de anuncios sesgados por sector (construcción, administración, salud). Recomendaciones a empresas para redactar anuncios inclusivos.

Aplicabilidad Práctica Inmediata
Ministerio de Trabajo (inspección de discriminación), empresas de recursos humanos, organizaciones de mujeres (Cidem).

Proyección a 5 años
Certificación “Empleo sin sesgo” para empresas. Plugin de corrección de anuncios.

—

9. MigraciónClimática – Modelado de migración inducida por sequías en el Chaco boliviano usando datos satelitales y censos (random forest espacial)

Problema científico
La sequía recurrente en el Chaco (Cordillera, Santa Cruz) fuerza la migración hacia ciudades, pero no existen modelos que cuantifiquen la relación entre déficit hídrico y flujos migratorios.

Hipótesis principal
Un modelo Random Forest espacial (que incluye variables de precipitación, temperatura, NDVI, y distancia a centros urbanos) explica el 70% de la variabilidad en la tasa de emigración municipal entre 2012 y 2024, siendo la sequía la variable más importante después de la pobreza.

Modelo de Red Neuronal Propuesto
Random Forest con validación espacial (bloques). Características: índice de vegetación (NDVI), déficit de precipitación (SPEI), densidad de caminos, acceso a riego, etc. Variable dependiente: tasa neta de migración (censo 2012 vs proyecciones 2024).

Base sociológica
Teoría de la migración ambiental: los choques climáticos actúan como “push” cuando erosionan los medios de vida agrícolas (Black et al., 2011).

Diseño Metodológico
Recopilación de datos de 15 municipios del Chaco. Imágenes MODIS para NDVI, datos climáticos (SENAMHI), censo 2012 y encuesta de migración municipal 2024 (aplicada ad-hoc). Modelo espacial.

Viabilidad Técnica (TRL)
TRL 6 – prototipo con datos existentes y trabajo de campo para actualizar migración. Costo: $25.000 (incluye encuesta de 600 hogares).

Impacto Cuantificable
Mapas de riesgo de migración por municipio. Predicción de que una sequía severa (SPEI < -1.5) aumenta la emigración en 15%.

Aplicabilidad Práctica Inmediata
Gobernación de Santa Cruz (planificación de adaptación al cambio climático), municipios del Chaco, ONG de desarrollo (Oxfam).

Proyección a 5 años
Sistema de alerta temprana de migración climática, integrado con observatorio de sequías.

—

10. JuventudDigital – Trayectorias de transición escuela-trabajo en jóvenes de Santa Cruz: modelos de secuencia mediante análisis de clústeres (Optics) y encuesta longitudinal

Problema científico
Los jóvenes bolivianos tienen trayectorias no lineales (estudio, trabajo informal, desempleo, retorno al estudio). No hay tipologías cuantitativas basadas en datos longitudinales.

Hipótesis principal
El algoritmo de clustering de secuencias (Optics o K-medoids con distancia de edición) identifica 5 trayectorias típicas (educación continua, trabajo temprano, NEET, estudio+trabajo, etc.) y predice el ingreso a los 25 años con R² >0,5.

Modelo de Red Neuronal Propuesto
Clustering de secuencias (optimal matching). No se usa red neuronal. Se aplica regresión logística multinomial para predecir pertenencia a clúster según variables de origen (educación de los padres, barrio).

Base sociológica
Teoría de la transición escuela-trabajo: las trayectorias están moldeadas por el capital social y familiar (Walther, 2016). En América Latina, la informalidad genera trayectorias fragmentadas.

Diseño Metodológico
Encuesta retrospectiva (calendario de historia laboral) a 1.000 jóvenes de 20-25 años en Santa Cruz (muestreo estratificado por nivel socioeconómico). Se codifican los estados mensuales durante 10 años (desde los 15 años). Clustering y análisis de factores predictores.

Viabilidad Técnica (TRL)
TRL 6 – prototipo con datos de encuesta (aplicación por entrevistadores). Costo: $25.000 (trabajo de campo y procesamiento).

Impacto Cuantificable
Tipología de trayectorias. Porcentaje de jóvenes NEET (ni estudia ni trabaja) por barrio. Recomendaciones para políticas de empleo juvenil.

Aplicabilidad Práctica Inmediata
Ministerio de Trabajo (programa “Mi Primer Empleo”), municipios con altas tasas de desempleo juvenil, centros de formación técnica.

Proyección a 5 años
Panel de seguimiento anual (cohorte) para evaluar impacto de políticas. Plataforma interactiva para consejeros vocacionales.

—

📌 Nota final

Estos 10 proyectos para Sociología cubren:

· Movilidad y desigualdad (1, 8, 10)
· Conflictos y protestas (2, 5)
· Segregación urbana y capital social (3, 6)
· Redes sociales y desinformación (4, 7)
· Migración y medio ambiente (9)

Costos entre $10.000 y $30.000, TRL 6–7. Viables en la UAGRM con articulación DEIS (extensión a municipios y comunidades) y DICIT (procesamiento de datos). Se requiere especial cuidado ético en proyectos con datos sensibles (teléfonos, migrantes, etc.).