Propuesta de Proyectos para la carrera de Lenguas Modernas y Filología Hispánica Facultad de Humanidades UAGRM

Se presenta la lista de 10 proyectos de investigación aplicada (TRL 6–8) para la carrera de Lenguas Modernas y Filología Hispánica de la UAGRM, siguiendo el mismo formato y rigor que en los casos anteriores.

🎯 Enfoque prioritario para Lenguas Modernas y Filología Hispánica

· Detección automática de errores gramaticales y estilísticos en español de Bolivia mediante PLN.
· Sistemas de tutoría inteligente para aprendizaje de idiomas adaptados a hispanohablantes.
· Análisis de corpus históricos y literarios con modelos de lenguaje.
· Traducción automática neuronal para pares español-quechua y español-guaraní.
· Análisis de sentimiento y argumentación en discursos políticos y literarios.
· Generación automática de ejercicios didácticos para profesores de lenguas.

1. BolErrNet – Detector automático de errores gramaticales y de estilo en español de Bolivia usando BERT fine-tuned

Problema científico
Los correctores comerciales no detectan errores comunes en Bolivia (voseo, dequeísmo, uso de “nomás”).

Hipótesis
Modelo BETO fine-tuned con corpus boliviano (500k oraciones) clasifica 15 tipos de error con F1 >0,85, superando a LanguageTool en un 30%.

Modelo
BERT + capa de clasificación multi-etiqueta y CRF.

Base neuroeducativa
Feedback inmediato mejora la adquisición implícita de reglas gramaticales.

Diseño
Anotación de 10k oraciones por lingüistas (kappa >0,80). Validación cruzada.

Viabilidad (TRL 6)
Servidor GPU, API REST. Costo: $15.000.

Impacto
Precisión >85% para errores bolivianos. Reducción del 50% del tiempo de corrección.

Aplicabilidad
Formación docente, corrección de tesis, periódicos locales.

Proyección 5 años
Extensión de navegador gratuita. Integración con procesadores de texto.

2. LinguaTutor – Tutor inteligente de inglés para hispanohablantes con detección de errores por transferencia negativa

Problema
Errores sistemáticos por transferencia del español (ej. “I have 20 years”).

Hipótesis
GPT-4 fine-tuned identifica 20 tipos de error y genera ejercicios específicos, reduciendo errores en un 50% en 8 semanas vs. Duolingo.

Modelo
LLM (GPT-4/LLAMA2) fine-tuned con 50k pares (incorrecto→correcto).

Base neuroeducativa
Instrucción explícita de diferencias L1-L2 facilita reestructuración gramatical.

Diseño
Ensayo controlado (n=60, nivel A2). Pre-post test de errores de transferencia. ANCOVA.

Viabilidad (TRL 6)
API de OpenAI o modelo local. Costo: $10.000.

Impacto
Reducción del 50% en errores (ej. “make a party” → “have a party”).

Aplicabilidad
Centro de Idiomas UAGRM, colegios bilingües.

Proyección 5 años
App con soporte para portugués y francés.

3. CorpusHistórico – Evolución del léxico en documentos coloniales de Santa Cruz (siglos XVII-XIX) con word embeddings diacrónicos

Problema
Faltan estudios cuantitativos del cambio léxico en el español boliviano.

Hipótesis
Word2vec por décadas revela cambios semánticos en palabras clave (ej. “indio”, “cambas”) mediante alineamiento de embeddings.

Modelo
Word2Vec skip-gram + Orthogonal Procrustes.

Base
Los cambios léxicos reflejan transformaciones socioculturales.

Diseño
Digitalización de 1.000 documentos (1600-1900). OCR + corrección. Embeddings por siglo.

Viabilidad (TRL 6)
Servidor OCR y entrenamiento. Costo: $25.000.

Impacto
Identificación de ≥50 palabras con cambio semántico. Diccionario histórico de bolivianismos.

Aplicabilidad
Instituto de Investigaciones Filológicas, archivos históricos.

Proyección 5 años
Plataforma web “CorpusHistórico Bolivia” con búsqueda y visualización.

4. TraduQuechua – Traducción automática neuronal español-quechua (dialecto del oriente boliviano)

Problema
No existe traductor automático de calidad para quechua sureño.

Hipótesis
mBART fine-tuned con 50k pares oracionales alcanza BLEU >25 para frases cotidianas.

Modelo
mBART + tokenización SentencePiece.

Base
Preservación de lenguas minoritarias y acceso a servicios básicos.

Diseño
Recopilación de 50k pares con hablantes nativos. Evaluación BLEU y humana.

Viabilidad (TRL 6)
GPU, Hugging Face. Costo: $30.000.

Impacto
BLEU >25. Traducción de 1.000 frases/minuto.

Aplicabilidad
Centros de salud, juzgados rurales, educación intercultural.

Proyección 5 años
App gratuita offline. Integración con servicios públicos municipales.

5. LiterEmo – Análisis de emociones en la literatura boliviana del siglo XX (Arguedas a Saenz) con transformers

Problema
Falta análisis cuantitativo de emociones a gran escala en la narrativa boliviana.

Hipótesis
Modelo fine-tuned con 5k párrafos anotados revela aumento de “miedo” y “tristeza” en la posguerra del Chaco.

Modelo
BERT multilingüe para clasificación de 8 emociones + intensidad.

Base
La literatura activa neuronas espejo y teoría de la mente.

Diseño
Digitalización de 50 obras. Anotación por 5 expertos (kappa >0,70). Series temporales por década.

Viabilidad (TRL 6)
GPU. Costo: $12.000.

Impacto
Atlas emocional con 5 hallazgos clave. Recurso didáctico.

Aplicabilidad
Cátedras de literatura boliviana, bibliotecas digitales.

Proyección 5 años
Plataforma “LiterEmo” para análisis de textos de usuario.

6. PhoneticCoach – Entrenador de pronunciación del inglés (formantes + CNN) para hispanohablantes

Problema
Dificultad con fonemas no existentes en español (ej. /ɪ/, /θ/). Las apps no retroalimentan detalles articulatorios.

Hipótesis
Sistema que analiza formantes con CNN y da feedback visual reduce error de /ɪ/ de 80% a 40% en 4 semanas.

Modelo
CNN 1D sobre espectrogramas (MFCC + formantes).

Base
Feedback visual explota integración multisensorial.

Diseño
Estudio con 30 estudiantes. Pre-post test de pares mínimos. Evaluación ciega por fonetistas.

Viabilidad (TRL 6)
Web Audio API + Python. Micrófono estándar. Costo: $8.000.

Impacto
Reducción del 50% en errores de producción.

Aplicabilidad
Laboratorio de idiomas UAGRM, apps de autoaprendizaje.

Proyección 5 años
Módulo integrado en LinguaTutor.

7. DiscursoPol – Detección de falacias y marcos discursivos en debates políticos bolivianos con PLN

Problema
No hay herramientas automatizadas para detectar falacias (ad hominem, falsa dicotomía) en debates locales.

Hipótesis
BETO fine-tuned clasifica 6 falacias y 5 marcos con F1 >0,75.

Modelo
BETO + clasificación multi-etiqueta.

Base
Las falacias explotan sesgos cognitivos; su detección mejora el pensamiento crítico.

Diseño
Transcripción de 50 horas de debates. Anotación por 5 especialistas (kappa >0,70).

Viabilidad (TRL 6)
Servidor. Costo: $12.000.

Impacto
Precisión >75%. Reduce tiempo de verificación de 2h a 10 min.

Aplicabilidad
Fact-checking (Bolivia Verifica), educación cívica.

Proyección 5 años
Sistema integrado en streaming de noticias para marcar falacias en tiempo real.

8. EjerGen – Generación automática de ejercicios de vocabulario y gramática a partir de textos literarios (GPT-4)

Problema
Profesores pierden mucho tiempo diseñando ejercicios personalizados.

Hipótesis
Pipeline (análisis de frecuencia + colocaciones + GPT-4) produce ejercicios indistinguibles de los humanos (>70% aprobación).

Modelo
GPT-4 (o LLAMA2) con prompting estructurado.

Base
La práctica en contexto mejora retención; la generación automática reduce carga docente.

Diseño
20 textos. Ejercicios generados vs. profesores. Evaluación por estudiantes y panel ciego.

Viabilidad (TRL 6)
API OpenAI o modelo local. Costo: $6.000.

Impacto
Ahorro del 80% del tiempo de preparación (30 min → 5 min).

Aplicabilidad
Instituto de Idiomas UAGRM, enseñanza de español a extranjeros.

Proyección 5 años
Plugin para Moodle/Canvas.

9. DiaLecto – Identificación de dialectos del español boliviano (camba, valluno, andino) con Wav2Vec2 + BETO

Problema
No existe clasificador automático fiable de variantes regionales a partir de voz.

Hipótesis
Modelo multimodal (audio + texto) clasifica correctamente el dialecto con precisión >85%.

Modelo
Wav2Vec2 (fine-tuned) + BETO, fusión tardía con MLP.

Base
Identificación dialectal aplicada a educación y lingüística forense.

Diseño
300 grabaciones de 1 minuto por dialecto. Entrenamiento 80/20.

Viabilidad (TRL 6)
GPU, micrófono estándar. Costo: $18.000.

Impacto
Precisión >85%. Permite asistentes de voz adaptados a cada región.

Aplicabilidad
Lingüística computacional, estudios sociolingüísticos.

Proyección 5 años
API “DiaLecto” gratuita. Base de datos de voz dialectal abierta.

10. TradPoetic – Traducción asistida por IA de poesía inglés-español preservando métrica y rima

Problema
La traducción automática neuronal falla en poesía porque prioriza semántica sobre forma.

Hipótesis
Constraint NMT con módulo métrico produce traducciones poéticas superiores a Google Translate (70% preferencia).

Modelo
Transformer + beam search con penalización métrica (endecasílabos, rima).

Base
La poesía activa áreas de musicalidad; preservar la forma genera respuesta estética cercana al original.

Diseño
50 poemas cortos. Evaluación por 20 poetas/filólogos en 4 dimensiones.

Viabilidad (TRL 6)
GPU, Fairseq. Costo: $20.000.

Impacto
Mejora de 30 puntos en escala de calidad poética (0-100) vs. Google Translate.

Aplicabilidad
Talleres de traducción literaria, editoriales universitarias.

Proyección 5 años
Plataforma colaborativa “TradPoetic” con edición humana.

📌 Nota final

Estos 10 proyectos para Lenguas Modernas y Filología Hispánica abarcan desde la lingüística de corpus y la traducción automática hasta la didáctica de idiomas y el análisis del discurso. Con costos entre $6.000 y $30.000 y TRL 6–7, son viables en el contexto de la UAGRM y pueden articularse con la DEIS (extensión a escuelas y comunidades) y la DICIT (infraestructura de PLN).