Spanish SER Research Hub Hub de investigacion SER en espanol
State-of-the-art Spanish SER SER en espanol de nivel state-of-the-art

Emotion-aware AI for Spanish speech. IA sensible a emociones para voz en espanol.

A research platform centered on a multi-task Spanish Speech Emotion Recognition system built for intelligent human-computer interaction. Una plataforma de investigacion centrada en un sistema multi-task de Speech Emotion Recognition en espanol, construido para interaccion humano-computadora inteligente.

First multi-task Spanish SER framework, trained on six corpora, with 90.56 weighted F1 for emotion recognition and direct integration into an empathic HCI pipeline. Primer framework multi-task de SER en espanol, entrenado con seis corpus, con 90.56 de weighted F1 en reconocimiento de emociones e integracion directa en un pipeline de HCI empatico.

Multi-task learning Multi-task learning Six Spanish corpora Seis corpus en espanol SER + ASR + LLM + TTS SER + ASR + LLM + TTS
90.56% Weighted F1 for emotion recognition Weighted F1 en reconocimiento de emociones
99.59% Speaker profile classification Clasificacion de perfil de hablante
99.91% Regional accent detection Deteccion de acento regional
Understanding the project Entender el proyecto

Clear for first-time visitors, useful for technical readers. Claro para quien lo ve por primera vez, util para quien busca detalle tecnico.

7 emotions. 6 corpora. 1 end-to-end research system. 7 emociones. 6 corpus. 1 sistema de investigacion end-to-end.

If you are new to SER Si apenas comienzas en SER

The model listens to Spanish speech and predicts the emotion behind it. El modelo escucha voz en espanol y predice la emocion detras de ella.

  • It uses tone, rhythm, and speech dynamics. Usa tono, ritmo y dinamica del habla.
  • It helps digital systems respond with more context and empathy. Ayuda a que los sistemas digitales respondan con mas contexto y empatia.

If you already know the field Si ya conoces el campo

Frozen Wav2Vec2 XLSR encoder plus multi-task heads for emotion, speaker profile, and regional accent. Encoder Wav2Vec2 XLSR congelado mas cabezas multi-task para emocion, perfil de hablante y acento regional.

  • Seven emotion classes: anger, sadness, neutral, happiness, surprise, disgust, and fear. Siete clases de emocion: ira, tristeza, neutral, felicidad, sorpresa, asco y miedo.
  • Weighted F1 of 90.56 without augmentation or resampling, plus 99.59 for speaker profile and 99.91 for accent. Weighted F1 de 90.56 sin augmentation ni resampling, ademas de 99.59 para perfil de hablante y 99.91 para acento.
  • The work extends into a full HCI stack with ASR, a protocol-guided LLM, and emotional TTS. El trabajo se extiende a un stack completo de HCI con ASR, un LLM guiado por protocolo y TTS emocional.
Research modules Modulos de investigacion

Three connected parts, one coherent system. Tres partes conectadas, un solo sistema coherente.

SER is the core model. TTS and HCI show how it works inside a complete conversational system. SER es el modelo central. TTS y HCI muestran como funciona dentro de un sistema conversacional completo.

What makes it strong Que lo hace fuerte

The main reasons this Spanish SER system stands out. Las razones principales por las que este sistema de SER en espanol destaca.

Quantitative and architectural reasons behind the results. Razones cuantitativas y arquitectonicas detras de los resultados.

Multi-task by design Multi-task por diseno

Emotion is learned together with speaker profile and regional accent. La emocion se aprende junto con perfil de hablante y acento regional.

  • Emotion Emocion
  • Speaker profile Perfil de hablante
  • Regional accent Acento regional

Built for Spanish reality Construido para la realidad del espanol

Six corpora improve robustness across styles, speakers, and contexts. Seis corpus mejoran la robustez entre estilos, hablantes y contextos.

  • MESD
  • EmoMatchSpanishDB
  • MEACorpus
  • EmoWisconsin
  • EmoFilmES
  • INTER1SP

Designed for HCI Disenado para HCI

The model is part of a full Spanish pipeline for empathic interaction. El modelo forma parte de un pipeline completo en espanol para interaccion empatica.

  • ASR
  • Speech emotion recognition
  • Protocol-guided LLM
  • Emotional TTS
Papers and thesis Papers y tesis

The scientific foundation behind the project. La base cientifica detras del proyecto.

Thesis, benchmark paper, and latest IEEE publication. Tesis, paper de benchmark y publicacion mas reciente en IEEE.

Master's thesis Tesis de maestria

A Multi-task Spanish Speech Emotion Recognition System for Intelligent Human-Computer Interaction

Universidad Veracruzana, 2025. Core document of the system and source of the 90.56 WF1 multi-task SER results. Universidad Veracruzana, 2025. Documento central del sistema y fuente de los resultados multi-task de 90.56 WF1 en SER.

Peer-reviewed publication Publicacion arbitrada

Advancing Spanish Speech Emotion Recognition: A Comprehensive Benchmark of Pre-Trained Models

Applied Sciences, 2025, 15(8), 4340. Benchmark paper for pre-trained models in Spanish SER. Applied Sciences, 2025, 15(8), 4340. Paper de benchmark sobre modelos preentrenados para SER en espanol.

Latest IEEE paper Ultimo paper en IEEE

Multi-Task Learning Framework for Spanish Speech Emotion Recognition Marco de apredizaje Multi-Tarea para Reconocimiento de Emociones en el Habla en EspaƱol

IEEE, 2025 Mexican International Conference on Computer Science (ENC). IEEE, 2025 Conferencia Internacional Mexicana de Ciencias de la Computacion (ENC).

Authors and institutions Autores e instituciones

Research team and participating institutions. Equipo de investigacion e instituciones participantes.

Authors, collaborators, and participating institutions. Autores, colaboradores e instituciones participantes.

Author Autor

Francisco Alex Mares Solano

Lead author and system developer. Autor principal y desarrollador del sistema.

Research team Equipo de investigacion

Academic collaborators Colaboradores academicos

Gerardo Diaz Arango

Jorge Eduardo Perez-Jacome Friscione

Hector Vazquez Leal

Universidad Veracruzana logo Universidad Veracruzana
Facultad de Instrumentacion Electronica logo Faculty of Electronic Instrumentation Facultad de Instrumentacion Electronica
INAOE logo INAOE
SECIHTI logo SECIHTI