Predicción de emociones en el habla (SER) en español con un 89.20% de precisión, realizando Fine-Tuning al modelo wav2vec2.
Audio | Emoción Predicha |
---|---|
Tristeza | |
Enojo | |
Miedo | |
Felicidad | |
Sopresa |
Para entrenar y ajustar el modelo, se emplearon las bases de datos MESD, EmoMatchSpanishDB y spanishMeaCorpus.
Este proyecto utiliza el modelo Wav2Vec2-XLSR-53-Large - Spanish para el reconocimiento de emociones. El modelo está ajustado para clasificar las siguientes emociones: Alegría, Tristeza, Enojo, Miedo, Neutral, Disgusto.
El modelo alcanza una precisión del 89.20% en el conjunto de prueba.