本项目是一个基于深度学习的语音情感识别系统,使用 PyTorch 实现。该系统能够从音频中识别 6 种不同的情感状态:愤怒、恐惧、开心、中性、悲伤和惊讶。项目包含完整的数据处理、模型训练、评估流程,并提供友好的图形用户界面(GUI)进行实时预测。数据集来源于百度 AI Studio 的情感语音数据集,包含 300 条 .wav 格式的音频文件。模型支持 ResNet18 和 ResNet34 等架构,并可选择原始波形或 MFCC 频谱图作为输入特征。系统提供了丰富的评估指标(如准确率、F1 分数、混淆矩阵等)以及自…