基于脑电采用深度卷积神经网络在听音乐的过程中进行时空上的情绪识别
1.研究背景
基于脑电来进行情绪识别是目前比较活跃的研究领域,而卷积神经网络作为机器学习的模型之一,也被应用到这一领域的研究中。
2.研究方法
2.1 被试
实验选取了大阪大学的12名男性被试(平均年龄25.59±1.69岁),身体健康,并且没有人之前接受过正式的音乐教育训练。所有被试均是自愿参与,每个人都被告知实验流程。
2.2 实验材料
实验中用到的音乐包括40个MIDI文件,每首歌都只有不同的乐器和节奏,以规避歌词的影响,被试被要求从音乐集中选择16首歌曲。
脑电数据的采样率设置为250Hz,记录了12个数据点的脑电信号,分别是Fp1,Fp2,F3,F4,F7,F8,Fz,C3,C4,T3,T4,Pz,这些通道均是在情绪管理中起到重要作用的额叶附近脑区。实验过程中每个电极的阻抗降到20kΩ以下,并在60Hz进行凹陷滤波。
图1. 国际标准10-20电极排布排布分布图
2.3 实验流程
在被试选择了16首歌曲后,他们被要求去听这些歌曲。歌曲之间有16秒的沉默间隔,减少了歌曲之间的任何效果。当每个被试在听所选的音乐过程中,同时记录其脑电信号。在实验过程中要求被试闭眼保持稳定以避免无关伪迹干扰。当被试听完16首歌曲之后,摘下电极帽,把16首歌曲按照相同的顺序再听一遍,并通过不断点击屏幕上显示的唤醒效价空间中的相应点来标注自己听音乐过程中的感受。
图2. 情绪分类模型的两个维度
2.4 数据处理
本研究采用了基于Matlab的EEGLAB工具包,首先对脑电数据进行了0.5-60Hz的带通滤波,并且根据独立成分分析的结果校正受污染的数据,包括噪声,眼动,肌电等伪迹。处理好之后,脑电信号通过时间戳与标注的情绪相关联。
图3. 数据采集与预处理流程
接下来对标注好的情绪元素进行分类,唤醒度方面分为高和低,效价方面分为积极和消极。在本研究中将情绪识别作为两个成分的二元分类任务,根据EEG信号对情绪进行分类,考虑了卷积神经网络的复杂性、窗口大小以及电极的排序。
3.研究结果
研究表明,不同窗口大小的时间信息在10倍(10-fold)交叉验证和保留一个被试(leave-one-subject-out)的交叉验证中明显影响识别性能。来自不同电极顺序的空间信息对分类有轻微的影响。基于同一数据集上的时空知识,之前使用的SVM分类器与这些实证结果进行比较,结果发现,尽管CNN和SVM在窗口大小效应上具有同源的趋势,但CNN使用保留一个被试(leave-one-subject-out)交叉验证的效果优于SVM,这可能是由于在提取过程中提取的特征不同所致。
4.参考文献
Keelawat, P., Thammasan, N., Numao, M., & Kijsirikul, B. (2019). Spatiotemporal Emotion Recognition using Deep CNN Based on EEG during Music Listening. ArXiv Preprint ArXiv:1910.09719.