Convolutional neural networks for seizure prediction using intracranial and scalp electroencephalogram
ABSTRACT
癫痫发作预测作为改善耐药癫痫和强直性癫痫患者生活的最具挑战性的预测数据分析工作之一,越来越受到关注。许多杰出的研究报告了在提供合理的间接(警告系统)或直接(交互神经刺激)控制难治性癫痫方面的巨大成果,其中一些取得了很高的效果。然而,为了达到高灵敏度和低错误预测率,许多这些研究依赖于手工特征提取和/或定制特征提取,这些特征提取是独立地对每个患者进行的。然而,方法不是可推广的,需要对新数据集中的每个新患者进行重大修改。在本文中,我们将卷积神经网络应用于不同的颅内和头皮脑电(EEG)数据集,并提出了一种通用的回溯性和患者特定的癫痫发作预测方法。我们在30s的脑电窗口上使用短时傅立叶变换来提取频域和时间域的信息。该算法自动为每个患者生成优化的特征,以最好地对发作前和发作间期节段进行分类。该方法可以应用于任何数据集中的任何其他患者,而不需要人工提取特征。该方法在Freiburg医院脑电数据集、波士顿儿童医院-麻省理工学院头皮脑电数据集和美国癫痫学会癫痫预测挑战数据集上的灵敏度分别为81.4%、81.2%和75%,错误预测率分别为0.06/h、0.16/h和0.21/h。对于所有三个数据集中的大多数患者,我们的预测方法在统计上也优于非特定的随机预测。
关键词:癫痫发作预测、卷积神经网络、机器学习、颅内脑电、头皮脑电
2. Proposed Method
2.1. Datasets
这项工作使用了三个数据集:弗莱堡医院数据集(弗莱堡大学,2003)、CHB-MIT数据集(Shoeb,2009)和美国癫痫学会癫痫发作预测挑战(Kaggle)数据集(Brinkmann等人,2016)。表1总结了这三个数据集。Freiburg医院的数据集包括21名顽固性癫痫患者的颅内脑电(IEEG)记录。由于缺乏可用的数据集,我们只能使用13名患者的数据。以256赫兹的采样率记录iEEG信号。在这个数据集中,有六个记录通道,来自六个选定的接触者,其中三个来自致痫区域,其他三个来自偏远地区。对于每个患者,至少有50分钟的发作前数据和24小时的发作间数据。有关弗莱堡医院数据集的更多细节可在Maiwald等人中找到。(2004)。
CHB-MIT数据集包含23名儿科患者的头皮脑电(SEEG)数据,记录了844小时的连续sEEG和163次癫痫发作。SEEG信号是以256赫兹的采样率使用22个电极捕获的(Shoeb,2009)。我们将发作间期定义为发作前至少4h至发作结束后4h之间。在这个数据集中,有5个多次癫痫发作彼此接近的情况。对于癫痫发作预测任务,我们感兴趣的是预测主要的癫痫发作。因此,对于距离前一次发作不到30分钟的发作,我们认为它们只是一次发作,并将领先发作的开始作为合并发作的开始。此外,我们只考虑每天发作少于10次的患者作为预测任务,因为对于平均每2小时发作一次的患者执行这项任务并不是很关键。有了这些定义和考虑,有13名患者有足够的数据(至少有三次领先的癫痫发作和3h的发作间歇期记录)。
美国癫痫学会癫痫发作预测挑战数据集拥有来自5只狗和2名48次癫痫发作患者的iEEG数据,间隔时间为627.7小时(Brinkmann等人,2016年)。以400hz的采样率记录16个植入电极的犬脑电信号(iEEG)。两名患者记录的iEEG数据来自15个深度电极(患者1)和24个硬膜下电极(患者2),采样率为5khz。由组织者提取前置和间隔10分钟的片段。具体来说,对于每一次前导发作,在发作前66分钟到5分钟之间提取6个前导段,间隔10秒。从任何癫痫发作至少1周后随机选择间期节段。
2.2. Preprocessing
由于本研究使用的是二维CNN,因此需要将原始EEG数据转换为矩阵(即类图像格式)。转换必须能够从脑电图信号中保留最重要的信息。小波和傅立叶变换常用来将时间序列脑电图信号转换为图像形状(Brinkmann等人,2016;Khan等人,2017)。它们也被用作癫痫检测和预测的一种有效的特征提取方法。
在这项工作中,我们使用短时傅里叶变换(STFT)将原始130个脑电图信号转换成一个由频率轴和时间轴组成的二维矩阵。我们使用的脑电图窗口长度为30秒。对于弗莱堡医院数据集和CHB-MIT数据集,大多数脑电图记录都受到50hz的电力线噪声的污染(见图1a)。在频域上,当电力线频率为50hz时,剔除47 ~ 53hz和97 ~ 103hz范围内的135分量,当电力线频率为60hz时,剔除57 ~ 63hz和117 ~ 123hz范围内的135分量,方便有效去除电力线噪声。直流组件(0 Hz)也被删除。图1b显示了去除电力线噪声后30秒窗口的STFT许多分类任务面临的一个挑战是数据集的不平衡;也就是说,一个类中的实例比其他类中的实例多(Branco et al., 2016)。癫痫预测也遇到这个问题;例如,在Freiburg医院数据集中,每个患者的治疗期间与治疗前的比率在9.5:1至15.9:1之间。
为了克服这个问题,我们在训练阶段使用重叠采样技术生成更多的预设片段。特别是,我们通过在预设时间序列脑电图信号的每一步S上沿着时间轴滑动30秒窗口来创建额外的预设样本用于训练(见图2)。每个受试者选择S,以便我们在训练集中每个类(预设或间隔)有相似数量的样本。
2.3. Convolutional neural network卷积神经网络
cnn被广泛用于计算机视觉和自然语言处理(Krizhevsky等人,2012;Sainath等人,2013年)。在这项工作中,我们使用一个CNN与三个卷积块,如图3所示。每个卷积块由一个批处理归一化、一个具有整流线性155单元激活函数的卷积层和一个最大池化层组成。批处理保证卷积层的输入具有零的均值和单位方差。第一个卷积层有16 n × 5 × 5个核,其中n为EEG通道数,步幅为1 × 2 × 2。接下来的两个卷积块分别有32和64个卷积核,它们的核大小都是160,为3 × 3,步幅为1 × 1,最大池化范围为2 × 2。在三个卷积块之后是两个完全连接的层,sigmoid激活和输出大小分别为256和2。前者全连接层使用sigmoid激活函数,后者使用soft-max激活函数。两个全连接层的dropout率都为0.5。模型是在Python 2.7中使用Keras 2.0和Tensorflow 1.4.0后端实现的。该模型被配置为在4个NVIDIA K80显卡上并行运行。
由于可用的数据集有限,防止CNN过度拟合数据是很重要的。首先,我们保持CNN架构的简单和浅如上所述(Ba & Caruana, 2014)。其次,我们提出了一种防止神经网络训练中过拟合的方法。一种常见的做法是随机分割20%的训练集作为验证集使用。在每个训练周期之后,对验证集计算损失和/或准确性,以检查网络是否开始过拟合训练集。这种方法适用于不涉及时间信息的数据集(例如,用于分类任务的图像)。对于发作预测,我们需要使用不同于训练期间的样本,以监测模型是否开始过拟合数据。在这项工作中,我们从训练集中的前期和间期记录中选择25%的后期样本用于监测,其余样本用于训练(见图4)。
2.4. Postprocessing后处理
在间期出现孤立的假阳性是很常见的。使用离散时间卡尔曼滤波器可以有效地减少这些孤立的错误预测(Park et al., 2011)。在这项工作中,我们提出了一个简单的方法,称为k-of-n,只有当最后n个预测中至少有k个预测为正时,才会设置警报。我们的实验表明,k = 8和n = 10是有效预测的较好选择。这意味着,如果在过去的300秒内,至少240秒导致了一个积极的预测,那么就设置了警报。
2.5. System evaluation系统评价
在评估灵敏度和FPR等性能指标之前,需要定义发作预测水平(SPH)和发作发生期(SOP)。在这项工作中,我们遵循Maiwald等人(2004)提出的SOP和SPH的定义(见图5)。SOP是预计发作发生的间隔时间。从告警到开始执行SOP的时间间隔称为SPH。为了正确的预测,癫痫发作必须在SPH之后并在SOP之内。同样,当预测系统返回一个阳性结果,但在SOP期间没有发生发作时,就会发生假警报。当警报发生时,它将一直持续到SOP结束。敏感度被定义为即预测正确的发作率除以发作总数。FPR定义为每小时误报次数。
对于临床使用,SPH必须足够长,以允许足够的干预或预防措施(SPH也称为干预时间;Bou Assi等人,2017)。相反,SOP不应过长,以减少患者205焦虑。SPH和SOP的定义不一致,使方法之间的基准比较困难和混乱。Park等人(2011)报道使用30分钟的SPH,但从他们的解释来看,他们隐含使用的是0分钟的SPH和30分钟的SOP(即,如果在癫痫发作前30分钟内的任何点11出现警报,则被认为是成功的预测)同样,Zhang和Parhi(2016)对SPH给出了不同的定义:警报和癫痫发作之间的间隔。
用于测试所提出方法的指标是灵敏度和FPR, SPH为5分钟,SOP为30分钟。为了获得一个可靠的评估,我们对每个受试者采用了一个省略的交叉验证方法。如果受试者有N次发作,(N−1)次发作将用于训练,剩余的发作将用于验证。这一轮要进行N次,所以所有的查封只用于验证一次。区间随机分为N个部分。(N−1)部分用于训练,其余部分用于验证。(N−1)部分进一步划分为测试和训练集,以防止过拟合,如图4所示。
我们还比较了我们的方法的预测性能与非特异性随机预测。给定一个FPR,在SOP中报警的概率可以近似为(Schelter et al., 2006)
我们通过使用患者的FPR和我们的方法预测的癫痫发作次数(m)来计算每个患者的p。如果p小于0.05,我们可以得出结论,我们的预测方法明显优于随机预测器在显著性水平0.05。
3. Results
在本节中,我们使用三个数据集来测试我们的方法:(1)弗赖堡医院iEEG数据集,(2)CHB-MIT sEEG数据集,以及(3)美国癫痫学会发作预测挑战iEEG数据集。我们在计算本工作中的所有指标时使用了30分钟的SOP和5分钟的SPH每一叠留一交叉验证执行两次,并报告平均结果和标准偏差。表2总结了Freiburg医院iEEG数据集的癫痫预测结果。预测敏感度为81.4%(即59例癫痫发作中有48例成功预测)。FPR在0.06/h时非常低。我们的方法在CHB-MIT240 sEEG数据集上实现了81.2%的相似灵敏度,但FPR更高,为0.16/h(见表3)。这是合理的,因为sEEG记录往往比iEEG本身更嘈杂。对于美国癫痫学会癫痫预测挑战数据集,总体灵敏度为75%,FPR为0.21/h(见表4)。值得注意的是,我们的方法在除电力线噪声去除外不使用任何降噪技术的情况下,可与iEEG和sEEG记录相比较。
表2:用弗莱堡医院间歇期脑电图数据集获得的癫痫预测结果。模型执行了两次,并报告了具有标准差的平均结果。癫痫发作时间(SOP)为30分钟,癫痫发作预测水平(SPH)为5分钟。计算每个患者最坏情况下的p值;即灵敏度最小,错误预测率(FPR)最大。对于除Pat14外的所有患者,我们的癫痫预测方法比非特异性随机预测器取得了明显更好的性能,而Pat14的卷积神经网络结果仅略优于随机预测器。
表3:用波士顿儿童医院-麻省理工学院头皮脑电图数据集获得的癫痫预测结果。模型执行了两次,并报告了具有标准差的平均结果。癫痫发作时间(SOP)为30分钟,癫痫发作预测水平(SPH)为5分钟。计算每个患者最坏情况下的p值;即灵敏度最小,错误预测率(FPR)最大。对于除Pat9外的所有患者,我们的癫痫预测方法比非特异性随机预测器取得了显著更好的性能,而Pat9的卷积神经网络结果仅略优于随机预测器。
表4:用美国癫痫学会癫痫预测挑战数据集获得的癫痫预测结果。模型执行了两次,并报告了具有标准差的平均结果。发作发生周期(SOP)为30分钟,发作预测水平(SPH)为5分钟。计算每个参与者的最坏情况的p值;即灵敏度最小,错误预测率(FPR)最大。对于5只狗中的4只和Pat1,我们的癫痫预测方法明显优于非特异性随机预测方法。
表5展示了近期癫痫发作预测方法和这项工作的基准。要判断哪种方法是最好的是很复杂的,因为每种方法都是用一个数据集进行测试的,数据量有限。换句话说,一种方法可能在一个数据集上表现很好,而在另一个数据集上表现很差。因此,我们增加了一个额外的指标,即是否在所有患者中应用相同的特征工程或特征集,以评估每种方法的泛化性。从临床角度来看,有足够长的SPH是可取的,以允许有效的治疗干预和/或预防。然而,SOP应该是简短的,以减少患者的焦虑(Maiwald255等人,2004)。一些隐式使用零SPH的研究忽略了临床考虑,因此可能高估了预测的准确性。
Park等人(2011)提出的方法在Freiburg医院数据集的18名患者的测试中达到了98.3%的极高灵敏度和0.29/h的FPR。我们的方法产生较低的灵敏度为81.4%,但更好的FPR260为0.06/h。值得注意的是,SPH被隐式设置为零,这意味着在接近或在癫痫发作时的预测可以被视为成功的预测。同样,Zhang & Parhi(2016)和Parvez & Paul(2017)的研究也暗示了零SPH的使用,这将不与我们的结果直接比较。在265表5中列出的其他研究中,Eftekhar等人(2014)在SOP为20分钟、SPH为10分钟的情况下,具有90.95%的良好预测灵敏度和0.06/h的低FPR。他们对每个患者的特征集进行微调,以实现最大性能。然而,这导致需要足够的专业知识和时间来执行新数据集的特性工程。Sharif & Jafari(2017)将同样的270组特征应用于所有患者,并使用支持向量机进行分类。在Freiburg医院iEEG数据集的测试中,该方法获得了91.8-96.6%的高灵敏度和0.05-0.08的低FPR。然而,没有研究报告成功使用类似的方法在sEEG信号。
4. Discussion
从脑电图信号中提取的频率和时间(同步)域信息已被广泛用于预测癫痫发作。我们提出了一种新的方法来利用脑电图信号的频率和时间方面,而不需要手工的特征工程。脑电图窗口的短时傅里叶变换具有二维特征;即频率和时间。在STFT中滑动一个二维卷积滤波器来收集EEG信号的频率和时间的变化。在训练阶段自动调整滤波器权重,CNN以自动的方式充当特征提取方法。
Khan等(2017)采用连续小波变换(CWT)作为a285预处理步骤,将原始脑电信号的小波变换作为输入美国有线电视新闻网。在本节中,我们将实现相同的CWT,并将其与STFT在癫痫预测性能方面进行比较。跟随可汗等人。(2017),我们应用了一组从20到29的10个尺度和墨西哥帽母小波,然后下采样小波变换的时间轴,使290最终维度为n×10×128。这里我们用接受者工作特征曲线(AUC)下的面积作为比较标准,而不是灵敏度和FPR。AUC是一个无阈值的度量,因此可以直接用来比较不同方法的性能。结果如图6所示。在三个数据集上使用Wilcoxon符号秩检验(显著性295水平为0.05),STFT显著优于CWT, p = 0.0135。
我们使用过采样技术来克服数据集的不平衡。基于同样的目的,成本敏感学习在文献中被广泛使用(Branco等人,2016)。我们通过改变成本函数来应用成本敏感学习,即每个患者的前期样本的错误分类成本为300乘以前期样本与前期样本的比值。我们使用STFT作为代价敏感学习的预处理步骤。结果如图6所示。尽管与成本敏感学习相比,我们的过采样技术在应用于三个数据集时并没有带来显著的改进,但我们认为,我们的过采样技术是解决由时间序列数据集不平衡引起的过拟合问题的一种更直观的方法。
表2和表3显示,除了Freiburg医院数据集的Pat14和CHB-MIT数据集的Pat9外,我们的预测方法显著优于所有患者的非特异性随机预测器。值得记住的是,弗赖堡医院数据集由iEEG记录组成,而CHB-MIT数据集由sEEG记录组成。换句话说,我们的方法适用于两种类型的脑电图信号。对于美国癫痫学会癫痫发作预测挑战数据集,我们的方法在5只狗中的4只(见表4)和315 Pat1上的表现明显优于随机预测。
由于发作特征可能随时间而变化,因此有必要对发作预测算法进行校准。最小特征工程具有很大的优点,它不需要专家为预测任务仔细地提取和选择最优特征。因此,它允许更快和更频繁的更新,使患者能够从发作预测算法中获益最多。此外,最小特征工程使得更多的患者可以进行癫痫预测。由于特征提取任务由CNN承担,神经生理学家和临床工作人员可以花更多的时间监测和记录EEG信号,用于诊断目的和/或训练数据收集我们的方法可以通过非脑电图数据(如癫痫发作时间信息)进一步改进。癫痫发作已被证明在不同时间间隔的分布上有偏差,可长至1年或短至1小时(Griffiths & Fox, 1938)。重要的是,格里菲斯和福克斯(1938)在他们的数据集中发现,在日出、中午、330和午夜前后癫痫发作的发生率更高,该数据集共有101名患者,共有39,929例癫痫发作。然而,这种模式是因人而异的。采用同样的观察,Karoly等人。(2017)利用这一模式显著改进了他们的癫痫预测系统。不幸的是,本文研究的三个数据集不够大,无法评估时间信息是否有用,因为每位患者最长记录时间为3天。尽管如此,在CHB-MIT数据集中,我们仍然有必要了解癫痫发作的发生率在患者中是如何在一天内分布的,这是我们可以访问癫痫发作发生时间的唯一数据集。根据CHB-MIT的数据,清晨的发病率最高,下午4点和凌晨340 - 2点左右有两个较低的峰值(见图7)。
5. Conclusion
在过去的四十年里,人们对癫痫发作的预测能力进行了研究和改进。目前还没有完美的预测,但根据目前的预测性能,似乎有可能向患者提供警告,以便他们为自己的安全采取一些预防措施。我们提出了一种利用最小特征工程的CNNs的新方法。该方法对iEEG和sEEG数据均具有良好的泛化效果。这使21名患者有机会拥有癫痫预测设备,帮助他们拥有更可控的生活。