|
后记
正文已经结束了,在这里还想罗嗦几句,那就是一些棘手的问题:
1.特征选择与参数调优。这个前面已经提到了。
2.个体间差异带来的性能恶化。不知道你发现没有,前面的算法中,我们是把所有提取到的心拍放在一起,然后再划分训练集和测试集的,没有考虑个体差异问题。也就是说,来自相同病人的心拍是可以同时存在于训练集和测试集中,这样使得我们的结果都很好看,很多的国内外论文也是这么做的。但是,这与实际场景似乎有些不符合,实际场景中,我们已经得到的有标签的数据来自一些旧的病人,而我们需要根据这些数据的规律去预测新的病人。这时,个体差异性的影响会体现出来,使得我们在旧病人数据上训练的模型,难以有效泛化到新病人的数据。解决这个问题是很困难的,但目前还没有一个系统化的方案。
3.数据稀缺。医疗数据不像普通的数据那样容易获取,并且涉及到个人隐私问题。目前,包括ECG在内的智能医疗领域,还没有像计算机视觉领域imagenet那样公认的,有影响力的“大”数据集,这也限制了这个领域的发展。
4.可解释性差。目前大受欢迎的神经网络系列模型为“黑盒”模型,虽然取得了良好的性能,但是模型的内在原理一直无法解释。这对医疗领域的影响尤其明显,毕竟一个可解释的诊断结果才更令人接受。
5.……
问题可能还会有很多,但对于我们这些初级研究者来说,可能第1,2点是我们可以有所作为的。我们可以改进模型,可以提出更有针对性的优化方法等
等。而数据稀缺和可解释性差的问题,可能只能由那些有影响力的大牛解决了。想要有更全面的了解,可以阅读下面的文献:
*Ravì, Daniele, et al. "Deep learning for health informatics." IEEE journal of biomedical and health informatics 21.1 (2017): 4-21.
*Miotto, Riccardo, et al. "Deep learning for healthcare: review, opportunities and challenges." Briefings in bioinformatics (2017).
搞研究不易,且搞且珍惜……头发。
祝顺利。
|
|