脑科学新领域:神经科学+大数据
神经科学研究,俗称“脑研究”,在“大数据”概念出来的多年前就已经用上了一些大数据研究的方法了,所以,作为神经科学家,QY球友会对“大数据”早就非常熟悉了。这里谈一下我个人对于神经科学领域大数据的一些想法。
大家要问,神经科学领域都有哪些大数据呢?这里,最明显不过的如“成像”数据,像功能性核磁共振(fMRI)、弥散张量成像(DTI)、电压敏感染料成像(VSDI)等实验的数据;还有使用多通道技术获得的的长时间的电生理数据,如多道EEG、胞外多通微电极记录、微电极阵列(MEA)记录等实验的数据。
这些数据的特点一是数据文件体积庞大,在2003年的时候就可以轻易超过1G(脑电生理数据),或者是在计算机内存中进行计算的时候会超过4G,以至于必需使用64位操作系统。第二个特点是使用单个CPU计算时需要很长时间,像2003年即使200M大小的脑电生理数据,使用当时的单核计算机做时频谱分析,一个数据文件的计算时间通常都要超过2个小时。
在目前多核计算机平台下进行计算,对于需要进行复杂计算的数据,大多数专用的神经科学分析软件暂时还不支持并行计算,有些通用的软件如Matlab已经可以支持OpenMP和CUDA两种模式的并行计算,但前提要求是使用者必须懂得计算机编程,尤其像CUDA模式更是如此。
目前国内的神经科学计算还很少有人用到超级计算机(以下简称“超算”),使用超算多少有些麻烦,主要原因是还没有比较成熟的软件(无论商业还是开源软件)可以让一般的神经科学家像使用Excel一样方便地使用那样的并行软件。即使在桌面领域,支持OpenMP和CUDA的神经科学专用计算软件也很稀少。但是这样的局面不会保持太久,估计在2020年之前这样的软件就会比较普及。
并行计算软件的普及对于研究者来说是很重要的,因为没有金刚钻就揽不了瓷器活。但除了软件之外,更重要的怕是对于神经科学数据的理解、分析能力了。这一点可不是一个人或是某个领域的人就可以干得下来的活,要完成这种研究,必须有数学、信息学、神经生物学等多个领域的专家联合起来对某个专门的问题进行集中、深入的研究方可。这种多学科联合不是那种“要钱”的松散联合,而是为了解决一个实际问题必须要进行的实质性联合,也许现有的国家科研体制暂时还不支持这种联合,但只要不是“为了发文章而合作”,相关领域的科学家应该还是可以联合在一起潜心进行研究的,目前自然科学基金也支持这种研究。
大数据的核心问题在于如何挖掘与相关领域有关的科学规律,所以这种挖掘不能仅靠所谓的“数据科学家”,因为大数据通常都是和某个具体科学领域有关,或者和某个具体的科学问题有关,因此,除了数据科学家之外,实验学家和理论学家都需要参与数据的挖掘工作,这是一个综合性很高的系统工程。
大数据概念诞生到现在还不到5年,但是神经科学家为了揭开脑功能的奥秘,和大数据打交道已经10年以上了,像2005年欧洲发起的“蓝脑计划(Blue Brain Project)”使用显微镜和膜片钳技术以及超算从一小片脑片研究开始,直到最近几年IBM用超算和专门芯片来模拟大脑为止,神经科学领域对于大数据的理解和其他领域相比要更加深入。
对于神经科学领域的研究人员来说,无论是小到分子水平还是大到行为水平方面的研究,迟早都要和大数据打交道,所以,掌握一些必要的数学、计算机编程的知识对于今后事业的发展是会有所帮助的。