蛋白质折叠(Protein Folding)问题被列为“21世纪的生物物理学”的重要课题,它是分子生物学中心法则尚未解决的一个重大生物学问题。蛋白质可凭借相互作用在细胞环境(特定的酸碱度、温度等)下自己组装自己,这种自我组装的过程就是我们所说的蛋白质折叠。
但是目前科学界面临的障碍是,蛋白质可在短时间中从一级结构折叠至立体结构,研究者却无法在短时间中从氨基酸序列计算出蛋白质结构,甚至无法得到准确的三维结构。从一级序列预测蛋白质分子的三级结构并进一步预测其功能,是极富挑战性的工作。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/S11045289.jpg)
图片是折叠之前和折叠之后的蛋白质。折叠过程开始于一个不稳定的随机线圈的状态,结束在其原生状态。
研究蛋白质折叠的过程,可以说是破译“第二遗传密码”——折叠密码(folding code)的过程。结构决定功能,仅仅知道基因组序列并不能使我们充分了解蛋白质的功能,更无法知道它是如何工作的。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/S11045295.png)
Folding@Home采用马尔可夫状态模型,可能的形状和折叠途径的蛋白质可以作为凝聚于其初始随机卷曲状态(左)在其本土的三维结构(右)。
第十三届国际生物物理大会上,诺贝尔奖获得者Ernst在报告中强调指出,目前的NMR核磁共振成像技术已经能够在秒到皮秒的时间域上观察蛋白质结构的运动过程,其中包括主链和侧链的运动,以及在各种不同的温度和压力下蛋白质的折叠和去折叠过程。这是可喜的进步,但是显然蛋白质折叠时间还需要突破性延长。
如果蛋白质没有正确地折叠,将会使人得很多病症,如阿兹海默症(Alzheimer's)、疯牛病(Mad Cow/BSE)、可传播性海绵状脑病(CJD)、肌萎缩性脊髓侧索硬化症(ALS)、帕金森氏症(Parkinson's),特别是一些癌症正是一些细胞内的重要蛋白发生突变,导致蛋白质聚沉或错误折叠而造成的。因此,深入了解蛋白质折叠与错误折叠的关系对于这些疾病的致病机制的阐明以及治疗方法的寻找将大有帮助。
阿兹海默症(Alzheimer's)
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/S11045301.jpg)
比如阿尔茨海默病,这是一种无法治愈的神经退行性疾病,通常影响老年人占一半以上的痴呆症,其确切原因尚不清楚,但疾病被确定为蛋白质的错误折叠疾病。这种病的致命机理是:β淀粉样蛋白(一种有毒的聚合相关的β)肽,由β错误折叠和聚集在一起和其他β肽而引起。
图片是与β-淀粉样蛋白片段在脑中的聚集(右)。研究人员利用Folding@Home来模拟这种聚集的过程中,以便更好地理解这种疾病的原因。
癌症(Cancers)
一半以上的所有已知的癌症都涉及到突变的p53基因,肿瘤抑制蛋白中的每一个细胞,调节细胞周期和信号在DNA损伤的细胞死亡的事件的现。在p53突变可以破坏这些功能,允许一个异常细胞继续生长抑制,导致肿瘤的发展。这些突变分析有助于解释p53相关癌症的根本原因。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/S11045305.png)
2004年,Folding@Home用一个全原子模拟进行p53的蛋白二聚体的复性分子动力学研究,仿真结果与实验结果一致。这是第一次在医学领域的行业专业出版物上,从分布式计算项目中得到关于癌症研究的成果。
次年,Folding@Home通过一种新的方法来识别与氨基酸的稳定至关重要的蛋白质,这项成果也用于研究p53基因突变。该方法在识别癌症的突变,确定特定的基因突变等方面,获得的科研成果相当成功。
从更广泛的层面上,快速生长的癌细胞依赖于特定的分子伴侣,有些伴侣在化疗耐药中发挥关键作用。抑制这些特定的分子伴侣,被视为有效的化疗药物潜在的行动模式或减少癌症的扩散。Folding@Home也可用于研究蛋白质的分子伴侣,热休克蛋白中发挥重要作用的细胞存活的协助,与细胞内的拥挤和化学压力的环境中其它蛋白质折叠。
除了阿兹海默症和癌症,Folding@home项目的使命正是通过蛋白质折叠模拟计算,寻找致病机理。随着更多志愿者的计算机加入,此项目计算的速度就越快,就会计算出蛋白质在更长时间内的折叠,距离科学家找到最终答案也就越来越近。
Folding@Home项目计算原理分析
蛋白质折叠计算分为热力学和动力学两大部分,这里的动力学是指分子动力学(也包括反应动力学),热力学是指反应热力学,其中,反应热力学描述反应趋势和方向,反应动力学描述反应过程。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/S11045309.jpg)
Folding@home项目属于一般的蛋白质折叠模拟,它仅涉及分子动力学,通常都是把原子视为刚体,然后计算这些刚体之间的力学关系。
而Folding@home项目忽略的热力学部分,可以被模拟的通常都是热量、能量以及混乱度。为什么该项目会忽略这部分计算?因为热力学计算本身简单,计算量也不大,难点在于模型选择和热力学参数的确定。
热力学参数的确定,也就是各种边界条件,是Folding@home项目常用的区分各种任务包的方式。如果温度在某个任务包中存在变化,而且是线性变化或者是在设定区间内出现非设定的随机变化,那就要上各种热力学相关的计算了。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/s_c11ef8e1d12540a69be219bb4a5c1801.png)
Folding@home项目的热力学参数通常只有温度,会影响反应进程,但这些过程在folding里通常会被直接转化成力学关系的变化。归根结底,Folding@home项目基于GROMACS计算引擎的,是一个力学主导的分子动力学模拟,它的特点就在于支持大规模分布式计算。
Folding@home所研究的是人类最基本的特定致病过程中蛋白质分子的折叠运动。项目的核心原理,在于求解任务目标分子中每一个原子在边界条件限制下由肽键和长程力等作用所导致的运动方程,进而达到实现模拟任务目标分子折叠运动的目的。
每一个原子背后都附庸这若干个方程,每一个方程都可以转换成一组简单的向量指令。同时由于长程力的影响,条件分支也随处可见,对GPU Shader灵活度的要求很高,Folding@home在GPU使用量上也要大于图形编程。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/s_62cce8fec9ca4b8da13de034c27c2af4.png)
目前每一个Folding@home项目任务仅仅只对应一个恒温过程,那么温度的影响通常就已经在计算开始之前,被人为转化成力学反应固化进算法了,这种情况下自然也就不涉及独立的热力学计算过程。我们知道,恒温过程在现实是中不可能的,但是在计算中很普遍,Folding@home项目过去的任务包都是恒温过程。
之所以会这样,是因为模拟过程的变化参量越多,项目编程者就越要付出更大的努力维持体系的稳定和准确,这对编程者的要求会增加过于明显。所以这是该项目的一个现实缺陷,或者说由于条件所限尚未完善的部分。
今天大家应该获得了一个基本的认知,我们将自己热爱的Folding@home项目,映射到分子动力学领域。
Folding@Home项目关联性分析
基于BOINC分布式计算平台的Rosetta@home和独立平台的Folding@home两者想要解决的,是很不同的问题。
Rosetta@home着重蛋白质完成折叠后的最终状态,并非折叠的过程,而且也不会探究折叠可能出现的错误。他们的研究方法,对我们感兴趣的问题和要对付疾病(例如阿兹海默症),也没有帮助。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/S11045315.png)
用电脑去准确预测蛋白质的结构,比起进行真正的实验,仍是更艰难的,而从Folding@home所获得的有关蛋白质折叠和误折的数据(例如速度、能量)是和实验结果相符合的,也告诉我们更多实验不能发现的东西。Rosetta@home虽然已进行了很长时间,也取得一些很可观的成果,但当要在Rosetta@home预测的结构和晶体结构(crystal structure)之间选择时,都会选取晶体结构。因为他们的努力,我相信这将会改变,但要这梦想成真,还有一段很长的路要走。
因此,两个计划都很有价值,但处理的却是不同的问题。有些人误以为Folding@home是关于预测蛋白质的结构(其实并不是,这是Rosetta@home的专长),Rosetta@home是研究与蛋白质折叠错误相关的疾病(其实并不是,这是Folding@home的专长)。
从计算原理来讲,Folding@home项目一直都是震动过程而不是装配过程,基于BOINC分布式计算平台的Rosetta@home项目是装配计算。装配通常指的是多分子团之间进行反应并进行官能团或者其他离子交换。
而Folding@home项目的震动计算,指的是蛋白质分子在特定环境下自身的变化。
从计算精度来看,即便FAH有多方反应的任务,比如说之前有跑过病毒RNA展开域与宿主细胞关系的任务,那也是把过程转化成被模拟分子收到强烈外来力学刺激,而不是与实际的第三方分子进行互动。不过这种反应过程通常也有折叠,确切的说应该是Folding@home项目的计算结果更精确一些。Folding@home项目可以定量模拟,但需要提供预设好的模型做基础,Rosetta@home项目给出的更多的结果是“可能性模型”,这些模型能够拓展研究方向,但需要进一步校验。确切的说,我们还没有找到能够正确模拟的有效方法。Folding@home项目和Rosetta@home项目都是人类在蛋白质折叠方面的艰辛探索。
Folding@home项目目前是世界上最大的分布式计算项目,于2007年为吉尼斯世界记录所承认,截止目前有超过百万人参与项目并提交成果,它的计算能力总和也能达到全球超级计算机TOP10水平。同时该项目也是AMD和NVIDIA等GPU厂商最早参与推进的分布式计算项目,这让项目进程大大加快,用户参与更加方便。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/S11045323.png)
Folding@home项目汇聚的计算能力,已经超越2012年底排名第二的超级计算机
Folding@home专注于精确地模拟蛋白质折叠和错误折叠的过程,以便能更好地了解多种疾病的起因和发展,包括部分癌症、阿兹海默症(老年失智症)、牛海绵状脑病(疯牛病)、囊胞性纤维症,并将所有计算成果和论文公开发表。到目前为止,Folding@home已成功模拟5-10微秒的折叠过程,超出先前估计可模拟的时段数千倍。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/c3b1290b682f4ef3aef28e3960fb8318.png)
如此热门,AMD、NVIDIA也在该项目上争斗了很久,其中AMD是率先加入支持的,在专业玩家心目中提高了自己的地位,不过NVIDIA后来大力发展CUDA技术进行优化,FAH成绩得以飞速提升。AMD、NVIDIA的加入使得该项目迅速成为分布式计算的热门,TechPowerup、HardOCP、EVGA等机构、媒体、厂商都是该项目的重要参与者,中国团队也曾今取得过PPD(每日项目得分)第五名的成绩。
现在请和我们一起,下载安装运行Folding@home客户端,让你的CPU和GPU不再停歇,让人类距离重大疾病的攻克进程不断推进。
1、下载
官方网站:
https://fah-web.stanford.edu/projects/FAHClient/wiki/BetaRelease
选择你的操作系统所对应的客户端。本次仅以Windows客户端(Win7系统)下GPU+多核心CPU共同运行做演示。
2、安装
双击安装程序。点击“next”和“I agree”。(不再截图)
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/11045328.png)
鉴于项目会占用500MB到2GB的硬盘空间,所以可以不放在C盘。建议点击“Custom install”自定义高级安装模式。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/11045330.png)
为了运行方便,建议选择“Install for anyone using this computer”为使用这台计算机的所有用户。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/11045333.png)
在选择完两个路径之后(不再截图),进入开机启动页面,建议选择第一项“Automatically start at login time”开机自动启动。下面的选项是屏幕保护程序,也可以选择。
3、运行
双击桌面图标后,程序会自动运行,此时可以忽略弹出的网页控制器,进入程序控制器。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/11045334.png)
在任务栏右下角,鼠标右键单击图标,选择Advanced Control,进入控制页面。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/11045337.png)
在我的机器上,有几次点击主程序无反应,如果你也遇到同样情况,可以在开始菜单中,点击FAH Control,进入控制页面。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/S11045340.png)
在项目连接状态变成绿色(Online)之后,就可以点击上方的设置按钮。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/S11045348.png)
第一次使用,会主动弹出窗口问你是否设置,选择Configure Identity即可进入设置。
接下来我们将填入用户名、团队代码、Passkey、硬件设置等参数,让你的电脑变成分布式计算节点的一部分,它就是一台准超级计算机。
4、项目设置
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/S11045356.png)
首先填入用户名。请填入一个自己喜欢的,区别于别人的名称,否则成绩将记录在别人名下。
然后填入团队代码。推荐大家填写3213(China Folding@Home Power中国队)。
最后填入Passkey。它可以让你升级成高级用户,获得FAH项目组提供的CPU、GPU奖励分。
新人没有Passkey,所以需要申请一个,点击Click here……,就可以在官方网站上申请。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/s_fa72fc37d1764745af2c156b9ccd3040.png)
如图,填写你的用户名,还有邮箱,点击Get Passkey即可获得。快去邮箱找到它,然后输入到客户端。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/S11045364.png)
Slots这个选项卡,是专门为硬件参数而设置的。
想用GPU参与该项目的用户,请点击Add,添加一个GPU客户端。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/S11045372.png)
参数默认即可,但是要做如下小设置。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/S11045381.png)
点击下方的Add,在弹出的小窗口中,加入参数“client-type”、“advanced”。这样你的GPU就可以获得得分最高、最新的Core17内核程序任务包。
想用CPU参与该项目的用户,请点击Add,添加一个CPU客户端。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/S11045389.png)
如图,输入你的CPU线程数,如AMD X4 640,输入4即可,如果你是Intel 4核心8线程的CPU,则输入8。
设置完成之后,别忘记点击Slots选项卡右下角的Save,保存这些繁琐的设置。
5、开始运行
恭喜你,如果主界面显示全部为绿色,无论是Running还是Ready,都表示设置成功,客户端需要联网下载计算内核,然后开跑。
但是有两点注意:
1、一定要把计算密度拉到Full(最高),GPU才会启动计算。
2、一定要申请、填写Passkey,否则不会得到官方奖励分。
![分布式计算蛋白质折叠有何科学意义?](/img/20131128/s_c9daa2a93b6342128de8dbb5ebca4add.png)
这是我的机器,X4 640 3.6GHz+GTS450,CPU 4个内核和GPU都投入了运算,可以获得大约5000+7000分PPD。
需要说明的是,CPU的PPD是增加了奖励分之后的(输入Passkey的用户,都会获得奖励分,但是奖励分算的越快得分越高)。
未来就可以用这个界面来监控项目运行情况,关闭该界面,项目在后台也是运行的。
在开始运行之后,这台计算机将计算完成每个任务包,然后传递给项目方,你的得分将累计在用户名下,同时累计在3213中国团队下。
Folding@home项目的使命正是通过CPU和GPU参与蛋白质折叠模拟计算,寻找致病机理。
随着更多志愿者的计算机加入,此项目计算的速度就越快,获得的蛋白质折叠模拟时间就越来越长,就会计算出蛋白质在更长时间内的折叠,距离科学家找到最终答案也就越来越近。
|