（转）如何成为顶级生物信息学家？

时间：2017-01-09 16:43:20 阅读：227 评论：0 收藏：0 [点我收藏+]

每过一段时间就要读一遍，看看自己现在到底在哪个等级了。

前几天去南京参加两年一度的全国大会CCBSB2014，今年是第六届，见到许多熟识的前辈和老朋友，也结识了不少新朋友。相比于两年前在哈尔滨开的第五届大会，参会人数又多了100多。连大会特邀报告算上，总共76位学者做口头报告，其中30位学者我之前并不认识，这个比例正好是40%。领域里的大会小会，无论何时、何地，总有约40~50%的学者我不认识，这个比例近年来恒定不变，咱生信领域发展速度之快，由此可见一斑。70多位学者的报告所涉及的研究方向，大概至少有60多个，两位或者多位学者从事一个小的研究方向的现象，非常少见。昨晚和有11年交情的好友一起吃饭，大家回忆十年前国内生信开大会的场景，想了半天庆华来一句：那会儿大家好像没啥可以做的，哪像现在这么多问题啊！所以咱生信领域现在真实的场景是：火打着，油门踩到底，档挂到顶，一望无际的荒原，使劲的狂奔，一往无前；有条件的开法拉利，没条件的开乐驰，实在没条件的蹬个三轮儿也行，反正地盘儿有的是，谁抢着算谁的。兄弟我对这一现象总结：圈地运动。讲这儿估计有人不高兴了：你们生信咋做的这么散呢？这个不是咱生信想做的散：问题实在太多，又不缺数据，自己感兴趣的问题都没解决，哪有时间管人家的东西啊？使劲儿的冲就得了。至于即将毕业，或者刚毕业的同行兄弟们，也别觉得没肉吃了，大家就算这么裸奔，也远没有涵盖生信所有的方向，并且一般一个小领域往少了说能容纳10位学者不算挤，那咱这领域的规模扩大10倍也照样容得下。所以咱在这儿说一句：欢迎加入圈地运动（要不改成“生信欢迎您”？）。

***************************************************************************

讲完废话讲正事。话说八号晚上参会的学者们开了一个“青年沙龙”，形式很活泼，讨论了各种问题，其中忘记谁提了个问题，大致就是怎么评价生物信息学者的水平。大家七嘴八舌说了半天，最后Shirley做总结，众人一听，有道理。所以回来之后Shirley就写了篇博文《Levelsof Bioinformatics Research》，建议同行兄弟们读读，推荐指数五星。因为咱生信算是比较新的研究领域，又是交叉学科，一般来说正统搞计算的觉得你在方法上没贡献，搞生物的又觉得你其实也就是个修电脑的。话说到这，电话铃儿响了，二楼打电话让过去看一下电脑咋黑屏了。好嘛，蹬蹬蹬跑下楼，围着电脑琢磨了半天，明白了：插头没插紧。摆平，回办公室。因此交叉学科评价这是个问题，哪边儿都不讨好，给个酱油级的评价那已经算是给面子了。所以同行评议才合理，好在咱生信现在人也不少，建立同行评议的机制并不困难。兄弟我写博客属于踩西瓜皮式的写法，滑哪儿写哪儿，这篇咱尽量忠于Shirley的原文，不改主要的观点。

如何成为顶级的生物信息学家？看你的研究。所以Shirley将生物信息学研究（注意，不是生物信息学者本人）的水平划分成五个层次。此外，Shirley不区分生物信息学（Bioinformatics）和计算生物学（Computational biology），因此这两个概念不做区分。在这里咱再重复一遍，生物信息学和计算生物学的区别，就是西红柿炒蛋和蛋炒西红柿的区别，您要觉得有区别，那看我嘴型：呵呵。

0级 (Level 0)：为建模、而建模（modeling for modeling’s sake）。简称：渣级。Shirley在博客里提到说“如果你记得功夫熊猫”，问题是我没记得这个，脑子里想的是《憨豆的黄金周》里那段nothing, nothing, nothing… 原博举的例子是，之前有人问：现在数据这么多，能建模的东西一大把，那我们该干点啥呢？Shirley就问：你想解决啥问题？答：建模的问题。这就像我坐电梯看见认识的研究生，说小伙最近忙啥呢？答：做水稻呢。继续问：具体研究的啥？不高兴了，诧异：研究水稻啊！然后给我解释了半天中国要研究水稻的必要性。我…兄弟我每天吃米饭还固定要研究水稻三遍呢。原文解释，这个回答是OK的，如果科学家仅仅将自己当成数学家、统计学家、计算机科学家、物理学家，或者像我这样用嘴巴研究水稻的吃货，因为在这些学者各自的领域里，确实有许多好的理论建模问题。但如果这些学者是认真对待生物信息学的研究，这个回答不OK。许多0级生物信息学家们从来不读或者不发表生物学期刊上的论文，也不参加生物学的会议，因此这个级别属于“未入门级”。根据人以类聚，物以群分的原则，0级生物信息学家们通常只阅读自己或者其他0级生物信息学家的论文，并且，并且引用也是自引或者被同级别的学者引用。因此这类研究就是浪费资源。

1级（Level 1）：给数据、能分析。简称：菜鸟级。这类研究一般是分析自己或者合作者实验室里未发表的数据，并试图获得新的生物学发现。相比与0级，这已经有很大的进步，并且是训练生物信息学者最好的途径之一。可以练习将已有的生物信息学技术来做出真正生物学发现的技巧，学习更多的生信技术和生物学知识，可以启发、衍生出2级和3级的好课题。评价1级科研的功底和水平要看数据有多复杂, 是否需要生信人员写一些程序和算法（而不是只用他人的工具），生信分析在整个研究中的有重要性 (最重要的假设发现是不是由生物信息分析出来的，文章中生信图表的个数)，实验与计算的结合程度（实验与计算环环相扣，而不是高通量实验数据获得完跟个生信分析就拉倒），以及研究中生物学的发现是不是真的有意思，等等。因此兄弟我的看法是，1级虽然是“入门级”，但非常非常重要，所有生信专业研究生的必经之路，非生信领域的学者或学生，能达到1级中已可算是高手，进阶到1级上那就是凤毛麟角了。

2级（Level 2）：想新招、玩数据。简称：肉鸟级。具有2级水准的生信研究有：1) 设计方法解决生物医学相关大数据分析中普适、定量的问题。比如咱生信课本里经典的用于双序列比对的Smith-Waterman算法等等；2) 设计算法来分析新的高通量技术所获得的数据，例如华大基因设计的用于二代测序短读段 (read) 映射到基因组上的SOAP系列工具，这就是典型的2级工作；3) 从各种公共数据中通过整合建立数据库或数据资源。这个太多了，生信领域各种专业、精心注释的数据库，都属于2级的研究。2级比1级高的地方，在于1级只能帮助一个实验室或者固定的、极有限的合作者，而2级的工作则可以帮助数百甚至数千的生物学家。2级的工作不必须发表在顶级的期刊上，时间会证明一切，比如分子进化领域的经典软件MEGA，每年几千的引用跟玩儿一样。这些方法并不见得必须要非常新，利用已有的统计或者计算方法来解决新的生物学问题已经足够保证其新颖性，但必须尽可能保证用户的友好性。开发者一般在发表之后还需要做非常非常多的工作，比如维护、升级，即使不在发表后续的论文。评价2级的生信研究工作不能数影响因子，但做的好却比较容易被领域认可（例如，华大基因发表NCS对咱搞生信的来说未必认可，但人家的SOAP系列做的肯定是专业水准的）。此外，2级的研究要做的好，生物信息学者一般需要专注于自己特定的方向，从而能够较好地了解领域内相关的、新的计算方法和实验技术。总体来说，国内生信专业的博士毕业，一般起码要做出2级下水平的工作，总得有点儿新玩意儿，不然想毕业几乎是不可能的。而对于非生信领域的学者，从1级进阶到2级几乎是不可能的，咱生信人的饭碗，不是想砸就能砸的了的。所以对于业余票友们来说，与其花精力试图进阶2级，还不如找专业学者合作更划算。

3级（Level 3）：玩数据、作发现。简称：顶级。3级的生信研究一般是整合公共的高通量数据，利用相当精致的方法来做出生物学发现。因此这样的工作一般是从数据开始，实验验证结束。这就需要生物信息学家具有非常扎实的生物学知识，并且能够自己提出有意思的生物学问题。生物信息学家可以领导一个生物学的项目，并且实验学的合作者能够相信预测的正确性以及意义，并乐意开展实验验证。这个级别的研究一般都需要实验验证，不然顶级的期刊不收。对这类工作的评价，主要是看生物学的问题是否有意思，数据整合和分析是否有足够的技巧和合理性，并且也可以根据杂志发表期刊的档次（影响因子）来判断。例如我在《环形RNA分子：论开挂在生命科学研究中的重要性》提到的工作，这是典型的3级研究。从2级进阶到3级很困难，兄弟我目前正在努力中。

X级（Level X）：玩科学、讲政治。简称：神级。在这个级别，生物信息学家要在巨型项目产生的海量数据的整合和模拟中发挥关键作用。做这个级别工作的生物信息学家一般具有良好的1级和2级的研究记录，并且在团队研究中要具有非凡的领导才能。这些工作一般都发表在顶级的期刊，并且引用极好，在研究过程中要注意协调方方面面。尽管有时生信对于这些论文的发表是重要的，但往往数据本身可能比方法更重要。例如期刊判断论文要依据其数据量的大小以及潜在的引用，而不是生信。此外，这类工作更多的是反映第一作者老板们的领导力以及在领域里的地位，而不是第一作者的技术能力和创造力。所以X级论文的第一作者们往往并不会得到足够的认可。因此，这些工作中的一作在独立研究之后，往往是必须建立科学的声誉，并且与之前X级工作无关。学者参加一些X级的生信研究无可厚非，因为这些项目的成员一般在各自领域都是顶级学者。但如果学者只开展或者只发表X级的工作，那就表明该学者在政治方面的关注已经超过科学了。兄弟我举例：典型的X级生信研究工作如艾瑞克?兰德 (Eric Lander) 领衔的人类基因组草图的公布《Initialsequencing and analysis of the human genome》。艾瑞克是第一作者也是共同通讯作者，因为这篇论文主要是他写的，所以数据也自然主要是他分析的。这篇论文影响深远，最重要的就是基本确定了基因组学这类超级项目的研究范式以及论文的书写格式，例如这类论文一般不带后续的实验验证，所以也是有争议。这也就是为什么国内老是讲华大在灌水的原因，第一，华大显然是在灌水；第二，这个灌水模式是老外发明的；第三，那你很容易就能明白，其实老外灌的更狠；第四，你老外自己定的游戏规则，你还玩不过华大，那你得懂“愿赌服输”这个道理。

Shirley总结，对于生物信息学者来说，一般从1级的研究开始，学习基本的生信技术；等到计算和生物学知识掌握差不多之后，可以尝试想2级和3级进阶，并且有可能也参与X级的研究。如果条件允许的话，一般有成就的生物信息学家的研究会从1级做到X级，不会专注某一个级别（所以搞生信研究不能挑食）。也有许多生信学者包括Shirley本人也在开始做实验并且产生实验数据，这样实验的内容要拿去跟实验学家的工作去比，而计算部分则可按照上述五个类别来评价。因此，当您再读基因组和生信的论文，可以带着“这是什么水平的生信工作”这个问题来阅读。尝试客观的评价生信工作，而不是数论文发表期刊的影响因子。

注：本篇博文的观点不代表本人观点，但兄弟我对这些观点表示无比的赞同。从1级到2级，对于生信专业的研究生和教师们来说不难，但2级到3级却极其困难，对于和我年龄相当的同行朋友来说，要跨越这一步几乎是难比登天。以及迈这个坎的，恭喜；如我般还在苦苦修炼的，也不必心急，武功练到境界了，破关也就是水到渠成的事情。同勉。