azalea says

Computational Challenges of Next-Generation Genomics

今天听了题为 Computational Challenges of Next-Generation Genomics 的演讲,演讲者是 Steven L. Salzberg,他的实验室开发了 Bowtie, Tophat, Cufflinks 等一系列测序数据分析工具。

首先,Steven 展示了下面这张著名的图:

来源

这告诉我们,测序费用呈指数级逐年降低,从2001年每百万碱基(Mb)10000美元到几个月前的0.1美元,测序基本上和免费差不多了。其中两次最大降幅是04年问世的454测序技术和07年的 Illumina。而更重要的一点是,测序成本的下降,使同样的花费获得的数据量指数级增长,这个增幅超过了摩尔定律预测的计算机计算能力的增幅,因此,计算资源的限制取代测序成本,成了基因组研究的瓶颈。

以测序领域的领先者 Illumina 为例,Genome Analyzer IIx 测序仪一次可以测量长度为 75-150bp,共 30-60Gb 的数据。而今年新推出的 Hiseq 2000,虽然长度为 100bp,但是数据量达到 600Gb,费用大概是 15000 美元。算起来 15000美元除以600Gb确实是2.5美分/Mb。

于是很多生物学家错误的认为现在获得一个基因组序列很容易,但是他们花1000美元测序之后,却对数据分析无从下手。Steven估计,基因组测序费用1000美元,生物信息学分析费用5-7.5万美元,此外还要考虑计算和存储数据的花费。虽然生物信息学家的工资被大大低估了(笑~~),但是数据分析仍然需要高额花费。

听到这里我真是欢欣鼓舞,至少短时间内应该不会失业。而且隐约觉得这应该对很多生物信息学创业公司来说是个好机会,提供数据分析服务或者培训都是生财之道呀。

之后 Steven 依次讲了他们实验室面对测序数据分析的挑战而开发的各种工具,听起来感觉就像生物信息学导论。

总之大意就是 Bowtie 是目前最快的短序列比对工具,而且是 memory efficient。Bowtie用BWT index genome,每个碱基只需要 1/3 - 1/2 字节,而传统的 suffix tree 方法需要12字节。刚刚推出的新版 Bowtie 2 可以很好的处理 indel,因为 Steven 说他们的竞争对手 bwa 一直可以,而他们希望在不牺牲速度的情况下完美实现 indel 处理,因此现在才有这个功能。

为啥速度重要呢?因为以现在最快的短序列比对工具Bowtie的速度(30M reads / hour),处理 Illumina Hiseq 2000的数据也要200小时。

然后介绍了自动预测 splice junction 的 RNAseq mapper Tophat, 预测 chromosome fusion 的 Tophat-fusion (听众中有人提到这个也许可以用来处理 3C 数据),   以及可以拼装注释 spliced isoform 的 Cufflinks

此外,Steven 提到他们正在开发的一个网站,GAGE (Genome Assembly Gold-standard Evaluations),敬请一个月后查看。

以下是演讲中的笑点(写完发现都好冷):

  1. 人类基因组当时有2个独立的小组分别在研究,结果分别发表在2001年的 ScienceNature 上。我迟到了木有听到,貌似说到当时2个小组试图合作未果。Steven 说这是论文发表史上的奇迹(额,这个词是我总结的),他们直接和杂志社说,给我们留几十页的版面,而以前发表文章,都是杂志让缩短到几页或把结果扔到补充文件里就乖乖听话的。此外,他们刚投了稿,新闻就宣布人类基因组测序已经完成,审稿人只有2个星期的时间评审,Steven说,他相信审稿人肯定认真读了这几十页的论文,但是问题是他们的评审意见根本不可能是“修回”或“拒绝”。

  2. 今年2月的 Nature Genetics 同时发表了草莓和巧克力的基因组,Steven说,因为他们想在情人节为读者献上 Strawberry chocolate。身为上百作者之一的我怎么都木有发现 - -

    火鸡基因组是在感恩节前发表的(去年9月)。

  3. Steven还推广了一下 Galaxy (usegalaxy.org) 说,这个是专为生物学家设计的,可以直接用鼠标操作 Bowtie, Tophat 和 Cufflinks,虽然他不明白为什么生物学家不喜欢用 command line。

  4. Ross 问 Steven 有木有觉得生物信息学方面的 funding 很有限,并问他有什么建议。Steven说,这听起来像是政治问题。。大概是去年美国生命科学方面的funding没有增加反而减少,今年大概也就是维持原状的样子,你总不能和funding agency说把钱给我不要给别人,因为总数就那么多。Steven说,最好的解决方法就是美国变成一个更加繁荣富强的国家。

bioinformatics research science seminar · Tweet Edit