书城教材教辅医学信息学
48552800000080

第80章 生物信息学(1)

生物信息学是20世纪60年代末及70年代以Margaret Dayofft 等分析蛋白质序列为标志,通过30多年的“默默而逐渐有所闻”的发展,尤其是人类基因组计划及后基因组计划的迫切需要导致现今广为人知的一门新兴学科。本章将论述有关生物信息学的基本概念,包括其定义及产生的背景,生物信息学的基本算法及生物信息学与临床信息学的融合。读完这章后,你应该知道下面这些问题的答案:

生物信息学的定义是什么?

促使生物信息学发展的内、外因及其相关的学科是什么?

生物信息学中常用的基本概念有哪些?

生物信息学的常用算法有哪几个?

生物信息学与临床信息学主要融合于哪几个基本方面?

18.1生物信息学概念

18.1.1生物信息学的定义

牛津词典于1978年收录“生物信息学”这一名词。由于生物信息学是一门正在兴起的热门学科,不同的研究工作者根据他们自己的理解对“生物信息学”下了不同的定义,但基本内容是相同的。这里我们选取美国国立卫生研究院(National Institute of Health,NIH)的定义:研究、开发及应用出相应的计算工具,这些工具能用于处理分析生物学、医学、行为或健康方面的数据,包括获取、储存、组织、归档、分析这些数据并将它们可视化。

这是NIH 比较严格的定义。而在牛津词典中,对生物信息学是这样描述的:生物信息学是正在概念化的基于分子(从物理化学角度而言)的生物学。它应用信息学技术(信息技术由应用数学、计算机科学及统计学分化而来)在大规模的水平上理解、组织与这些分子相关的信息。简言之,生物信息学是一门管理分子生物学信息的学科,它有许多实际应用。

结合NIH 的定义及牛津词典的解释,我们可知:生物信息学是应用数学及计算机技术处理生物分子信息的一门学科,是生物学与计算机、数学等相交而产生的一门新兴学科。

同样是计算机及数学在生物学中的应用的另一门学科计算生物学,它比生物信息学要略早,但其性质与内容与生物信息学有许多相似之处,NIH 对它的定义是:开发和应用数据分析、数学建模及计算模拟技术以用于研究生物学、行为学及社会系统的一门学科。

由它们的定义我们不难发现:生物信息学与计算生物学均是计算机、数学等学科在生物学中的应用的一门学科,而且它们都属新兴学科,发展速度很快,导致计算生物学中的许多建模方法往往为生物信息学所采用;反之,生物信息学的成果如序列比对等在计算生物学中也得到广泛应用。因此,计算生物学与生物信息学二者没有严格的界限,存在着一种“你中有我,我中有你”的状态。所以,国外许多科研院所将它们合二为一,统称之为:

计算生物学与生物信息学(Computational Biology and Bioinformatics,简称为CBB),如美国耶鲁大学的生物化学与生物物理学系、计算机科学系、医学信息学中心、麻醉生理系、遗传系、细胞分子生物学和发育生物学系于2005年联合推出了CBB 博士学位课程。

基于此,本书根据我们对计算生物学及生物信息学的理解,将CBB 定义为:以计算机为平台,利用数学(包括信息学、统计学)方法、化学方法、计算机科学方法等为手段探索生命科学奥秘的一门学科。

18.1.2生物信息学的产生与发展

1)生物信息学产生的外部环境

生物信息学产生的外部环境因素很多,可以说现有的自然科学对生物信息学的产生都起到了一定的推动作用。在这些众多的自然科学中,以计算机科学的推动作用最直接也最显着,因为生物信息学的平台就是计算机,离开计算机就不可能有生物信息学这门新学科诞生。

事实上,计算机科学的出现,使现有的自然科学与社会科学的所有学科产生了分化,如从“语言学”中分化出“计量语言学”;从“经济学”中分化出“计量经济学”;从“数学”中分化出“计算数学”;从“物理学”中分化出“计算物理学”;从“化学”中分化出“计算化学”,“化学计量学”等。很自然,生物学也分化出了“计算生物学”与“生物信息学”。在这里,计算机起的是“平台”作用。所以说计算机推动生物信息学的产生最直接也最显着。像生物学数据的管理、归档与分析等都需要计算机这个强大的工具来承担。

计算数学中的优秀算法为生物信息学提供了良好的“工具基础库”。最优化算法、稳马尔科夫链方法、Monte Carlo优化法、基因算法、动态规划法、人工神经网络算法等优秀数学算法为建立优秀的生物信息学方法提供了很好的保障。

化学为生物信息学提供了良好的“描述语言”环境。像分子生物学中的生物大分子的命名与描述均来自于化学。酶的催化反应,生物大分子构象等的描述主要来自于现代有机化学,如国际理论和应用化学联合会(International Union of Pure and Applied Chemistry,IUPAC)于1969年对蛋白质高级结构的不同层次作了界定。此外,计算化学的方法可以直接应用到生物信息学中。

2)生物信息学诞生的内部因素

计算机科学、数学及化学为生物信息学的产生及发展提供了良好的外部环境,但生命科学本身发展的需要是生物信息学“面世”的根本原因,主要表现在分子生物学诞生和“人类基因组计划”的提出、实施及完成这两方面。

(1)分子生物学的诞生。1866年,奥古斯丁教义僧人Gregor Mendel通过一系列实验,推断生物体中存在一种物质“genes”(基因)。从那时开始,人们一直认为是一种染色蛋白运载遗传信息。1944年,Avery和McCarty在活的有机体内证实脱氧核糖核酸(即DNA)是遗传物质的主要载体。到了1953年,James Watson和Francis Crick测定了DNA 的三维结构并据此发现了遗传物质的复制方法。这标志着分子生物学的诞生。此外,Edman 于1950年建立了蛋白质序列测定方法即Edman 降解法。尔后,英国科学家Sanger 等人于1953年完成了牛胰岛素的氨基酸序列测定;到了20世纪50年代末期,美国科学家Stanford Moore 等完成了牛胰核糖核酸酶的全序列分析。不久,人们对血红蛋白四个亚基作了全序列测定。此外,早在1858年,Kendrew 应用X 衍射分析技术获得了肌红蛋白(myoglobin)的三维结构。具体测定时,首先要获得衍射点,然后需要计算机进行复杂的运算。所有这些,标志着分子生物学由其萌芽到逐步成熟,同时也为生物信息学的诞生埋下了生根发芽的种子。

从那以后,有关生物大分子的序列与空间结构不断被人们所测定,相关的生物学数据累积也越来越多,导致应用人工方法很难准确、快速、有效地对它们进行分析,人们也就自然而然地想起了应用“效率高,运算速度快”的计算机。这样计算机也就自然而然地走进了生物学范畴。表现突出的是许多科学仪器的研制以生命科学为中心开展,这就导致生物学数据的累积以加速度的状态在向前发展。

(2)“人类基因组计划”的提出、实施及完成。生物信息学从最早的生物学“后台”、“配角”逐步走向生物学的“前台”,在生物学中扮演为“广大观众所喜爱的主角之一”的直接“催化剂”是“人类基因组计划”的提出、实施及完成。为此,这里有必要介绍一下人类基因组计划的基本情况。

人类基因组计划(Human Genome Project,HGP)与“曼哈顿”原子弹计划和“阿波罗”

登月计划并称为自然科学史上的“三大计划”,其核心内容是测定人类23个染色体的DNA 碱基序列。其提出、进展及最后完成的基本时间表如下:

1985年美国能源部的健康与环境研究所副所长Charles DeLisi 首先提出人类基因组计划。

1990年HGP 启动,目标是在15年内投资30亿美元完成该计划。

1996年在Bermuda,参与HGP 的成员同意将测定的数据向公众开放,即Bermuda 共识(Bermuda Principles)。

1998年Craig Ventner 成立公司,目标是在三年内完成序列测定,这就是后来的Celera公司。

1999年公共计划组回应Ventner 的挑战:修改其第一个草图完成时间的目标。

1999年12月第一个人类染色体(第22号)的序列测定完成并公布。

2000年6月,公共计划和Celera 领导人在白宫与时任总统的克林顿一起宣布HGP的完成;这是人类第一次宣布“人类基因组计划”完成。这次公布的是人类基因组草图,当时由于美国Celera 与公共计划为抢占第一发布时间展开激烈竞争,导致该基因草图存在许多错误和遗漏。但是它已经能解答很多秘密,比如它明确地告诉世人,地球上人与人之间99.99%的基因密码是相同的,人与人之间的差异仅为万分之一。

值得一提的是,1999年9月我国积极加入人类基因组研究计划,成为继美、英、日、德、法之后第六个国际人类基因组计划参与国,负责测定的区域位于人类3号染色体短臂上,该区域的遗传大小约占人类整个基因组的1%。2000年4月底,我国科学家出色地完成了任务。

2001年2月第一张人类基因草图在Nature和Science 杂志上发表。

2003年人类公布了人类基因组更为精细的图谱,其结果相对比较准确,陈述更为科学。国际人类基因组用了3年时间将2000年公布的草图进行纠错补漏,一点点地丰满起来,那些令人头疼的缝隙从原来的15万个减少到最后的341个。但是这一幅图仍然不是完美的,关键的问题是在1号染色体上依然还存在一些漏洞和不精确的地方。

2006年5月18日,英美科学家宣布完成了人类1号染色体的基因测序图,这表明人类最大和最后一个染色体的测序工作已经完成,历时16年的人类基因组计划终于画上了句号。事实上,1号染色体的测序工作难度很高。这是因为1号染色体是人类最大的染色体,约占人类整个基因组的8%,比最短的21号染色体长6倍,再加上测序工作又稍晚,所以直到现在才得以结束。然而1号染色体可能成为最有价值的染色体之一,因为它与癌症、帕金森氏症和老年痴呆症等大约350种疾病相关,所以1号染色体测序的完成对疾病的治疗具有巨大的潜在价值。

紧接着“人类基因组计划”后,一系列组学如功能基因组学、蛋白质组学、转录组学、代谢组学、信号转导网络等应运而生,所有这些都会产生海量的数据。

综上说明,生物信息学是生物学及其相关学科发展过程中,通过它们的有机组合而产生的一门“瓜熟蒂落”的生物学前沿分支学科。

18.2生物信息学研究范畴

简单地说,生物信息学的研究范畴包括两方面:数据库与相应的算法。两者之间的关系是:两者缺一不可,因此,只有两者有机地结合才能构成一门完整的生物信息学学科。

由于现代生物学中获取生物学数据的实验方法日益更新,人们获得海量的生物学数据。如何让广大生物学工作者有效地利用这些数据,最大限度地减少大量重复性的工作,早已为广大生物学工作者所关注。但光有数据共享显然是不够的,因为如何充分利用这些数据还取决于这些数据的“可操作性”,具体地就是计算机能顺利地读取和识别这些数据。如果不同人测定同一种生物大分子如DNA 序列所得到的数据以不同的格式存放,则人们就要编制出不同的相关软件来读取。这对从事生物信息学及其软件开发的人员来说无疑会增加许多重复性的工作,造成极大的人力资源浪费。为此,人们将描述同一类生物大分子同一类性质的数据以某种固定的格式保存在相应的计算机存储器中,这在生物信息学中被称之为生物大分子数据库。比如,蛋白质三维结构数据库,Genbank 核酸序列数据库等均以某种固定格式存储在计算机的存储器中。

数据库的格式代表数据库的形式,而其具体内容则是生物信息学及生物学工作者所关心的。因此,一个生物大分子数据库必须说明它的功能和特点。