生物信息学知识
生物信息学是用数理和信息科学的观点、理论和方法去研究生命现象、组织和分析呈现指数增长的生物学数据的一门学科。首先是研究遗传物质的载体DNA及其编码的大分子蛋白质,以计算机为其主要工具,发展各种软件,对逐日增长的浩如烟海的DNA和蛋白质的序列和结构进行收集、整理、储存、发布、提取、加工、分析和研究,目的在于通过这样的分析逐步认识生命的起源、进化、遗传和发育的本质,破译隐藏在DNA序列中的遗传语言,揭示人体生理和病理过程的分子基础,为人类疾病的预测、诊断、预防和治疗提供最合理和有效的途径。生物信息学已经成为生物医学、农学、遗传学、细胞生物学等学科发展的强大推动力量,也是药物设计、环境监测的重要组成部分。近年来,蛋白质结构数据的快速增长,使蛋白质三维结构的处理分析也归入到生物信息学的范畴。国际上有三大一级生物信息数据库,即美国国家信息中心 (National Center of Biotechnology Information, NCBI)的Gen Bank(http:/ / www. nchi. nlm. nih. gov/ web/Gen Bank/ imdex. html)、欧洲分子生物学室验室(European Molecular Biology L aboratory-Euro-pean Bioinformatics Institute, EMBL-EBI)的 EM-BL (http:// www.ebi. ac.uk/ databases/ index.html)和日本 DNA数据库 (DNA Data Bank of Japan, DDBJ) (http:/ / www.ddbj.nig.ac.jp/ )。随着生物信息学 (Bioinformatics)的发展,通过检索数据库进行核酸序列同源性检索,电子基因定位、电子延伸、电子克隆和电子表达以及蛋白质功能分析、基因鉴定等方面起到了重要作用,已成为人们认识生物个体生长发育、繁殖分化、遗传变异、疾病发生、衰老死亡等生命过程的有力工具。
一、生物信息学相关网站
生物信息学与生物计算:http://bioinformatics.weizmann.ac.il/
这是生物信息学和生物计算学的网站,由Weizmann科学研究所,生物服务部和Crown人类基因组学中心支持。研究领域主要涵盖序列分析,蛋白质组学和基因组学等。该网站提供了数据库,电子论坛,教育,新闻,软件,招聘启事等。该网站还提供了相关链接,包括欧洲分子生物学以色列国家网点,以色列国家基因组基础设施实验室以及国际生物信息学合作中心。
生物信息学专题:http://www.biosino.org/bioinformatics/bioinfo.htm
中国科学院上海生命科学研究院生物信息中心的网站中的生物信息学专题提供与生物信息学有关的新闻信息,生物信息学文献的介绍(包括的课题例如:鉴别肿瘤的亚型,细菌中的基因转移,生物钟与微阵列--哺乳动物的基因组有节奏,混乱的DNA区分人类与黑猩猩等等 ),相关软件下载,与数据库的链接。
生物信息学专业网:http://bioinf.bmi.ac.cn/ 生物信息学专业网旨在收集、整理与生物信息学相关的信息和资源。它的站点提供最近新闻;与生物科学相关的论文;与生物信息学相关的数据库,软件,公司,大学和期刊;工具的介绍,例如:序列逆向查询系统。
生物信息学组织:http://bioinformatics.org/
生物信息学组织是生物信息学学科的综合性网站。其涉及的内容有新闻、事件提醒、会议消息、免费FTP工具下载、论文、URL推荐、演示幻灯片等。此外,其还拥有有关生物信息学
研究组和软件的搜索引擎。
香港生物信息学中心:http://www.hkbic.bch.cuhk.edu.hk/
这是香港生物信息学中心(HKBIC)的网站。香港生物信息学中心是由香港技术创新委员会和香港中文大学创办,为香港生物技术与工业界提供中心数据资源。它为使用者提供计算设备,技术专家意见和分子生物学定向数据库等。主要致力于核苷酸、医学、药物设计、毒理学、生物技术、化学工程、制药技术等方面的研究。该网站还提供了研究、工具、新闻等方面的。
耶鲁大学盖斯坦生物信息学实验室:http://bioinfo.mbb.yale.edu/ 这是耶鲁大学盖斯坦生物信息学实验室的网站。耶鲁大学盖斯坦生物信息学实验室主要致力于生物信息学的研究,其研究领域包括基因组序列,大分子结构和表达基因数据,比较基因组学,基因表达分析,大分子几何学等。该网站还提供研究、工作、演讲、论文等方面的信息。
用于比较基因组学的生物信息学工具:http://pga.lbl.gov/Workshop/webTools.html 用于比较基因组学的生物信息学工具是劳伦斯伯克利国家实验室提供的用于比较基因组学的生物信息学的软件、数据库和网址资源。其涵盖五个大类分别是:基因组数据、注释、比较基因组、阵列资源、杂集。并且,对每个类别其都有类型、名称和描述、帮助及信息等方面的说明。
中国生物信息学资源导航:http://www.biosino.org/pages/source-bioinfo.htm 这是中国生物信息学资源导航的网站。该网站主要提供与生物信息学相关的学会、组织和生物计算中心的链接,也包含对网关及网络资源的链接。
NCBI生物信息学研究工具:http://www.ncbi.nih.gov/Tools/
NCBI生物信息学研究工具网站由美国国家生物技术信息中心支持。该网站提供了许多程序的链接,内容包括数据挖掘、核酸和蛋白质组分析等。同时,网站还提供了许多相关链接和资源。
欧洲生物信息学研究所:http://www.ebi.ac.uk/ 欧洲生物信息学研究所是一个非盈利学术机构,是欧洲分子生物学实验室的一部分。它是生物信息学研究和服务的中心。它所管理生物数据的数据库包括核酸,蛋白质序列和大分子结构。它的使命是保证从分子生物学和基因组研究的日益增长的信息向公众公开,并且对科学研究团体提供任何方面的免费使用,以促进科学发展。 欧洲生物信息学研究所Ensembl基因组浏览器:ttp://www.ebi.ac.uk/ensembl/index.html 欧洲生物信息学研究所Thornton研究组:http://www.ebi.ac.uk/Thornton/index.html 欧洲生物信息学研究所多序列联配数据库:
http://www.ebi.ac.uk/embl/Submission/alignment.html 欧洲生物信息学研究所工具箱:http://www.ebi.ac.uk/Tools/
欧洲生物信息学研究所核酸数据库:http://www.ebi.ac.uk/Databases/nucleotide.html 欧洲生物信息学研究所计算基因组研究
组:http://www.ebi.ac.uk/research/CGG/index.html
欧洲生物信息学研究所完整基因组数据库:http://www.ebi.ac.uk/genomes/
欧洲生物信息学研究所序列数据库研究组:http://www.ebi.ac.uk/seqdb/index.html
Brutlag生物信息学研究组:http://motif.stanford.edu/
Brutlag生物信息学研究组是斯坦福大学的一个研究团体,主要研究从蛋白质一级结构预测蛋白质结构和功能,其开发了EMOTIF、EMATRIX和3MOTIF软件应用于非鉴定的基因组序列的功能确定,另外还开发了LOCK和3DSEARCH软件用于比较蛋白质结构和蛋白质结构数据库的搜索。
生物GBF信息学小组主页:http://transfac.gbf.de/
生物信息学小组主页是德国生物技术研究中心的生物信息组的主页。其提供的资源十分丰富,包括出版物、研究计划、研究组介绍、五个重要数据库、十二个工具软件和资源链接等。
Pune大学生物信息学中心:http://bioinfo.ernet.in/
Pune大学生物信息学中心成立于1987年,是生物技术系统的九大中心之一。提供生物工程领域的信息,侧重病毒学,蛋白质和核酸序列与结构。其提供的资源丰富,包括数据库、微生物菌株数据网络系统、生物信息学中心图书馆、Alpha服务器的软件包、生物信息学的有用网址、EBI和PDB的数据库镜像等。
北京大学生物信息学中心:http://www.cbi.pku.edu.cn/
北京大学生物信息中心(CBI)成立于1997年,是欧洲分子生物学网络组织EMBnet的中国国家接点。几年来,已经与多个国家的生物信息中心建立了合作关系。目前是国内数据库种类最多,数据量最大的生物信息站点。在基因预测、基因组、蛋白质结构等领域都有相应的研究项目。
加拿大生物信息学资源:http://cbr-rbc.nrc-cnrc.gc.ca/index_e.php 这是加拿大生物信息学资源(CBR)的网站。该网站由加拿大国家研究委员会(NRC)创建,旨在为国家研究委员会与其它政府、学术部门的科学家提供广泛使用的生物信息学工具和共享数据。加拿大生物信息学资源部分由一个专门使用该资源的委员会管理,而且其资源在用于教育和非盈利研究时只需注册均可免费作用。网站还提供有关新闻、服务与下载等信息。 结构生物信息学公司:http://www.strubix.com/ 结构生物信息学公司是世界上占领导地位的、蛋白质组学推动的药物发现的公司,他们大规模地产生和使用蛋白质结构信息,以期加速发现和优化过程。它提供的软件主要针对加速药物发现和优化过程、提高筛选效率和降低成本、极大地重视知识产权的地位、提高药物性能和增加技术和市场成功的可能性。此外,还提供三个药物数据库。
林奈斯生物信息学中心:http://www.lcb.uu.se/
这是林奈斯生物信息学中心(LCB)的网站。林奈斯生物信息学中心研究非常活跃,隶属于瑞典Uppsala生物医学中心。作为一个由Uppsala大学与瑞典农业大学的联合研究机构,确保了高质量的尖端的研究与教育,其研究范围从微生物与哺乳动物基因组学经计算机的功能基因组学到分子进化。网站还提供有关入学、新闻时事、研讨会、工具、学生计划等方面的信息。
曼彻斯特大学生物信息学教育与研究:http://www.bioinf.man.ac.uk/ 曼彻斯特大学生物信息学教育与研究是欧洲分子生物网络的节点之一,负责维护一些数据库(如蛋白质模体指纹数据库,PRINTS)。站点提供蛋白质同源性分析,蛋白质模体指纹分析,系统发生和序列进化分析,以及微阵列分析,并提供生物信息学和PRINTS数据库数据下载。
《生物信息学》:http://www3.oup.co.uk/jnls/list/bioinformatics/etoc.html 生物信息学》是由英国牛津大学出版社出版。其主要刊登生物信息和计算生物学方面的研究论文、书评、综述、读者来信和述评等文章。其刊载的文章在两年内供给学术界免费使用。 生物信息学:http://biotech.icmb.utexas.edu/pages/bioinfo.html
生物信息学是印第安纳大学分子和细胞生物学研究所提供的生物信息学资源。此资源包括数据库、基因发现程序、蛋白质模建、生物信息学在线教程、研究基金的来源、研究项目和生物信息学工具软件等。
生物信息学的网络资源:http://www1.cs.columbia.edu/~cleslie/cs4761/resources.html 生物信息学的网络资源是美国哥伦比亚大学的Bill Noble教授建立的有关生物信息学的网络资源总集。其涉及面广,包括基因组学和生物信息学中心、生物信息学工具和基因组计划索引、DNA和蛋白质分析工具、生物信息学课程主页、生物信息学和生物技术的学术项目、生物信息学文献参考,以及网上引物。
生物信息学趋势导向:http://www.ped.med.utah.edu/genpedscrr/Trends.htm生物信息学趋势导向主要提供《今天免疫学》杂志的增刊有关生物信息学的内容。这些内容包括的资源十分丰富,涉及文本格式数据库,原理和实用数据库搜索,计算生物学基因发现,多序列联配和检索,蛋白质分类和功能归属,系统进化分析和比较基因组学,功能基因组学等。
生物信息学网:http://starr2.myetang.com/
这是生物信息学的网站,主要是负责中国医学科学院肿瘤医院/肿瘤研究所生物信息学研发及服务工作。该网站提供生物统计分析以SAS和R为主,并且设有其他数十种生物信息学分析辅助软件,如Blast, Phrap, Bioperl, EMBOSS, Hmmer, GO等等。另外也提供论坛,相关论文以及常用生物信息学网址等。
生物信息学小组:http://life.anu.edu.au/
生物信息学小组成立于1997年,主要从事分子生物信息学和生物多样性信息学的研究。其提供丰富的软件资源,可免费下载使用。软件种类涉及重组扫描、系统发生分析、联配、重复片段的检测和PCR引物设计等。此外,还有许多数据库资源。
二、生物信息学入门教材
国内主要教材有:
<<生物信息学概论》(英) T K Attwood , D J Parry-Smith 著 罗静初 等译 北京大学出版社 2002年4月第一版
本书从生物信息学的研究对象、意义出发,介绍生物信息学研究的基本方法和常用工具。主要介绍的是核酸和蛋白质序列的计算机分析方法,探讨利用现有的计算机程序,从现有的数据库中能够获取什么、不能够获取什么。全书共分十章:1.概论,2.信息网络,3.蛋白质信息资源,4.基因组信息资源,5. DNA序列分析,6.双序列比对,7.多序列比对,8.二次数据库搜索,9.数据库搜索实例,10.序列分析软件包。每章末尾均提供了进一步阅读指南和有关的网址。这本书的一大特色在于丰富的例子和图表,使读者可以很直观的了解和掌握书中的内容。此外,书的末尾还附有与生物信息学相关的词汇表。总的说来,这本书实用性强,可以作为高等院校生物信息学教材,也可以作为生命科学和生物技术各领域分子生物学研究
和开发工作者的生物信息学参考书。
《生物信息学手册》 郝柏林 张淑誉 编著
上海科学技术出版社 2000年10月第一版 一本手册式的生物信息学书籍。除了介绍了生物信息学,还包括了计算机及计算机网络(这一部分提供了一些网址)和分子生物学的知识。更为重要的是,该书的主要部分?quot;生物信息数据库\"和\"服务、软件和算法\"部分,提供了大量的网址。 几乎是每一个条目下面都有不少网址。这本书将网络上的生物信息学资源进行了索引式的介绍,并作了必要的说明。书中列举了近千条网址和引文,基本涵盖了生物学研究的各个方面,堪称生物信息的汪洋大海中的导航图。对生物信息学的服务、软件和算法,本书也作了较全面的描述。本书可供广大生命科学工作者以及由物理学、数学和计算机学转入生命科学领域的研究教学人员参阅(上面可以查到很多网址)。
《生物信息学》 赵国屏 等 编著
科学出版社 2002年4月 第一版
本书是\"863\"生物高科技丛书之一。它比较全面地介绍了生物信息学的若干个主要分支,并特别介绍了与人类基因组研究相关的生物信息学的一些较新成果;着重介绍了数据库和数据库的查询、序列的同源比较及其在生物进化研究中的应用;以生物芯片中的生物信息学问题为例,介绍与基因表达相关的生物信息学问题;还介绍了蛋白质结构研究中的生物信息学问题,以及与分子设计和药物设计相关的生物信息学技术。本书可供生物信息学专业和生命科学相关专业的本科生、研究生和教学科研人员阅读学习,也可供相关专业的科技和应用机构的科研、管理和决策人员参考。注意,本书有很大篇幅是讲基因芯片和蛋白质结构预测的。
《生物信息学--基因和蛋白质分析的实用指南》
\"Bioinformatics--A Practical Guide to the Analysis of Genes and Proteins \" Andreas D.Baxevanis B.F.Francis Ouellette 著 李衍达 孙之荣 等 译
清华大学出版社 2000年8月 第一版 这本书由前卫计算生物学家撰写,贯穿了已有的工具和数据库,包括应用软件、因特网资源、向数据库提交DNA序列以及进行序列分析和利用核酸序列与蛋白质序列进行预测的的方法。以下是该书的目录:1.因特网与生物学家,2. GeneBank序列数据库,3.结构数据库,4.应用GCG进行序列分析,5.生物数据库的信息检索,6. NCBI数据模型,7.序列比对和数据库搜索,8.多序列比对和实际应用,9.系统发育分析,10.利用核酸序列的预测方法,11.利用蛋白质序列的预测方法,12.鼠类和人类公用物理图谱数据库漫游,13. ACEDB: 基因组信息数据库,14.提交DNA序列数据库。本书有很多实际的序列和序列分析的例子。这本书适合高等院校的师生和从事生物工程研究的科技工作者阅读。
此外,浙江大学樊龙江老师《生物信息学札记》手稿也是入门的很好教材 ,书目录如下: 第一章 生物信息学通论 第二章 分子数据库 第三章 序列分析与比较 序列组成与联配分析
数据库搜索引擎——BLAST和FASTA应用 第四章 基因组测序与分析 第五章 分子进化
第六章 蛋白质结构与功能预测
附录:生物信息学主要英文术语及释义 核苷酸和氨基酸代码
分子生物学主要数据库和应用工具网址一览表 序列分析软件目录
与核苷酸和蛋白质序列相关的特征关键词表 主要参考文献
国外有关生物信息学书籍有:华盛顿大学bioinformatics教程、Algorithms in Bioinformatics、Beginning Perl for Bioinformatics、Bioinformatics、
Bioinformatics-Sequence and Genome Analysis、Developing Bioinformatics Computer Skills、
BIOINFORMATICS METHODS AND PROTOCOLS等书籍。
三、常用信息检索
常见的全文数据库及其链接 Blackwell Synergy
http://www.blackwell-science.com/products/journals/jnltitle.htm ; Sciencedirect
http://www.sciencedirect.com/ ; EBSCO
http://www.ebsco.com/home/default.asp ; OVID
http://www.ovid.com/ ; Proquest
http://www.proquest.com/ ; IDEAL
http://www.idealibrary.com/servlet/useragent?func=showHome ; OCLC
http://www.oclc.com/home/ ; Interscience
http://www3.interscience.wiley.com/ ; Springer
http://www.springer.de/ ; LWW
http://www.lwwonline.com/ ; Karger
http://www.karger.com/ ; Kluwer Academic Publishers http://www.wkap.nl/ ; Oxford University Press http://www.oup.co.uk/ ; Annual Reviews
http://www.annualreviews.org/ ; 国内外专利数据库网址
列出网上一些很有价值的专利资源网址,供大家参考。 中国专利检索
http://www.sipo.gov.cn/sipo/zljs/default.htm
中国专利全文数据库(1985年-今)提供者:中国国家知识产权局 中国专利信息检索网 (http://www.jiansuo.com/)
可免费检索1985年以来的中国专利,部分可获得专利说明书全文。包括分类检索与高级检索两种检索方式。
分类检索 给出国际专利分类表,可逐层显示,点击检索,则链接到高级检索界面。网址为:http://www.cpic.dhs.org/ipc/
中国专利信息网(http://www.patent.com.cn/) 该系统可以检索中国专利,并提供文摘,还同时提供了与专利有关的多种信息,如专利转让、专利法规、专利代理机构等。
中国专利文献数据库(http://home.exin.net/patent/)
该数据库收录了中国专利局自1985年以来公布的所有发明专利和实用新型专利,内容有题录、文摘、权利要求等。检索途径设有专利名称、文摘、权利要求、申请人等共计27个字段。用户可以根据需要选择某一个字段,输入关键词进行单项全文检索;也可以选择两个以上字段进行(AND)、或(OR)布尔检索,但同一字段无法执行布尔访问。 中国知识产权网 (http://www.cnipr.com/)
中国专利检索,技术产品及商标的展示,图书的网上展销,知识产权信息服务。 中国发明专利信息网 (http://www.1st.com.cn/)
该站点与《发明与革新》杂志社结成合作伙伴,提供专利检索、专利快讯、好书及相关网站推荐、免费点子库、网上求助等服务。
台湾专利数据库 (http://www.apipa.org.tw/)
由台湾亚太智慧财产权基金会提供,使用台湾BIG-5码检索和显示。 国外专利检索
http://www.uspto.gov/patft/ ; 美国专利全文数据库(1790年-今)
提供者:United States patent and trademark office (美国专利商标局) http://ep.espacenet.com/ ;
世界知识产权组织专利数据库(PCT)、欧洲专利数据库、日本专利 提供者:The European Patent Office (欧洲专利局) http://patents1.ic.gc.ca/intro-e.html ; 加拿大专利全文数据库(1920年-今)
提供者:The Canadian Intellectual Property Office (加拿大知识产权局) Delphion Patent Server (http://www.delphion.com/)
注册用户通过Delphion 专利服务器可检索世界各国专利,但非注册用户可以检索到1974年以来的美国专利的文摘和全文的第一页扫描图像。 Delphion
世界各国专利,可看到前十三页全文
Europe's Network of Patent Databases (欧洲专利)(http://gb.espacenet.com/) 该站点可以检索到欧洲专利的文摘和全文的扫描图像。并可检索到世界知识产权组织(WIPO)的文摘和全文的第一页扫描图像。
欧洲及欧洲各国专利
(http://www.european-patent-office.org/espacenet/info/access.htm)
该网站由欧洲专利局提供,可用于检索欧洲及欧洲各国的专利,包括欧洲专利(EP)、英国专利、德国专利、法国专利、澳地利专利、比利时专利、意大利专利、芬兰、丹麦、西班牙、瑞典、瑞士等15个欧洲国家的专利。
PCT国际专利 (http://pctgazette.wipo.int/)
由世界知识产权组织(WIPO)提供,收录了1997年1月1日至今的PCT国际专利,仅提供专利扉页 题录,文摘和图形。
世界知识产权组织的IPDL (http://ipdl.wipo.int/) 由世界知识产权组织建立的知识产权电子图书馆,提供世界各国专利数据库检索服务,其中包括: PCT国际专利数据库,中国专利英文数据库,印度专利数据库,美国专利数据库,加拿大专利数据库, 欧洲专利数据库,法国专利数据库,JOPAL科技期刊数据库,DOPALES专利数据库,MADRID设计数据库等。
Canadian Patent Database(http://patents1.ic.gc.ca/intro-e.html) 可以检索1989年以后的加拿大专利,无文摘。
生物信息学比较经典的文章
生物信息学的现状与展望
The Current Status and The Prospect of Bioinformatics
中国科学院院士 张春霆
(天津大学生命科学与工程研究院 天津300072)
摘 要:本文阐述了生物信息学产生的背景,生物学数据库,生物信息学的主要研究内容,与生物信息学关系密切的数学和计算机科学技术领域,生物信息学产业等内容,展望了其未来并提出了若干在我国发展生物信息学的建议。着重指出,理解大量生物学数据所包括的生物学意义已成为后基因组时代极其重要的课题。生物信息学的作用将日益重要。有理由认为,今日生物学数据的巨大积累将导致重大生物学规律的发现。生物信息学的发展在国内、外基本上都处在起步阶段。因此,这是我国生物学赶超世界先进水平的一个百年一遇的极好机会。
关键词:人类基因组计划 生物信息学
一、生物信息学产生的背景
有人说,基于序列的生物学时代已经到来,尽管对“序列生物学”这一提法可能有所争议,但是今日像潮水般涌现的序列信息却是无可争辩的事实。自从1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作,人基因组约3x109碱基对的测序工作也接近完成。至2000年6月26日,被誉为生命“阿波罗计划”的人类基因组计划,经过美、英、日、法、德和中国科学家的艰苦努力,终于完成了工作草图,这是人类科学世上又一个里程碑式的事件。它预示着完成人类基因组计划已经指日可待。截止目前为止,仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。在人类基因组计划进行过程中所积累起来的技术和经验,使得其它生物基因组的测序工作可以完成得更快捷。可以预计,今后DNA序列数据的增长将更为惊人。生物学数据的积累并不仅仅表现在DNA序列方面,与其同步的还有蛋白质的一级结构,即氨基酸序列的增长。此外,迄今为止,已有一万多种蛋白质的空间结构以不同的分辨率被测定。基于cDNA序列测序所建立起来的EST数据库其纪录已达数百万条。在这些数据基础上派生、整理出来的数据库已达500余个。这一切构成了一个生物学数据的海洋。可以打一个比方来说明这些数据的规模。有人估计,人类(包括已经去世的和仍然在世。而如今生物学数据信的)所说过的话的信息总量约为5唉字节(1唉字节等于1018字节)
息总量已接近甚至超过此数量级。这种科学数据的急速和海量积累,在人类的科学研究历史中是空前的。
数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。与正在以指数方式增长的生物学数据相比,人类相关知识的增长(粗略地用每年发表的生物、医学论文数来代表)却十分缓慢。一方面是巨量的数据;另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量。这就构成了一个极大的矛盾。这个矛盾就催生了一门新兴的交叉科学,这就是生物信息学。美国人类基因组计划实施五年后的总结报告中,对生物信息学作了以下定义:生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。生物信息学这一名词的出现仅仅是几年前的事情,但是计算生物学这一名词的出现要早的多。鉴于这两门学科之间并没有或难以界定严格的分界线,在这里统称为生物信息学。
二、生物学数据库
《Nucleic Acids Research》杂志连续七年在其每年的第一期中详细介绍最新版本的各种数据库。在2000年1月1日出版的28卷第一期中详细地介绍了115种通用和专用数据库,包括其详尽描述和访问网址。迄今为止,生物学数据库总数已达500个以上。在DNA序列方面有GenBank、EMBL和DDBJ等。在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等。在蛋白质和其它生物大分子的结构方面有PDB等。在蛋白质结构分类方面有SCOP和CATH等。应该指出,几乎所有这些数据库对学术研究部门或人员来说都是免费的,可以免费下载或提供免费服务。但是鉴于相当多的数据库的经营者们面临着财务紧缺的境地,这种免费的局面还能维持多久就不得而知了。有的数据库,如SWISS-PROT,已开始向商业用户每年收取数千至数万美元不等的使用费。其它数据库暂时还是免费的,但不知是否永远免费。如果一些重要的数据库对学术研究部门开始收费,这对于我国生物信息学的发展是非常不利的。中国是一个基因信息资源大国,我们应当抓紧建设我国自有的数据库,在世界上做出我们自己的贡献,在平等的基础上与国外共享生物信息资源。
三、生物信息学的主要研究内容
生物信息学主要包括以下几个主要研究领域,但是限于篇幅,这里仅列出其名称并只做简单介绍。
1、序列比对(Alignment)。
基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包——BALST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似,但某些局部片断相似性很高。Smith-Waterman算法是解决局部比对的好算法,缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。
2、结构比对。
基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。
3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一。
从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预
测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。
4、计算机辅助基因识别(仅指蛋白质编码基因)。
基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。
5、非编码区分析和DNA语言研究,是最重要的课题之一。
在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。
6、分子进化和比较基因组学,是最重要的课题之一。
早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。可以设想,比较两个或多个完整基因组这一工作需要新的思路和方法,当然也渴望得到更丰硕的成果。这方面可做的工作是很多的。
7、序列重叠群(Contigs)装配。
一般来说,根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备性算法问题。
8、遗传密码的起源。
遗传密码为什么是现在这样的?这一直是一个谜。一种最简单的理论认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物最后的共同祖先里,一直延续至今。不同于这种“冻结”理论,有人曾分别提出过选择优化、化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成,为研究遗传密码的
起源和检验上述理论的真伪提供了新的素材。
9、基于结构的药物设计。
人类基因组计划的目的之一在于阐明人的约10万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其3级结构的基础上,可以利用分子对接算法,在计算机上设计抑制剂分子,作为候选药物。这种发现新药物的方法有强大的生命力,也有着巨大的经济效益。
10、其他。
如基因表达浦分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域。这里不再赘述。
四、与生物信息学关系密切的数学领域
限于篇幅,仅列出它们的名称。统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;运筹学,如动态规划法是序列比对的基本工具,最优化理论与算法,在蛋白质空间结构预测和分子对接研究中有重要应用,拓扑学,这里指几何拓扑,在DNA超螺旋研究中是重要工具,在多肽链折叠研究中也有应用;函数论,如傅里叶变换和小波变换等都是生物信息学中的常规工具;信息论,在分子进化、蛋白质结构预测、序列比对中有重要应用,而人工神经网络方法则用途极为广泛;计算数学,如常微分方程数值解法是分子动力学的基本工具;群论,在研究遗传密码和DNA序列的对称性方面有重要应用;组合数学,在分子进化和基因组序列研究中十分有用。原则上讲,各种数学理论或多或少或直接或间接都应该在生物学研究中有各种各样的应用,其中包括生物信息学,这种情况正像过去的一、两个世纪,数学应用于物理学一样。而且,生物信息学的发展,又为数学的发展提供了一个新的机遇,可能会产生一些新的分支科学。
五、与生物信息学密切相关的计算机科学技术
首先是网络技术和数据库(特别是关系型数据库)管理技术,包括极为重要的实验室数据信息管理系统(LIMS)。其它诸如数据整合和可视化、数据挖掘(Data Mining)、基于Unix操作系统的各种软件包以及人工智能,和一些重要算法的复杂性研究。
六、生物信息学工业
生物信息学不仅具有重大的科学意义,而且具有巨大的经济效益。它既属于基础研究,以探索生物学自然学自然规律为己任;又属于应用研究,它的许多研究成果可以较快或立即产业化,成为价值很高的产品。生物信息学的这一特点在现有的许多学科中几乎是独一无二的。
这里仅举一个例子来说明生物信息学工业的潜力。据报导,只有50名员工的德国Lion生物信息学公司,将通过扫描公共数据库中的序列来发现500个可能的药物作用靶点,以一亿美元的价格预售给德国Bayer公司。又据报导,生物信息学产业的市场在1998年已经达到10亿美元,而到2002年估计可增长到2000亿美元以上。这是一笔巨大的财富,任何政府的科技决策人都不能对此视而不见。NIH已向美国国会建议投资160亿美元在美国建立5~20个将生物学与计算结合起来的中心。法国议会科技决策评估办公室,最近评估了基因工程、生物信息学和组合化学等学科的应用前景及法国的对策。美国出现了大批的基于生物信息学的公司,实施了许多生物信息学研究计划,主要与药物设计,基因工程药物,生物芯片,代谢工程与化学工程密切相关。生物信息学工业是知识经济的一个典型,潜力巨大。
七、展望与建议
生物学是生物信息学的核心和灵魂,数学与计算机技术则是它的基本工具。这一点必须着重指出。预测生物信息学的未来主要就是要预测他对生物学的发展将带来什么样的根本性的突破。这种预测是十分困难的,甚至几乎不可能。但是人类科学研究史表明,科学数据的大量积累将导致重大的科学规律的发现。例如:对数百颗天体运行数据的分析导致了开普勒三大定律和万有引力定律的发现;数十种元素和上万种化合物数据的积累导致了元素周期表的发现;氢原子光谱学数据的积累促成了量子理论的提出,为量子力学的建立奠定了基础。历史的经验值得注意,有理由认为,今日生物学数据的巨大积累也将导致重大生物学规律的发现。生物信息学的发展在国内、外基本上都处在起步阶段,所拥有的条件也大体相同,即使我国有关条件差一些,但差别也不大。因此,这是我国生物学赶超国际先进水平的一个百年一遇的极好机会。机不可失,时不再来,鉴于生物信息学在我国生物信息学和经济发展中的重要意义和其发展的紧迫性,因此,由国家出面组织全国的力量,搞个类似“两弹一星”那样的,但是,规模要小的多,花钱也少的多的生物信息学发展计划,不是不可以考虑的。要充分发挥中央与地方,生物学科研究人员等方方面面的积极性。生物信息学研究投资少,见效快,可充分发挥我国智力资源丰富的长处,是特别适合我国国情的一项研究领域。要在大学里建立生物信息学专业,设立硕士点和博士点,培养专门人才。可以组织一大批数学、物理、化学和计算机科技工作者,在自愿的基础上,学习有关的生物学知识,开展多方面的
生物信息学研究。经过十几年或更长的时间的努力,逐渐使我国成为生物信息学研究强国,是完全有可能的。(2000年)
因篇幅问题不能全部显示,请点此查看更多更全内容