생물정보학/Bioinformatics

[논문] 출판물과 유전자 및 단백질 데이터를 서로 엮기

케이든 2014. 2. 5. 22:10



출판물과 유전자 및 단백질 데이터를 서로 엮기


원제: Linking publication, gene and protein data

저자: Paul Kersey & Rolf Apweiler

노트: 생물정보 및 관련 데이터베이스에 대한 기본 개념을 알려주고 있습니다.


이 글은 2006년 Nature Cell Biology 8, 1183-1189에 실린 논문을 번역 및 요약한 것 입니다.


★ 이 논문에서 나오는 관련 웹사이트:

Protein Information Resource (PIR): http://pir.georgetown.edu/

Protein Data Bank (PDB): http://www.rcsb.org/pdb/home/home.do

European Nucleotide Archive (EMBL-EBI ENA): http://www.ebi.ac.uk/ena/

International Nucleotide Sequence Database Collaboration (INSDC): http://www.insdc.org/

Ensembl genome database: http://www.ensembl.org/index.html

UniProtKB: http://www.uniprot.org/help/uniprotkb

Gene ontology (GO): http://www.geneontology.org/

PubMed: http://www.ncbi.nlm.nih.gov/pubmed

European Bioinformatics Institute (EBI): http://www.ebi.ac.uk/

National Center for Biotechnology Information (NCBI): http://www.ncbi.nlm.nih.gov/

PSI-PRED: http://bioinf.cs.ucl.ac.uk/psipred/

iHop: http://www.ihop-net.org/UniPub/iHOP/

Taverna: http://www.taverna.org.uk/

IntAct (EMBL-EBI IntAct): http://www.ebi.ac.uk/intact/

MyGrid: http://www.mygrid.org.uk/


★ 초 록

Systems biology는 "생물학적 시스템을 컴퓨터로 재구성하는 것"으로, 특히 유전자와 여기서 발현되는 단백질과 같은 시스템을 구성하는 요소들의 정확한 정보를 필요로 합니다. 이러한 구성 요소들의 대한 정보는 생물정보학 데이터베이스에서 얻을 수 있고, 또한 상대적으로 내용은 풍부하지만  체계적으로 정리되어 있지 않은 과학 문헌 자체에서도 얻을 수 있습니다.


★ 서 문

자동화된 분자 생물학적 기술을 적용하는 것은, 가설을 실험함으로서 데이터를 생성하는 것 보다 엄청난 양의 데이터를 생산하게 끔 해주었습니다. 예를 들어 DNA sequencing 기술의 발전은 이 분야의 연구를 유전체에 의존하게 만들었고, 마찬가지로 전사물, 단백질, 대사물도 같은 방향으로 가게했습니다. 사실 분자 생물 데이터를 담고 있고, 이것들을 컴퓨터 알고리즘을 통해 분석가능하게 하는 데이터베이스의 필요성은 실험 기술이 지금 처럼 강력하기 전 부터 있었습니다. 그 예로, 단백질에 대한 정보의 목록을 작성하기 위한 최초의 시도는 1965년에 시작되었습니다. 그리고 1984년에 이런 일들이 the Protein Information Resourcethe Protein Data Bank (단백질 구조 정보 저장, 1971년 설립)the EMBL data library (핵산 서열 정보를 담은 가장 첫 번째 데이터베이스, 1981년 설립)로 발전하였습니다. 오늘 날, 이런 데이터베이스들은 화학적 실체, 유전자 발현, 분자 상호작용 및 생화학 경로의 정보를 담고 있는 수 많은 다른 리소스들과 같이 협력하고 있습니다. 이런 데이터베이스들은 대부분 기존의 출판된 저널의 데이터 보다 더 많은 양의 미가공 데이터를 포함하고 있습니다. 그러나 이런 데이터의 해석은 여전히 가설에 의한 실험에 의존해서 추론되어야 합니다. 그러므로 생물정보 데이터의 가치는 서열정보에서부터 과학적 문헌을 연결하는 올바른 링크를 만드는 능력과, 문헌에 포함된 정보를 추출하는 능력에 따라 좌우됩니다.


이 논문은 유전자, 단백질, 출판된 데이터를 어떻게 엮어주는지 알려주는 사용자 안내서 입니다.

이것은 생물학적 데이터를 찾을 수 있는 주된 리소스들과, 이들을 엮을 때, 있을 수 있는 어려움 및 잠재적인 문제들, 그리고 이런 문제들을 극복할 수 있는 일반적인 접근 방법과 특정 도구에 대해서 알려줄 것 입니다. 우리는 생물정보학계에서 흥미를 갖고 있는 시멘틱 웹 (semantic web)에 대해서도 토론합니다. 또한 전사체, 총단백질, 대사체, 분자 및 유전자 상호작용, 이미지 데이터 및 사용가능한 데이터 양이 계속 늘어나는 가운데, 이에 대한 새로운 해답은 절실 합니다. 그러나 이런 데이터의 대홍수는, 생물학적 시스템에 포함된 구성 요소들의 모델링을 통하여 이 시스템 전부를 구현하는 것을 목표를 하는 systems biology가 발전할 수 있는 기회가 되었습니다. 이것은 모든 구성 요소들이 명백히 밝혀지고 잘 기술되는 것을 필요로 합니다. 그러므로,  기초가 되는 데이터들 사이의 신뢰할 만한 연결점을 설립하거나 개발하는 것은 기본적인 서열 분서에만 필요한 것이 아니라, 포스트 게놈 시대에 떠오르는 생물학의 컴퓨터적, 합성적인 방법을 도와주는데 필요한 플랫폼의 중요한 부분이기도 합니다.


★ 주요 생물정보학 데이터베이스들


- 염기 데이터베이스들

EMBL-Genbank-DDBJInternational Nucleotide Sequence Database (INSD)는 전세계가 단일화로 염기서열을 저장하고 유지관리하기 위한 협력에서 나온 결과물 입니다. 대부분의 생물정보 데이터가 염기서열을 기반으로 한 추론에 의존하기 때문에, 이 서열 정보는 가장 중요한 생물정보 리소스가 됩니다. 이런 포괄적인 범위의 데이터는 대부분의 과학 저널들의 편집 정책에 의해 유지가 됩니다. 논문을 제출하는 저자는 그들이 출판하려는 논문과 연관되어 있는 서열 정보들을 이 데이터베이스에 입력해야 합니다. 이 공동 데이터베이스는 현재 8000만개의 서열을 포함하고 있습니다. 


이 아카이브에 들어있는 정보들은 균일하게 주석이 달려있지 않습니다. 현존하는 데이터베이스들의 내용물들은 유전자 예측을 위한 대부분의 방법에 쓰이고, 그러므로 이런 데이터베이스가 업데이트 되는 경우, 초기의 예측이 현재의 예측과 달라질 수 있습니다. 더하여 개인은 어떤 주석이 서열에 제일 적당한지 생각할 수 있고  자유롭게 고를 수 있습니다. 그 결과, 데이터베이스의 그 때 기록 없이는 아무것도 추론 할 수 없습니다. 


Whole genome sequencing의 도래와 함께, 고등의 진핵생물 종에서 나온 데이터를 활용한 새로운 계층의 데이터베이스들이 출현하였고, 여기의 서열들 및 자동적으로 생성된 주석들은 실험을 입증하는데 사용할 수 있을 뿐만 아니라 유전자 예측을 위한 결정적인 방법으로도 사용할 수 있습니다. Ensembl6  데이터베이스의 후생 동물 유전체(metazoan genome) 주석은 이에 대한 아주 좋은 예 입니다. 이런 종류의 데이터베이스는, 특히 서열이 최근에 밝혀졌을 경우 빈번하게 개정되지만, 안의 내용은 종종 전통적인 아카이브 보다 더 완벽할 뿐만 아니라 최신의 주석을 제공 합니다.



- 단백질 데이터베이스들

기능적인 정보에 대한 기록의 노력은 대부분 단백질 데이터베이스에서 이루어졌습니다. 과학 문헌에서 수동적으로 정리된 단백질 데이터베이스 UniProt Knowledgebase (UniProtKB)에서 세분화된 Swiss-Prot은 가장 풍부하고 정확한 단백질들의 기능 정보를 저장하고 있다고 널리 여겨지고 있습니다. 그리고 아직 실험적으로 연구가 안된 단백질들의 기능을 추론하는데 빈번히 사용됩니다. 세계적인 Protein Data Bank는 단백질 구조와 RESID database에서도 찾을 수 있는 전이 후의 개조(posttranslational modifications; PTMs)에 대한 정보를 담고 있는 아카이브로서 기능을 합니다.


- 다른 생물정보학 데이터베이스들

대략 수백개의 생물정보학 데이터베이스가 존재하고, 이들 중 상당 수가 특정 분류학이나 방법론적인 도메인에 초점을 맞추고 있습니다. 그 예로, 많은 모델 생물들(효모, 선충, 초파리, 쥐)에 대한 특정 데이터베이스가 있습니다. 이러한 데이터베이스는 위 종들의 범위에서 유전자 및 단백질 기능에 대한 가장 정확한 정보를 가지고 있습니다. 그 외 다른 리소스들은 특정한 유전자 패밀리(단백질 및 기능이 있는 RNA 등)에 집중하고 있습니다.


- 문헌 데이터베이스들


과학 문헌들은 컴퓨터화된 데이터베이스를 통해 접근할 수 있습니다. 가장 큰 생물학 문헌을 담고 있는 데이터베이스는 MEDLINE입니다. 이것은 천만 이상의 인용문을 갖고 있습니다. MEDLINE은 더 ㅋ큰 범위의 문헌 데이터베이스 PubMed(www.ncbi.nih.gov/entrez/query/static/overview.html)의 한 부분으로서 지속적으로 이용되고 있습니다. 많은 출판사는 World Wide Web에서 자신들의 아카이브를 통해 논문들이 공공으로 사용될 수 있게 만들 고 있습니다.  이것들은 종종 디지털 객체 식별자(digital object identifiers; DOIs; www.doi.com)를 사용합니다. DOIs는 데이터에 접근하는 일반적인 체계를 제공하고, 많은 논문들이 PubMed Central 아카이브에서 공짜로 사용되게 해줍니다.


생물정보학과 문헌데이터베이스들을 엮는 가장 간단한 방법은 cross-references를 사용하는 것 입니다. 이것은 서로가 리소스를 유지관리 할 수 있게 합니다. UniProtKB로 예를 들면 특정 단백질의 기능 정보를 더욱 자세하게 찾을 수 있는 100여개의 다른 리소스들(MEDLINE과 PubMed 포함)과 cross-references를 유지합니다. 이런 cross-references들은 데이터 창고에 의해 널리 활용됩니다.  


- 데이터 창고(Data warehouses)들

데이터 창고는 가지고 있는 데이터의 효율적인 질의를 돕기위해 만들어진 데이터베이스입니다. (표준 데이터베이스는 데이터 완전성을 지원하기 위함입니다.) 생물정보학에서 사용되는 많은 데이터 창고의 특징은 그들이 가지고 있는 모든 데이터에 적용할 수 있는 일반적인 질의 인터페이스(예를 들어 컴퓨터 언어와 그래픽 사용자 인터페이스; GUI)를 제공하는 것 입니다. 그러므로 인터페이스를 다시 디자인 할 필요 없이 새로운 데이터를 계속 추가 할 수 있게 해줍니다. 단독의 창고는 여러개의 다른 리소스로 부터 만들어 지지만, 정보를 필터 또는 추출하는 질의의 생성 허용은 이들 중 한 가지에서만 생성이 됩니다. 데이터는 다른 소스들간의 관계를 잘 파악할수 있게 해주는 단독의 모델에 잘 맞아야 합니다. 이것은 자주 이러한 소스들을 담고 있는 cross-references를 활용함으로써 수행됩니다. 데이터 창고 안에서 데이터의 중앙 집중화는 분산 질의를 돕기 휘해 디자인된 기술에 대한 대체 방안 입니다.  분산 방법은 업데이트 동기화와 같은 데이터 창고화와 관련된 특정 문제들을 피할 수 있게 해주지만, 많은 양의 데이터가 여러 곳에 퍼져 있으면 질의에 대한 최적하가 어렵워집니다. 


★ 통합된 생물정보학을 위한 공공 자원

많은 주된 생물정보학 데이터베이스들은 적은 숫자의 전문 연구소에 의해서 사용 가능해 집니더. 이런 연구소들의 사명은 과학계에 서비스를 제공하는 것 입니다 (영국의 European Bioinformatics InstituteEBI, 미국의 National Centre for Biotechnology InformationNCBI)이런 리소스들은 누구든지 생물정보 데이터를 다루려고 시도하는 사람들에게 가장 우선으로 사용됩니다.


EBI는 SRS 데이터 창고화 시스템을 사용하여 100여개의 생물정보학 데이터베이스를 담고 있는 큰 데이터 창고를 유지 관리 합니다. NCBI Entrez 서버18은 비슷한 기능을 제공합니다. 그러나 이 두 시스템의 포커스에는 차이가 있습니다. SRS 인터페이스는 강력하지만 복잡합니다, 일반적인 방식으로 데이터베이스간의 질의를 만들도록 허용합니다 (질의의 예를 들면, "이런 종에서 구조가 알려진 단백질의 DNA 서열을 찾아줘"가 있습니다).  Entrez는 좀더 구조적 질의에 대한 지원이 낮은 간단한 인터페이스를 제공합니다. 하지만 주어진 검색어에 대한 모든 종류의 데이터를 빠른 속도로 검색하여 줍니다 (질의의 예를 들면, ras1에 관련된 모든 유전자, 단백질, 유전체 및 문헌 정보를 찾아줘"가 있습니다). 두 창고는 유전자 및 단백질 데이터베이스만을 가지고 있는 것 뿐만 아니라 이런 리소스들을 직접적으로 엮어주는 문헌 데이터베이스들도 가지고 있습니다 (그 예로 Entrez에 포함된 PubMed가 있습니다).


- 생물정보 데이터와 문헌을 연결하는 것에 대한 문제

이론적으로 데이터 창고화 기술은, 독립적이지만 cross-reference된 데이터베이스간의 단일의 통합된 데이터 리소스 자동 생성을 지지하는 것 처럼 보입니다. 그러나 이러한 방법에는 내재된 한계가 있습니다. 정확한 cross-references는 좋은 결과를 내는대 매우 필수적 입니다. 하지만 대부분의 생물정보 데이터베이스에서는 수동적으로 처리할 수 있는 데이터의 양의 한계를 이미 벗어났습니다. 그 예로 UniProtKB안의 약 220,000기록(전체의 7%)이 수동으로 정리 되었습니다. 그러나 대신해서cross-references를 생성할 수 있는 자동화 기법이 사용될 수 있습니다. 이러한 방법들, (데이터가 리소스를 통해 이동하듯이)식별자를 추적하거나 (서열과 같은) 특징을 비교하여 데이터들 간의 동등성을 설립할 수 있습니다. 그러나 이러한 방법들은 항상 옭은 답을 생성하지 않습니다. 다른 데이터베이스들은 같은 생물학적 개체를 다른 식별자로 관리하거나 다른 이름을 사용합니다 (synonymy과 homonymy은 문헌 검색을 하는데 큰 문제요소가 됩니다). 또한 같은 개체라도 리소스들 마다 다른 특징이 할당되어 있을 수도 있습니다.


Cross-references가 잘 관리되고 있다고 해도 다른 문제들이 일어날 수 있습니다. 첫 번째로 데이터베이스안에 있는 기록들이 개념상 호환되지 않을 수 있습니다. 단백질과 유전자 같은 용어에는 수 많은 정의가 존재 합니다. 그리고 이들의 사용은 리소스들간의 표준화가 되어 있지 않을 수도 있습니다. 두 번째로 다른 리소스들은 내용도 다를 것 입니다. 그 뜻은 그들이 저장하기로 한 데이터가 서로 같지 않을 수 도 있다는 것 입니다. 세 번째로 엄청난 양의 실험적으로 생성되는 데이터가 업데이트 되는게 느림으로 중복되는 정보를 포함하거나 이미 오래된 정보일 수도 있습니다. 네 번째로 주석에 사용하는 다른 표준화와 구문은 데이터를 통합하는데 어려움을 줍니다.


궁극적으로 데이터 창고의 유용성은 포함되어 있는 데이터의 일관성에 의존합니다. 생물학적 데이터베이스들의 일관성을 개선하기 위한 방법으로는 데이터를 공유하기 위한 전세계적인 협력과 일반적인 제어 어휘의 사용 (예: Gene ontology; GO), 데이터 표현에 대한 표준법의 개발 등이 있습니다. 다른 방법으로는 완성된 데이터의 하위 데이터로 주석 처리가 잘 되어있고, 중복이 되지 않는 것들을 만들어서 이것을 바탕으로한 서비스를 개발하는 것 입니다. EBI의 Integr8 project는 유전체가 완전히 밝혀진 종들의 대한  리퍼런스 데이터세트와 분석 도구를 제공 합니다. Integr8 안에 있는 주석은 (기존에 제출된 데이터와 비교하여) 새로운 컴퓨터를 통한 분석과 활발히 정리된 데이터들의 이동을 통해 향상되고, 업데이트 되고 수정됩니다. 다시 주석이 달린 유전체는 Genome Reviews에서 EMBL과 같은 형식으로 사용할 수 있습니다. NCBIRefSeq 데이터베이스도 비슷하게 포괄적이고 중복이 없는 유전체, 유전자, 단백질의 서열을 제공합니다. Gene과 같이 관련된 리소스도 정의된 유전사 세트를 제공합니다. 이러한 리소스를 검색하는 것은 데이터 중복성이 있고, 표준화 되어 있지 않거나 이미 오래된 주석을 사용하는 주요 데이터베이스보다 더 깔끔한 결과를 제공해 줄 것 입니다.


★ 소규모 데이터 마이닝

데이터 마이닝은 두 가지의 현상을 말합니다: 일반적인 추측을 목적으로한 대규모 데이터세트의 분석과 흥미를 가지고 있는 데이터에서 특정 정보를 추출하는 것 입니다. 만약 초기 데이터가 유전자 또는 단백질 이름 또는 ID라면, UniProtKB (단백질 중심의 질의), Integr8 (유전체에 대한 정보) 또는 SRS (많은 리소스에 대한 컴플렉스 필터링)에서의 질의는 많은 정보를 가지고 있는 데이터베이스 기록들을 찾아내 줍니다. 그러나 만약 데이터가 nucleotide 또는 단백질 서열로 이루어져 있다면 이미 알려진 서열에 비교하여 이미 주석이 달린 비슷하거나  같은 분자를 찾을 수 있습니다. 이런 목적으로 주로 사용되는 알고리즘은 BLAST, FASTA, Smith-Waterman 등이 있고, 이것들은 EBI, NCBI 또는 다른 생물정보학 서비스의 웹사이트와 웹 서비스를 통해서 사용할 수 있습니다.


- 서열 분석

높은 수준의 서열 유사성은 기능적 동등성을 알려주는 좋은 지표입니다. 하지만 단백질의 전체적인 구조가 알려지지 않고, 동등하게 매칭이 되는 서열이 없을 때에도, 단백질의 기능에 대한 측면은 특정 도메인의 존재로 추론하기도 합니다.


서열안에서 도메인을 찾아내는 여러가지 방법들이 존재 합니다. 이들 대부분이 hidden Markov model을 사용합니다. InterPro는 정리되고 통합적인 리소스로 15개의 데이터베이스에서 도메인을 찾기위한 방법들을 합쳐 놓았습니다. InterProScan은 프로그램으로 (온라인 또는 로컬 설치를 통해) 위의 방법들을 적용하고, 알려지지 않는 단백질 서열의 특징을 찾는데 가장 강력한 도구 입니다. 어떻게 InterPro 엔트리가 결집하고 어떻게 스캔이 알려지지 않은 서열에 적용되는지 그림 1에 나타나 있습니다. 


그림 1. InterProScan을 사용한 단백질 분석


반면에 단백질의 구조을 예측하는 것은 좀 더 어려운 문제 입니다. 대부분 단백질들의 구조는 아직 알려져 있지 않습니다. 서열 유사성을 사용하여, 서열 안에 각각 구조에 대한 잔기의 기여가 주어졌을 때 구조를 추론할 수 있습니다. SWISS-MODEL 같은 도구는 서열 질의에 대해서 가능한 구조를 비슷한 모델 서열의 구조를 통해 알려줍니다. 특정 구조의 특징들도 직접적인 서열 분석으로 예측할 수 있습니다. 이런 종류의 분석을 수행하는 프로그램에는 TMHMM이 있고, 이것은 trans-membrane helices를 예측합니다. PSI-PRED server를 통해 사용 가능한 GenThreader는 단백질 folds를 예측해 줍니다. 그러나 구조가 알려진 다른 단백질과의 관계가 없는 서열에서, 더 높은 단위의 구조에 대한 예측은, 이차 구조나 도메인 구성을 예측하는 것 보다 훨씬 어렵습니다. 


- 문헌 마이닝

Swiss-Prot, Entrez, Gene 그리고 다른 잘 정리된 데이터베이스안에는 각각의 데이터에 관련된 출판물의 링크가 존재합니다. 그러나 유전자 또는 단백질이 연관된 많은 논문들의 참고 문헌은 직접적으로 정리되어 있지 않은 경우가 있습니다. 


더 많은 문헌은 단백질에 관련된 이름을 문헌 데이터베이스를 통해 직접적으로 검색할 수 있습니다. 그러나 이런 일을 할 때는 synonyms와 homonyms에 의해 생기는 혼란을 피할 수 있도록 신중해야 합니다. MEDLINE에 있는 초록은 medical subject headings (MeSH)라는 통제 어휘로 이름 붙혀졌습니다. 그리고 관련된 MeSH 용어를 검색하는 것은 원하는 논문을 찾게 해 줍니다.


그러나 불행히도, 대부분의 생물정보 데이터베이스 기록들은 MeSH 용어로 주석이 달리지 않았습니다. 대신 GO 어휘를 사용하여 주석을 답니다. GO MeSH보다 더 긴밀한 초점을 맞추고 있습니다. GO 하나의 어휘는 대략 20,000개의 용어를 가지고 있지만 MeSH는 기본이 되는 16개의 소구분으로 나뉘고 생물학 뿐만 아니라 지리학, 사회과학을 포함합니다. 반면에 GO는 오직 생물학의 3가지 측면만 다루고 있습니다. GO 용어를 자동적으로 해당되는 MeSH 용어로 번역해주는 리소스는 아직 개발 중에 있습니다.


자연어 프로그래밍 (natural language programming; NLP) 기숧은  문헌 데이터베이스들을 자동적으로 마이닝하는데 사용되고 있습니다. 그로인해 관련된 출판물들을 찾는 것에 대해 더욱 더 정교하게 해줍니다. NLP를 사용하는 프로그램은 큐레이터가 기록들을 다시 보는것 보다 더욱 빈번히 실행 할 수 있습니다. 이러한 기술들은 하나의 논문에 담겨있는 완전한 정보를 정확하게 요약하는대 한계가 있습니다, 그러나 수동적인 검토할 가치가 있는 논문을 효율적으로 찾게 해 줍니다.


iHOP은 웹 인터페이스로  자연어 프로그래밍을 사용하여 발견한 유전자에서부터 샘플 유전체까지

관련된 논문들에게 접근하게 해줍니다. 이 인터페이스는 각 논문에 관련된 특정 텍스트 보여줍니다. 그러므로 실제로 관련이 없지만 관련이 있다고 나오는 문서들을 빨리  제외할 수 있습니다. 알려지지 않은 서열의 특징을 찾는 워크플로우가 그림 2에서, 특정 예제를 그림3 에서 볼 수 있습니다.


그림 2. 일반적인 생물정보 분석 워크플로우에 대한 모식도


그림 3. 유전자에서 단백질 그리고 문헌까지: 샘플 분석



★ 큰 데이터세트에서 정보 추출

 큰 데이터세트에서 데이터 마이닝을 하는 것은 각각의 서열에서 데이터를 추출하는 것과 꽤 다를 수 있습니다. 수행되는 분석의 종류들은 일반적으로 비슷하지만, 데이터 양이 늘어 날 수록 자동화된 절차의 개발은 필수적 입니다. 비록 기본적인 소프트웨어는 종종 로컬 설치가 가능하지만, 많은 생물정보학 서버는 유저가 요청한 하나의 질의에 대한 데이터의 양의 한계를 둡니다. 대량 데이터 분석에 대한 사용자의 요구를 맞추려는 서비스 제공자의 다른  시도로는 인터넷 상에서 프로그램적인 접근의 규정이 있습니다. 이런 규정들은 World Wide Web consortium (http://www.w3.org/2002/ws)에서 제안한 웹 서비스의 규정을 따릅니다.


프로그래밍에 대해 전문지식이 없지만 많은 양의 데이터를 분석하는 과학자를 위하여 워크플로우 관리 도구가 해답을 제공할 수 있을 것 입니다. Taverna 생물정보학 데이터 형식에 맞게 디자인 되었습니다. 이것은 다양한 서비스의 집합을 위해 GUI를 제공하고 하나의 데이터 처리 파이프라인을 통하여 여러 다른 곳에서도 수행할 수 있습니다.


큰 데이터세트는 '지식의 발견'을 데이터의 패턴을 밝혀냄으로서 일어납니다. 예를 들어 각각의 단백질 상호작용 데이터들이 합쳐져서 로컬 또는 글로벌 단계의 네트워크를 형성할 수 있습니다. 

IntAct Hierarch view application과 같은 도구는 정보를 GO annotation의 패턴과 함께 볼수 있게 해줍니다. 그로인해 결과를 해석할 수 있게 도와줍니다.  대규모 데이터 마이닝의 다른 예는  UniProt 웹사이트에서 찾을 수 있습니다. 여기에선 정리된 데이터세트의 통계적 패턴이 정리가 되지 않은 서열들의 주석처리에 적용됩니다. 통계적 예측은 정리가 된 자료들의 주석처리에 대해서도 직접적으로 테스트 할 수 있으며, 각 데이터 종류가 서로를 입증할 수 있는지  보여줍니다.


★ 생물정보 데이터와 생물정보 데이터 서비스의 미래

유전자, 단백질, 문헌 데이터를 자동적으로 엮는 방법의 중요성은 서열정보가 늘어남과 수동적으로 정리하는 데이터베이스의 비율이 떨어지면서 커졌습니다. 그와 동시에 대규모 분석, 실험 기술의 지속적인 발전, 특성화된 데이터베이스와 사용의 증가, 리소스들이 물리적으로 분리 되어 있지만 수용할 수 있는 분산 질의 수행 능력 등의 중요성은 계속해서 커지고 있습니다. 그러나 크기와 복잡성에 한계가 있음으로 통합된 데이터 창고가 효율적으로 유지관리 될 수 있을 것 입니다. 이러한 기술들은 로컬 또는 개인의 데이터를 공공의 리소스와 결합하는 대에도 또한 필요합니다. BioMart와 같은 새로운 생물정보 창고화 시스템은 다른 곳에 존재하는 리소스 전역에 대한 질의를 지원하는 목적으로 디자인 되었습니다. 하지만 질의에 대한 효율적인 수행은 본질적으로 어렵습니다.


하나의 데이터 창고를 접근하기 위한 다른 방법은 여러 곳에서 데이터를 회수 한다음 합치는 것 입니다. MyGrid같은 프로젝트는 여러 리소스에 퍼져 있는 생물정보학 분석의 일반적인 문제에 대한 해결을 제공하는 소프트웨어를 개발하고 있습니다. 그러나 아직 서로 다른 리소스들의 데이터를 통합하기는 어렵습니다. 예를 들어 Entrez에서 나온 데이터와 EBI SBS server에서 나온 데이터를 합치기 위한 프로그램을 짤려면 도메인 데이터를 회수 할 수 있는 전문적 기술과 각 소스에서 나온 데이터를 파싱할 수 있는 능력 그리고 데이터를 올바르게 합칠 수 있는 추가적인 능력이 요구됩니다. 이러한 문제들은 생물정보 데이터 뿐만 아니라, 프로그래머가 인터넷에서 사용가능한 정보를 마이닝하는데 모두 해당됩니다. 그래서 생물정보학자들 사이에서는 더 넓은 범위의 도메인에 분산 컴퓨팅을 지원하는 '시멘틱 웹' 기술을 도입에 많은 흥미를 보이고 있습니다. 시멘틱 웹의 중요 개념은 자기 스스로를 나타내는 데이터의 출판, 즉 데이터가 자신을 묘사하는 메타데이터와 함께 출판되는 것 입니다. 만약 이런 출판물들이 표준화된 프로토콜에 합당하고 그들의 묘사가 컴퓨터 처리로 가능하다면 프로그래머는 각 소스에 대한 특정 지식이 필요 없이 분산데이터를 의미론 적인 검색엔진에 논리적으로 요청하여 회수하고 합칠 수 있을 것 입니다. 이 모델은 생물정보 데이터가 여러곳에 분산되어 있을 뿐만 아니라, microarray 와 분자 상호작용에 대한 데이터와 같은 특정 도메인의 기술적인 표준을 합쳐서 작동하게 할 수 있기 때문에 특히 매력적입니다. 


생물정보학계의 중요한 도전은 계속되고 있고 이런 표준들을 설립합니다. Small RNAs와 같이 아직 올바른 표기 방법이 없는 데이터 종류의 표준을 만드는 것 처럼, 생물정보학계는 계속해서 커지고 있는 데이터의 다양성과 양을 충분한 속도로 따라가고 있습니다.


표 1. 용어 해설

 Term  Description
 Data warehouse 효과적으로 데이터를 찾을 수 있도록 만들어진 데이터베이스. 주요한 데이터 소스를 사용하여 만들어지는 경우가 많음. 
 Distributed queries 분산 질의; 하나의 데이터 베이스가 아닌, 네트워크 상에 여러 곳의 다양한 데이터 소스에 대한 질의. 분산 질의는 분산된 데이터 위에서 작동하고 분산 컴퓨팅의 넓은 범위에 적용할 수 있는 하나의 방법이다
 Digital object identifier  디지털 환경에서 지적재산을 보여주기 위한 표준적인 방법 (예: 온라인 저널)
 GO (Gene ontology)  유전자 온톨로지; 유전자 생산물(RNA 또는 protein)에 대한 annotation(주석)
 MeSH (Medical subject headings)  MEDLINE에서 사용되는 구조 통제 어휘,
 과학 기사에 대한 내용 요약
 HMMs (Hidden markov models)  Sequence alignment에 사용되거나, alignment와 같은 특징을 가지고 있는 다른 sequence를 찾는데 적용할 수 있는 통계학적 모델링 기술
 Homonymy  두 개의 다른 실체(유전자)가 같은 이름을 갖는 경우
 NLP (Natural language programming)  자연어의 의미를 이해할 수 있게 하는 컴퓨터 과학 분야의 프로그래밍 방법
 -ome, -omics 특정 생물학적 시스템의 특정 종류(예: gene, transcript, protein)의 전체적 데이터(또는 거기에 대한 학문)를 나타내는 접미어
(예: genome/genomics, transcriptome/transcriptomics, proteome.proteomics)
 Parsing  파싱: 구조를 정의하는 몇 가지 규칙에 따라 (flat-file database entry와 같은) 문서의 내용을 분석하는 과정 
 Ontology 온톨로지; 컴퓨터과학용어, 단어와 관계들로 구성된 일종의 사전 (출처: Naver IT용어사전)
 Semantic web 시멘틱 웹; 컴퓨터가 정보자원의 뜻을 이해하고, 논리적 추론까지 할 수 있는 차세대 지능형 웹
 SRS (Sequence retrieval system) 생물정보학에서 널리 사용되고 있는 data warehousing system. EBI에서 가장 먼저 개발 하였고 현재 BioWisdom Ltd.에서 관리하고 있음
 Synonymy 하나의 실체(유전자)가 다른 여러개의 이름을 갖는 경우
 Web services 웹 서비스; 네트워크 상에서 서로 다른 종류의 컴퓨터들 간에 상호작용을 하기 위한 소프트웨어 시스템