식물미생물/Science

[논문요약] RNA-seq: 전사체학을 위한 혁신적인 도구

케이든 2014. 9. 17. 16:51

 


최신버전: 꼭 여기를 참조해 주세요

https://blog.naver.com/naturelove87/221423276676


RNA-seq: 전사체학을 위한 혁신적인 도구

 

서론

 

 

RNA-seq deep-sequencing 기술을 사용하여 전사체(transcriptome)를 프로파일링 하는 2007NGS의 발전 이후 개발된 방법이다. 이 방법을 사용하는 연구들은 이미 우리들의 진핵생물 전사체의 복잡성과 한계에 대한 시각을 바꾸어 놓았다. RNA-seq은 또한 다른 방법들 보다 전사물과 동형전사물(transcript isofomrs)의 양에 대한 정확한 측정을 제공한다. 이 논문은 RNA-seq 기법을 묘사하며, 적용하는데 있어 관련 문제들과 진핵생물 전사체의 특징을 찾는데 진보된 점을 알려준다.

전사체는 하나의 세포 안의 완전한 전사물 세트로 이들의 양은 특정 생장 단계나 생리적 조건에 따라 달라진다. 전사체를 이해하는 것은 유전체의 기능적인 요소를 이해하는데 있어 중요하며, 세포와 조직의 분자적 구성요소를 알아내고, 생장과 병을 이해하는데 매우 중요하다.

전사체학의 주요 목표는:

1.     mRNA, non-coding RNA, small RNA를 포함하는 모든 전사물들 종의 목록을 만든다.

2.     Start sites, 5’ & 3’ ends, splicing patterns, 전사 후 가공 등 유전자의 전사물적 구조를 결정한다.

3.     생장과 다른 생리조건 상태에서의 각 전사물의 변화하는 발현량을 측정한다.

 

Hybridization sequence를 기반으로 하는 방법들을 포함하여 다양한 기술들이 전사체의 양을 측정하려고 개발되었다. Hybridization을 바탕으로 한 방법은 일반적으로 형광물질로 표지를 한 cDNA를 맞춤 식의 microarray 또는 상용화된 고밀도 oligo microarray와 함께 배양하는 것을 필요로 한다. 이를 위해 특화된 microarray가 제작되었는데 예를 들어 probes exon junction에 지속되는 array들은 다르게 분활 되는 동형전사물들을 감지하고 양을 측정하는데 사용할 수 있다. 고밀도의 유전체를 대변하는 Genomic tilling microarrays는 몇 개의 염기쌍에서 ~100bp까지 매우 고해상도의 전사된 지역의 mapping을 보여줄 수 있다. Hybridization 기반의 방법은 큰 유전체를 조사하는 고해상의 tiling array만 제외하고는 높은 효율을 가지고 있고 상대적으로 비싸지 않다. 그러나 이런 몇 가지 한계점들이 있다. 열거하자면 기존의 유전체 서열정보에 의존해야 하고, cross-hybridization 때문에 많은 사전지식이 필요하며, 백그라운드 신호와 포화신호 때문에 감지할 수 있는 동적 범위에 한계가 있다. 게다가, 다른 실험마다 발현량을 비교하는 것은 종종 어려우며, 복잡한 표준화 방법을 필요로 할 때도 있다.

 

Microarray 방법과 비교하여, sequence 기반의 방법들은 cDNA의 서열을 직접적으로 결정한다. 초기에는 cDNA 또는 EST libraries Sanger sequencing이 사용되었으나, 이 방법은 상대적으로 비 효율적이고 비용이 높으며 일반적으로 정량적이지 못하였다. Tag를 기반으로 한 방법들이 이러한 한계를 극복하기 위해 개발되었으며, 여기에는 Serial analysis of gene expression (SAGE), Cap analysis of gene expression (CAGE), massively parallel signature sequencing (MPSS)가 있다. 이러한 Tag 기반의 방법들은 고 효율적이며, 정확한 디지털 방식의 유전자 발현량을 제공한다. 그러나 대부분이 비싼 Sanger sequencing 기술을 바탕으로 하고 있고, 상당한 비율의 짧은 tag들이 표준유전체에 mapping이 되지 않는다. 게다가 오직 전사물의 일부분만 분석이 되고 동형전사물끼리는 서로 구별할 수 가 없다. 이러한 문제점들은 전사체의 구조를 annotation 하는데 전통적인 sequencing 기술의 사용을 제한하였다.

 

최근 새로운 고 효율의 DNA sequencing 방법의 개발은 mapping과 전사체의 정량화에 새로운 방법을 제공하였다. RNA-seq이라고 명명된 이 방법은 기존에 방법에 대한 명백한 이점을 가지고 있으며 진핵생물 전사체를 분석하는데 새로운 혁명이 있을 것 이라고 예상한다. 이것은 이미 Saccharomyces cerevisiae, Schizosaccharomyces pombe, Arabidopsis thaliana, 쥐와 인간세포에도 적용이 되었다. 이 논문에서 우리는 RNA-seq이 어떻게 작용하나 설명하고, 문제점을 토론하며, 벌써 우리의 진핵생물 전사체에 대한 시각을 바꾸어 놓은 이 방법을 사용한 연구들의 개요를 제공한다.

 

RNA-seq 기술과 이점

Figure 1 일반적은 RNA-seq 실험


RNA-Seq은 최근에 개발된 deep-sequencing 기술을 사용한다. 일반적으로 하나의 RNA 집단(전체 또는 Poly(A)+와 같은 분류)은 하나 또는 양쪽 끝에 adaptor가 붙은 cDNA 조각들의 library로 전환이 된다 (Figure 1). 증폭이 되었거나 되지 않은 각 분자들은 고 효율적인 방식으로 sequencing이 되어 한쪽 끝에서부터 짧은 서열을 얻거나(single-end sequencing) 또는 양쪽 끝에서 얻는다(paired-end sequencing). Read들의 길이는 일반적으로 30-400bp이며, 사용된 DNA-sequencing 기술에 따라 달라진다. 원리대로라면 어떤 고 효율적 sequencing 기술도 RNA-seq에 사용할 수 있으며, Illumina IG, Applied Biosystems SOLiD, Roche 454 Life Science systems는 이러한 목적으로 사용하기 위해 이미 적용하였다. Helicos Biosciences tSMS system를 사용한 RNA-seq 연구는 아직 출판되지 않았지만 이것은 타당하며 목표로 하는 cDNA의 증폭을 피하는 이점을 추가하였다. Sequencing 후에 결과로 나온 reads들은 표준 유전체 또는 표준 전사물에 정렬이 되며, 또는 유전체 서열이 없을 때 de novoassembly되어 전사적 구조와 각 유전자의 발현량을 구성으로 한 유전체 단위의 전사 지도를 생성한다.


기술

Tiling microarray

cDNA or EST sequencing

RNA-seq

기술 제원

 

 

 

원리

Hybridization

Sanger sequencing

High-throughput sequencing

해상도

10~100bp

단일 염기

단일 염기

효율

높음

낮음

높음

유전체 서열에 대한 의존도

있음

없음

특정 경우

배경 잡음

높음

낮음

낮음

적용

 

 

 

전사지역과 유전자발현의 동시적 mapping

가능

유전자 발현은 제한됨

가능

유전자 발현량 정량화의 동적 범위

100배 까지 가능

실용적이지 않음

8,000배 이상

다른 동형전사물의 구별 능력

제한적

가능

가능

유전자 대립형질 발현의 구별 능력

제한적

가능

가능

실용성 이슈

 

 

 

필요한 RNA의 양

높음

높음

낮음

가격

높음

높음

상대적으로 낮음

Table 1 다른 전사체적 방법과 RNA-seq을 비교했을 때 이점들

RNA-seq이 아직 활발하게 개발되고 있는 기술이라고 해도, 이것은 현존하는 기술들 보다 더 많은 이점들을 제공한다 (Table 1).

1.     Hybridization 기반의 방법과 다르게 RNA-seq은 현존하는 유전체 서열에만 대응하는 전사물들을 감지하는데 제한되어 있지 않다. 예를 들어 454 기반의 RNA-seq은 그랜빌 큰표범나비(Granville fritillary butterfly)의 전사체를 sequencing하는데 사용되었다. 이것은 아직 유전체가 밝혀지지 않은 비모델 생물들에게 RNA-seq이 매혹적으로 느껴지도록 했다. RNA-seq은 단일 염기 해상도로 전사 경계의 정확한 위치도 발견해 낼 수도 있다. 더하여 RNA-seq에서 나온 30bp의 짧은 read들은 어떻게 2개의 exon이 연결되어 있나 정보를 주며, 반면에 긴 read들 또는 pair-end의 짧은 reads들은 multiple exon들 간의 연결성을 보여줄 수 있다. 이러한 요소들은 RNA-seq이 복잡한 전사체 연구에 유용하다는 것을 알려준다. 더하여 RNA-seq은 전사되는 지역의 서열 다양성(: SNPs)을 알 수 있게 해준다.

 

Figure 2 발현량의 정량화: RNA-seqmicroarray의 비교

2.     DNA microarray에 상대적으로 RNA-seq의 이점은 백그라운드 신호가 만약에 있으면 매우 낮다는 것이다. 그 이유는 DNA 서열이 유전체의 특정지역에 명백하게 mapping 될 수 있다는 것이다. RNA-seq은 얻을 수 있는 서열의 수와 상관관계를 갖는 정량화에 대한 상한선이 없다. 따라서 이것은 전사체가 감지될 수 있는 발현량의 큰 동적 범위를 가지고 있다: 효모의 1,600mapped read를 분석한 연구에서는 9,000배 이상의 범위가 예측되었고, 4000만 쥐 서열 reads에서 크기가 5배 이상 되는 범위가 예측 되었다. 반면에 DNA microarray는 아주 높거나 낮은 유전자 발현에 대한 민감도는 부족하고 그러므로 매우 작은 동적 범위를 가지고 있다 (100배에서 몇 백배까지) (Figure 2). RNA-seqquantitative PCR (qPCR) 및 아는 농도의 spike-in RNA를 사용하여 결정한 것과 같이 발현량의 정량화가 매우 정확하다는 것을 보여주었다. RNA-seq 결과 또한 기술적이나 생물학적 반복에도 높은 단계의 재현성을 보여주었다. 마지막으로 여기에는 cloning 단계가 없기 때문에, 그리고 Helicos 기술에는 증폭 단계가 없기 때문에, RNA-seq은 적은 RNA 시료를 필요로 한다.


이러한 모든 이점을 고려할 때, RNA-seq은 고 효율과 정량적인 방식으로 모든 전사체를 조사할 수 있는 가장 첫 번째 sequence 기반의 방법이다. 이 방법은 tiling array 또는 대규모의 Sanger EST sequencing보다 더 적은 가격으로 annotation 및 유전체 단계에서의 디지털적 유전자 발현량을 단일 염기의 해상도로 볼 수 있도록 해준다.


RNA-seq이 직면하는 도전

Library 구축

Figure 3 DNA library 준비: RNA/DNA fragmentation 비교

Figure 4 RNA-seqPoly(A) tags


전사체학의 이상적인 방범은 크고 작은 모든 RNA들을 직접적으로 발견하고 정량화하는 것이다. RNA-seq이 오직 몇 가지의 단계로 이루어져 있다고 해도 (figure 1), cDNA library를 구축할 때 몇몇의 조작단계가 필요하며 이것은 모든 종류의 전사물들을 프로파일링하는데 복잡하게 만든다. Small RNAs(Piwi-interacting RNAs, short interfering RNAs 및 기타)와 다르게 긴 RNA 분자들(200-500bp)은 무조건 적으로 작은 작은 조각으로 분열되어야지 대부분의 deep-sequencing 기술과 호환될 수 있다. 일반적인 단편화(fragmentation) 방법은 RNA fragmentation(RNA hydrolysis 또는 nebulization)cDNA fragmentation(DNase I 처리 또는 초음파처리)을 포함한다. 이러한 각 방법들은 결과 안에 다른 치우침을 갖게 한다. 예를 들어 RNA fragmentation은 전사물 body로 약간 치우치는 경향이 있지만 다른 방법들과 비교하였을 때 전사물들의 끝은 고갈되어 있다(Figure 3). 반대로 cDNA fragmentation은 전사물의 3’ ends의 서열을 밝혀내는데 강한 치우침을 보인다, 그러므로 끝을 밝혀내는데 정확한 정보를 제공한다 (Figure 4).


Library를 구축할 때 조금의 조작은 RNA-seq 결과의 대한 분석을 어렵게 한다. 예를 들어 서로 동일한 짧은 reads들은 증폭된 cDNA libraries에서 얻을 수 있다. 이것은 풍부한 RNA종에 대한 진짜 반영일 수 도 있고 PCR에 의한 인공물일수도 있다, 이러한 가능성을 구분할 수 있는 한가지 방법은 다른 생물학적 반복을 수행하였을 때 같은 서열이 관찰되나 보는 것 이다.


Library를 구축할 때 중요하게 생각해봐야 할 다른 점은 두 연구에서 진행된 것 같이 strand-specific library를 준비해야 되나 말아야 되나 하는 것 이다. 이러한 library들은 전사물의 방향 정보를 얻는데 이점이 있고, 전사체를 annotation 하는데 귀중하며, 반대 방향에서 겹치는 전사물들의 지역을 알아내는데 특히 중요하다. 그러나 strands-specific library는 현재 생성하기 어려운 작업이며, 그 이유는 많은 단계와 비효율적인 직접적 RNA-RNA 접합이 필요하기 때문이다. 게다가 antisense의 전사물들이 역전사의 인공물이 아니게 필수적으로 보장하여야 한다. 이러한 복잡한 이유 때문에 대부분의 연구들은 cDNAstrand 정보 없이 분석을 하였다.


생물정보학적 도전

다른 고효율의 sequencing 기술과 마찬가지로 RNA-seq은 몇 가지 정보적 도전에 직면하고 있다. 이것은 효율적인 저장, 검색, 빅데이터의 처리의 개발을 포함하고, 이미지 분석, base-calling, low-quality reads의 제거에 대한 오류를 줄이는 것도 있다.


고품질의 reads가 얻어졌으면 데이터 분석으로 가장 먼저 수행 할 일은 RNA-seq에서 나온 짧은 read들을 표준 유전체에 mapping 하거나, 전사물 구조를 알기 위해 유전체 서열에 정렬시키기 전 contigsassembly하는 것이다. Read들을 유전체에 mapping하기 위한 프로그램에는 ELAND, SOAP, MAQ, RMAP 등이 있다. 그러나 짧은 전사체적 read들 또한 poly(A) ends에 포함되어 있거나 exon junction에 분포하는 read들을 포함한다. 이런 것들은 같은 방식으로 분석될 수 없다. Splicing이 드문 유전체(: S. cerevisiae)에서는 poly(A)-tail과 적은 수의 exon-exon junctions에 대한 특별한 주의가 필요로 한다. Poly(A) tail들은 어떤 read들의 끝에 다수의 A 또는 T의 존재를 본고 간단히 찾을 수 있다. Exon-exon junction은 특정 서열 내용의 존재(Splice sites에는 GT-AG dinucleotide가 있다)로 찾을 수 있고, splicing 때 제거되는 intronic sequences의 낮은 발현으로 확인 할 수 있다. 전사체 지도는 이러한 방법으로 S. cerevisiae에서 제작 되었다. 좀더 복잡한 전사체는 splice junction에 있는 read들을 mapping하는데 어려운 점이 있다, 그 이유는 광대한 alternative splicingtrans-splicing이 존재하기 때문이다. 일부 해결책은 이미 알고 있거나 예측되는 모든 junction 서열들을 포함하는 junction library를 편찬하고 이 libraryread들을 mapping시키는 것이다. 미래에 대한 도전은 2개의 떨어진 서열 또는 두 개의 다른 유전자 사이의 exon들에서 일어나는 새로운 splicing을 발견하는 컴퓨터적으로 간단한 방법을 개발하는 것이다.


큰 전사체의 alignment는 또한 매우 복잡하다, 그 이유는 서열 read들의 상당한 부분이 유전체의 다양한 위치에 가서 붙기 때문이다. 하나의 해결책은 이렇게 여러 곳에 붙는 read들을 이들 양 옆의 특이적인 서열에 mapping 되는 read들의 수를 바탕으로 하여 비율적으로 할당하는 것이다. 이러한 방법은 적은 copy 숫자의 반복되는 서열에는 성공적이었다. 높은 copy 숫자의 짧은 read(>100)들과 긴 반복 지역들은 현재 더 어려운 도전이다. 더 긴 서열 read들을 얻는것은, 예를 들어 454 technology를 사용하였을 때, 여러 곳에 붙는 문제들을 좀 더 쉽게 해줄 것이다. 대신에, 짧은 서열이 DNA 조각 양 끝에서부터 결정되는 paired-end sequencing 전략은 mapping 되는 조각의 길이들을 200-500bp로 늘리고 미래에는 유용해 질 것이라고 예측되고 있다. Sequencing error polymorphism은 단지 반복 DNA뿐만 아니라 모든 유전체의 mapping 문제에 존재할 수 있다. 일반적으로 단일염기 하나의 차이는 문제가 되지 않는데 그 이유는 대부분의 mapping algorithm들이 하나 또는 두 개의 염기 차이를 수용할 수 있기 때문이다. 그러나 더 큰 차이를 푸는 것은 polymorphism을 위한 더 나은 표준유전체 annotationdeeper sequencing coverage를 필요로 한다.


Coverage 대 비용


Figure 5

다른 하나의 중요한 이슈는 sequence coverage 또는 조사된 전사체의 퍼센트로 이 것은 비용에 영향을 준다. 더 큰 coverage는 더 깊은 sequencing depth를 필요로 한다. 드문 전사물이나 변종을 발견하기 위해서는 상당한 depth가 필요하다. Alternative slicing의 증거가 없는 효모의 간단한 전사체 안에서는 poly(A) mRNA 3,000만의 35nt reads가 단일 조건에서 자란 세포의 유전자 대부분(>90%)의 전사체를 관찰하는데 충분하다. 이러한 depth는 아마도 대부분의 목적에 비해 더 충분할 것이고 그 이유는 RNA-seq에 의해 감지되는 발현되는 유전자의 수는 특이적으로 mapping되는 reads400만일 때 80% coverage를 보여주고, 그 이후 depth를 두 배로 늘릴 때 마다 coverage는 단지 10%만 오르기 때문이다 (Figure 5). 남아있는 유전자들은 아마도 이 조건에서 발현되지 않거나 poly(A) tail이 없을 것이다. 많은 다른 조건들의 분석은 coverage를 더 늘릴 수 있다. S. pombe6개의 다른 생장 조건에서 온 1,220만의 reads에서는 annotation된 유전자의 >99% 전사체를 감지할 수 있었다.


일반적으로 더 큰 유전체는 전사체가 더 복잡하고 충분한 coverage를 위해서는 더 깊은 sequencing coverage가 필요하다. 유전체 sequencing coverage와 달리 전사체의 coverage 계산은 좀 덜 수월하다. 그 이유는 진짜 숫자와 다른 전사물의 동형 양은 주로 알려져 있지 않고 유전체 전반에서 전사 활동이 다양하기 때문이다. 한 연구는 쥐의 태아 세포 안에서 coverage의 측도로 특이 전사 시작 위치의 숫자를 사용하였고 8,000reads에서 시작 위치의 숫자가 정체기를 맞는 것을 보여주었다 (Figure 5b). 그러나 이 방법은 alternative splicing과 전사 종결 위치에 대한 전사 복잡성을 보여주지는 않는다. 아마도 sequencing을 더하면 추가적인 변형들을 발견할 수 있을 것이다.


전사체에 대한 새로운 이해

위에서 묘사한 도전들에도 불구하고 RNA-seq의 이점은 우리가 전사체의 유래 없던 전체적 시각과 많은 종 및 세포 종류에서의 전사체 발생을 연구할 수 있게 해주었다. RNA-seq의 도래이전, 전사체가 효모, 초파리, 사람 유전체에서 예측된 비율보다 더 많이 전사된다고 알고 있었고, 효모와 사람에서는 구별되는 동형이 많은 유전자에서 발견이 되었었다. 그러나 대부분의 전사물의 시작과 끝 그리고 exon들이 정확하게 해결되지 못했고 splicing된 이종성 지역이 아직까지 이해가 잘 되고 있지 않다. RNA-seq의 고해상도와 sensitivity는 많은 새로운 전사 지역과 알려진 유전자의 splicing isoform을 밝혀내었고, 많은 유전자의 5’3’ 끝을 mapping하였다.


유전자 mappingexon

RNA-seq의 단일염기 해상도는 현재 유전자 annotation의 많은 측면들을 재검토 할 수 잇는 잠재력을 가지고 있고, 이것은 유전자 끝과 알려진 유전자들의 intron 그리고 새로운 전사지역을 발견하는 것이다. 5’ 3’ 끝은 신호의 가파른 하락으로 10-50 염기안에서 mapping할 수 있다. 3’ 끝은 poly(A) tail을 찾아서 정확하게 mapping 할 수 있고, intronGT-AG splicing과 일치하는 위치를 찾음으로써 mapping 할 수 있다. 이러한 방법을 사용하여 80%5’3’ 경계, 모든 annotation된 유전자의 85%S. cerevisiaemapping 하였다. 비슷하게 S. pombe에서도 많은 경계가 RNA-seq 데이터와 tilling array 데이터를 합쳐서 발견이 되었다.


이 두 연구는 기존의 분석되지 않은 많은 5’3’UTR을 발견하게 해주었다. S. cerevisiae안에서 대규모의 3’끝 이종성은 두 가지 단계에서 발견이 되었다.1

1.     Local heterogeneity exists in which a cluster of sites are involved, typically within a 10bp window

2.     There are distinct regions of poly(A) addition for 540 genes

그럴 뜻 하게 이런 다른 3’ 끝들이 mRNA 위치 신호 및 분해 신호처럼 구별되는 특징을 다른 mRNA 동형에게 줄 것이고 이것은 특이 생물학적 기능을 갖는 원인이 된다. 3’ 이종성에 더하여 mRNA들의 5’ UTR 안의 상위 ORF의 목록(uORF)17에서 340(효모 유전자들의 6%)으로 크게 늘어났다. uORFmRNA전사와 안정성을 조절함으로 이러한 서열들은 진핵생물 유전체의 조절에 한 이해를 기존에 정당하게 평가하지 못하게 했을 것 이다. 흥미롭게도 uORF가 있는 많은 mRNA는 전사조절인자로 이러한 조절인자가 그들 스스로 상당히 조절된다는 것을 암시한다.


전사물 경계의 mapping은 진핵생물 유전자 구성의 많은 새로운 특징들을 발견하게 해주었다. 많은 효모 유전자들의 3’ 끝이 겹치는 것을 발견하였다. 최신 연구에서 사용된 것과 비슷하게 완화된 기준을 사용했을 때 모든 효모 ORF의 약 25% 808쌍을 찾았고 이들의 3’ 끝이 겹쳤다. 비슷하게도 쥐 전사물의 3’ exon안에 antisense 발현은 풍부하다. 이러한 특징은 아마도 영향 받는 유전자들에게 흥미로운 조절 특징을 수여할 것이다. 다세포 생물에서 antisense 전사는 siRNA의 생성 또는 dsRNA editing을 통하여 유전자 발현을 조절할 수 있을 것 이다. siRNAdsRNA-editing 기능이 없어 보이는 효모에서는 하나의 유전자에서의 전사가 겹쳐지는 유전자와 간섭이 일어나거나 또는 다른 기작을 통하여서 유전자 발현을 조절할 것이다.


광대한 전사물 복잡성

RNA-seqsplicing 다양성에 대한 양적 조사를 알려진 splice junction과 잠재력이 있는 새로운 것들 위에 reads들을 찾음으로써 할 수 있다. 사람에서는 31,618 splicing이 확인 되었고 (알려진 모든 splicing11%) 새로운 379 splicing이 발견 되었다. 사람 세포로한 다른 연구는 94,241 junction을 찾았고 이 중 4,096은 새로운 것 이였으며 alternative splicing의 보편적인 형태는 exon skipping으로 나타났다. 쥐에서는 광범위한 alternative splicing3,462 유전자에서 관찰되었다. 더하여 다양한 쥐 유전자에서 온 exon을 연결하는 42 splicing을 발견하였다.


새로운 전사

Transposon taggingtilling array를 이용한 기존 연구들은 효모, 초파리, 사람의 유전체에 많은 새로운 전사 지역들이 Poly(A)+ RNA를 대표한다고 암시한다. 그러나 tilling array 결과의 정확성은은 cross-hybridization에 대한 우려 때문에 불확실하다. Background noise에 문제를 받지 않는 RNA-seqS. cerevisiae S. pombe 유전체에서 적어도 75% 그리고 아마도 90% 이상까지 발현된다는 것을 확인 하였다. 더하여 RNA-seq의 결과는 애기장대, , 사람, S. cerevisiae, S. pombe 유전체를 포함한 모든 조사된 종에서 큰 숫자의 새로운 전사지역이 있다는 것을 알려주었다. 487453의 새로운 전사물들이 각각 S. cerevisiaeS. pombe에서 발견되었다. Microarray를 사용했을 때는 S. cerevisiae에서 반이나 발견되지 않았었다. 효모 안의 다수의 이런 새로운 전사지역은 단백질을 생성하지 않는 것으로 보이고 이들의 기능은 아직 밝혀지지 않았다. 현재의 sequencing depth는 포유류에서의 새로운 전사물 단위의 경계를 밝혀내는데 충분하지 않다. 그러나 30-40%read들이 annotation이 되지 않은 지역에 mapping된다. 이러한 새로운 전사지역들은 다수의 밝혀지지 않은 splicing variants와 합쳐서 기존에 평가했던 것 보다 더한 전사 복잡성이 있다고 암시한다.


전사량 정의하기

RNA-seq은 수치로 microarray보다 더욱 정확하게 RNA 발현량을 측정할 수 있다. 원리대로는 세포 안의 모든 분자의 절대적인 양을 측정할 수 있고 실험들간의 결과를 직접적으로 비교할 수 있다. 몇 가지의 방법들이 정량화에 쓰여왔었다. exon의 좀 더 일정한 coverage를 주는 RNA fragmentation 후의 cDNA synthesis에서는 유전자 발현량은 하나의 유전자에 맞아 떨어지는 read들의 전체 수에서 추측할 수 있고 특이적으로 mapping되는 exon들의 길이로 정규화 된다. 3’에 치우친 방법은 3’ end에 가까운 windowread 숫자가 사용된다. 이러한 방법에 의해 측정된 유전자 발현량은 qPCRRNA spike-in control과 가깝게 연관되어 있다.


RNA-seq의 특별한 한가지의 강력한 이점은 복잡한 수준의 정규화된 데이터세트가 필요없이 다른 세포 또는 조건 전반에 걸쳐 전사 역할을 볼 수 있다는 것이다. RNA-seq은 효모의 영양 생장, 효모 분열, 쥐의 태아줄기 세포 분화 동안 유전자의 발현을 정확하게 감시했고, 발달하는 동안 유전자 발현의 변화를 감지했고, 다른 조직들 간의 유전자 발현 차이점에 대한 디지털적인 측정을 제공하였다. 이러한 이점들 때문에 RNA-seq은 발달 및 정상적인 생리 변화에 대한 전사 역학, 병과 정상적인 조직간의 비교 및 병을 판단하는 바이오메디컬 시료의 분석에 의심할 여지 없이 중요하다.

 

향후 방향

RNA-seq의 사용이 아직 초기 단계이긴 하지만 기존에 개발된 전사학적 방법들 보다 명백한 이점들이 많다. RNA-seq에 대한 다음 큰 도전은 모든 유전자들에서 드문 RNA 동형들의 발현 변화를 찾고 감시하는 것이고 더 복잡한 전사체를 목표로 하는 것 이다. 이러한 목표를 이루는데 발전할 기술은 pair-end sequencing, strand specific sequencing 그리고 coveragedepth를 늘리기 위한 더 긴 reads의 사용이다. sequencing 비용이 계속 줄어들면서 RNA-seqmicroarray에서의 전사체의 구조와 역학을 밝혀내는데 사용되는 많은 활용들을 대체할 것으로 예상된다.