생물정보학/Bioinformatics

NCBI의 nr db에서 특정 종 제거하기

케이든 2016. 1. 4. 10:52

 

 

NCBI의 nr db에서 특정 종 제거하기

 

blastn 과 blastp에는 모두 -negative_gilist 옵션이 있습니다. 이 옵션을 사용하여 로컬로 다운받은 nr에서 특정 GI 세트를 빼고 blast를 할 수 있습니다. 원하는 종의 모든 서열에 대한 GI 파일을 만들고 싶다면, nucleotide나 protein search space (nucleotide: http://www.ncbi.nlm.nih.gov/nuccore/, protein: http://www.ncbi.nlm.nih.gov/protein/)에서 특정 종의 taxon id를 "txid559515"이런식으로 칩니다. "sendto"를 클릭하고, "file"을 선택 후 "GI list" 포맷을 선택하여 파일을 만듭니다. 이것은 원하는 종의 모든 서열에 대한 GI를 다운로드 받을 수 있게 해줍니다. 그 다음 로컬에서 blastn -query seq.fa -db nr -negative_gilist 를 하면 됩니다. 이것은 nr database에서 특정 종을 제거하는 직접적인 방법은 아니지만 nr에 blast search를 할 때 특정 종의 hit이 안나오게 해줍니다.

 

There is this option -negative_gilist in both blastn and blastp. You can use that to exclude a set of GI while doing your blast search against locally downloaded nr. To prepare a file containing GI of all the sequence from the concerned species, you can type the taxon id of your species as follows "txid559515" at NCBI nucleotide or protein search space http://www.ncbi.nlm.nih.gov/nuccore/ http://www.ncbi.nlm.nih.gov/protein/ click on "sendto" and select "file" and select format as "GI list" and click on create file. It will download the GI of all the sequence available at NR that belong to the specific species of concern. Then you can use this file in your local blast command as blastn -query seq.fa -db nr -negative_gilist (This is not a direct answer for how to exclude a species from nr database but the work around to deal with a situation when you are doing to blast search against NR and don't want hits from a particular species) Hope that helps. :)

 

reference: https://www.researchgate.net/post/How_to_remove_particular_species_from_nr_db_of_NCBI