학술관련/아무거나

GenBank 염기서열의 분석

ㄱ ㅐ ㅇ ㅁ ㅣ 2007. 12. 23. 02:33

원하는 유전자가 정해졌으면 PCR을 하기 위하여 유전자의 정보를 얻어야 합니다. 그런데 먼저 유전자라는 것이 어떤 것인가 알고 넘어가야 할 것입니다. 세포의 핵 내에는 염색체(chromosome)라는 것이 있는데 핵분열 중에 특히 잘 보입니다. Chromosome은 chromatin fiber의 뭉치로 구성되어 있으며 이는 DNA가 histone 단백질들을 칭칭 감고 있는 형태인 nucleosome으로 구성되어 있음을 알 수 있습니다.

DNA라는 것은 deoxyribonucleic acid의 약자로, 말 그대로 화학물질의 명칭입니다. 세포의 핵 속에 다량 존재하기 때문에 "핵산(nucleic acid)"라는 말이 붙었지요. 이 물질이 유전에 관여한다는 것을 안 것은 지금으로부터 채 50년이 안됩니다. DNA가 유전물질이란 것이 알려진 이후 DNA를 유전자(gene)이라는 말과 혼용하고 있지만, 엄밀하게 따지면 유전자라는 것은 DNA 중에서도 유전에 관여하는 부분을 일컫는 말이라 할 수 있습니다. DNA의 부분 부분 중에는 아직도 기능이 밝혀지지 않은 부분이 많습니다.

지놈(genome)이란 것은 유전자(gene)들의 집합체를 의미합니다. 사회적으로는 게놈이라고 읽기로 약속이 되었다고 하지만, 이 일을 하는 사람은 누구나 지놈이라고 읽습니다. 만약 이 용어를 게놈이라 읽어야 한다면 gene(진)을 겐이라 읽어야 하며 genomics(지노믹스)도 게노믹스라고 읽어야 하는데 아무도 이렇게 읽지 않습니다. 신문에서 "이번 인간 게놈 프로젝트를 수행한 셀레라 지노믹스라는 회사는..."이란 기사를 읽고 쓴 웃음을 지은 기억이 납니다.

DNA 부분 중에서 어떤 단백질을 만드는 부분이 밝혀지면 유전자 은행(GenBank)에 등록을 하게 되어 있습니다. 따라서 우리가 어떤 단백질을 만드는 유전자 염기서열이 필요하면 GenBank를 뒤져보면 됩니다. Human genome project의 결과로 사람의 염기서열은 거의 모두 밝혀져 있어서 이제는 이렇게 인터넷을 통해 필요한 유전자의 염기서열을 검색하는 일이 대단히 중요해졌습니다.

염기서열을 검색하는 인터넷 싸이트를 비롯해서 분자생물학에 유용한 싸이트는 이 홈페이지의 [자주가는 싸이트]에 수록해 놓았습니다.

GenBank에서 유전자 검색하기

GenBank의 주소는 http://www.ncbi.nlm.nih.gov/Genbank/index.html입니다. 이곳에 가면 다음과 같은 화면이 나타납니다.

p53은 매우 연구가 많이 된 유명한 유전자입니다. 그래서 p53이라고만 입력하면 관련 유전자를 포함해서 대단히 많은 유전자가 검색됩니다. 한번 해 보시면 이렇게는 찾기 힘들다는 걸 아실 겁니다. 우리가 지금 원하는 것은 사람 p53 유전자의 mRNA 입니다. (왜 DNA 대신 RNA 를 찾는가는 다음에 설명합니다).

'p53 mRNA complete human'의 키워드로 찾아보면 다음과 같은 결과를 얻습니다. GenBank 검색엔진은 상당히 똑똑해서 AND나 OR를 넣지 않고 그냥 자연어 검색을 하듯이 입력해도 잘 찾아줍니다. 그래도 139개나 되는 유전자가 검색되었군요.

p53이란 유전자가 처음 밝혀진 다음에 계속해서 관련 유전자가 밝혀졌을 것이므로 이런 경우는 마지막 페이지로 가서 보는 것이 좋습니다.

사실, 검색을 하다보면 제목만 보고서는 자기가 원하는 염기서열을 얻기가 쉽지 않다는 것을 아실 것입니다. 제목이 똑같은데도 들어가서 보면 염기서열이 조금 틀린 경우도 있고 무엇보다 제목에 적혀있는 정보가 정확한 이름이 아닌 경우가 많습니다. 이것은 사람들이 유전자를 밝혀서 GenBank에 등록할 시점에서 정확한 명명이 않된 경우가 많기 때문이며, 따라서 유전자은행의 이름들은 아직 정리가 안되어 중구난방입니다. 최근에 NCBI에서 정리를 시도하고 있지만 개인적인 의견으로는 아직까지는 더 복잡해지기만 한 결과를 초래하고 있는 것 같습니다. 어쨌든 열심히 살펴서 정확한 페이지를 검색해야 하겠습니다.

가장 정확한 검색 방법은 그 유전자가 처음 보고된 논문을 참조하는 방법입니다. 이 경우 논문에 GenBank의 등록번호(accession number)가 있습니다. GenBank의 모든 정보들은 이런 고유 등록번호가 붙어 있습니다. 일단 찾은 정보는 이 등록번호를 다시 입력하면 일일이 처음부터 검색하지 않아도 단번에 찾을 수 있습니다. 아래 그림은 X02469 라는 등록번호로 찾는 과정입니다.

클릭하면 다음과 같은 유전자에 관한 정보를 볼 수 있습니다.

자, 이제 원하는 유전자 정보를 찾았습니다. 이제 이것을 읽는 방법을 알아봅시다.

 

 

 

앞에서 검색한 페이지를 text로 가져와서 붙여보았습니다. 염기서열을 표시할 때는 Courier (New)라는 font를 쓰는 게 좋습니다. (해 보면 알지요.)

1: X02469. Human mRNA for p5...[gi:35209] Related Sequences, OMIM, Protein, PubMed, Taxonomy, LinkOut  

LOCUS       HSP53        1317 bp    mRNA            PRI       12-SEP-1993
DEFINITION  Human mRNA for p53 cellular tumor antigen.
ACCESSION   X02469 M60950
VERSION     X02469.1  GI:35209
KEYWORDS    antigen; tumor antigen.
SOURCE      human.
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 1317)
  AUTHORS   Zakut-Houri,R., Bienz-Tadmor,B., Givol,D. and Oren,M.
  TITLE     Human p53 cellular tumor antigen: cDNA sequence and expression in
            COS cells
  JOURNAL   EMBO J. 4 (5), 1251-1255 (1985)
  MEDLINE   85230577
COMMENT     Data kindly reviewed (19-FEB-1986) by D. Givol.
FEATURES             Location/Qualifiers
     source          1..1317
                     /organism="Homo sapiens"
                     /db_xref="taxon:9606"
     CDS             136..1317
                     /note="p53 tumor antigen (aa 1-?)"
                     /codon_start=1
                     /protein_id="CAA26306.1"
                     /db_xref="GI:35210"
                     /db_xref="SWISS-PROT:P04637"
                     /translation="MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLM
                     LSPDDIEQWFTEDPGPDEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKT
                     YQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAM
                     AIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVV
                     PYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCA
                     CPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRG
                     RERFEMFRELNEALELKDAQAGKEPGGSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDS
                     D"
     repeat_region   354..368
                     /note="direct repeat 1"
     repeat_region   384..398
                     /note="direct repeat 1"
BASE COUNT      295 a    408 c    352 g    262 t
ORIGIN      
        1 gtctagagcc accgtccagg gagcaggtag ctgctgggct ccggggacac tttgcgttcg
       61 ggctgggagc gtgctttcca cgacggtgac acgcttccct ggattggcag ccagactgcc
      121 ttccgggtca ctgccatgga ggagccgcag tcagatccta gcgtcgagcc ccctctgagt
      181 caggaaacat tttcagacct atggaaacta cttcctgaaa acaacgttct gtcccccttg
      241 ccgtcccaag caatggatga tttgatgctg tccccggacg atattgaaca atggttcact
      301 gaagacccag gtccagatga agctcccaga atgccagagg ctgctccccc cgtggcccct
      361 gcaccagcag ctcctacacc ggcggcccct gcaccagccc cctcctggcc cctgtcatct
      421 tctgtccctt cccagaaaac ctaccagggc agctacggtt tccgtctggg cttcttgcat
      481 tctgggacag ccaagtctgt gacttgcacg tactcccctg ccctcaacaa gatgttttgc
      541 caactggcca agacctgccc tgtgcagctg tgggttgatt ccacaccccc gcccggcacc
      601 cgcgtccgcg ccatggccat ctacaagcag tcacagcaca tgacggaggt tgtgaggcgc
      661 tgcccccacc atgagcgctg ctcagatagc gatggtctgg cccctcctca gcatcttatc
      721 cgagtggaag gaaatttgcg tgtggagtat ttggatgaca gaaacacttt tcgacatagt
      781 gtggtggtgc cctatgagcc gcctgaggtt ggctctgact gtaccaccat ccactacaac
      841 tacatgtgta acagttcctg catgggcggc atgaaccgga ggcccatcct caccatcatc
      901 acactggaag actccagtgg taatctactg ggacggaaca gctttgaggt gcgtgtttgt
      961 gcctgtcctg ggagagaccg gcgcacagag gaagagaatc tccgcaagaa aggggagcct
     1021 caccacgagc tgcccccagg gagcactaag cgagcactgc ccaacaacac cagctcctct
     1081 ccccagccaa agaagaaacc actggatgga gaatatttca cccttcagat ccgtgggcgt
     1141 gagcgcttcg agatgttccg agagctgaat gaggccttgg aactcaagga tgcccaggct
     1201 gggaaggagc caggggggag cagggctcac tccagccacc tgaagtccaa aaagggtcag
     1261 tctacctccc gccataaaaa actcatgttc aagacagaag ggcctgactc agactga
//

이 정보를 보면 우선 유전자의 이름이 DEFINITION Human mRNA for p53 cellular tumor antigen이라고 되어 있습니다. 즉 사람 p53 cellular tumor antigen mRNA 유전자이고 mRNA 염기서열입니다. 유전자의 일부이면 "partial sequence", coding sequence가 완전하면 "complete CDS"란 말이 붙습니다.

고유 등록번호는 ACCESSION X02469라고 되어있지요. 고유번호가 하나 더 붙어있네요. 그만큼 아직 중구난방입니다.

SOURCE에서 human 즉 사람에게서 얻은 것임을 명백히 하고 있습니다. 때로는 어떤 조직에서 분리하였는가 까지도 나타납니다.

그 아래에서는 이 염기서열을 발표한 저자들과 논문이 적혀있는 경우가 많습니다. 이 정보가 정확한 유전자를 찾는데에 많은 도움이 됩니다.

FEATURES란 것은 이 염기서열의 부분 부분이 어떤 특징이 있는가를 표시하는 곳입니다. 이 유전자가 genomic DNA인 경우 exon과 intron이 어디부터 어디까지인지 표시되어 있습니다. 또 이 부분에는 CDS라는 중요한 정보가 있습니다. 이는 coding sequence를 나타내는 것으로 단백질 합성에 template가 되는 부분을 표시합니다. 우리가 보통 부르는 ORF(open reading frame)에 해당하는 부위죠. 즉 initiation codon으로부터 termination codon까지입니다. 이로부터 나오는 아미노산 염기서열도 표시합니다. 아미노산 서열이 single letter code로 되어 있어서 읽기 힘들지만 이런 건 반드시 알아야 합니다. Glycine = Gly = G, Lysine = Lys = K 이런 식입니다.

그리고 그 밑으로 ORIGIN이라고 하여 우리가 정말 필요로하는 DNA sequence가 나오고 있습니다.

한가지 미리 설명해두고 싶은 것은 mRNA이건 DNA이건 GenBank에서는 ACGT를 사용해서 표기합니다. RNA라고 해서 U를 쓰지 않습니다. 그리고 cDNA sequence나 mRNA sequence나 모두 같습니다. 또한 mRNA에서 유래하는 cDNA라고 해서 mRNA와 상보적인, (그래서 염기서열이 180도 다른) complementary sequence를 쓰지 않습니다. 그리고 방향은 무조건 5' 으로부터 3' 쪽으로 쓰며 double strand에서의 sense strand만을 표기합니다. 이런 것들의 의미는 이 강의 노트에서 끝까지 공부하다보면 모두 알게 될 것입니다.

Genomic DNA, mRNA, CDS와의 관계

위 정보를 분석하기 위해서 반드시 먼저 알아야 할 지식들이 있습니다.

사람의 유전자는 exon과 intron으로 구성되어 있음을 다들 알고 계실 것으로 믿습니다. 첫 exon 앞에는 이 유전자의 발현을 조절해주는 promoter가 존재합니다.

이 그림에서 보듯이 mature mRNA가 되면 exon만이 주욱 연결된 모양이 됩니다. 그런데, 이 mRNA도 모두 단백질로 연결되는 부분이 아닙니다. 그림에서 보듯이 앞쪽과 뒤쪽에 codon과는 무관한 5'-nontranslating region 과 3'-nontranslating region 이 존재하며 (통상 untranslated라고 써서 UTR이라고도 합니다), 그 사이에 open reading frame(ORF)이 있습니다. ORF의 시작은 AUG(initiation codon), 끝은 UGA, UAG, UAA(termination codons)입니다.

아시다시피 유전자의 암호인 코돈(codon)은 염기 3 개씩으로 이루어져 있습니다. 항상 methionine을 코딩하는 AUG로 시작하고 UGA, UAG, UAA로 끝납니다.

자, 다시 봅시다. 여기서 문제입니다. 하나의 코돈이 3 개의 염기로 구성되므로 시작지점을 어디로 잡느냐에 따라서 여러개의 ORF가 존재합니다. 간단히 예를 들면 AUG CAU GCU UCU AAU UAA UUA GUA 라는 염기서열은 AUG CAU GCU UCU AAU UAA UUA GUA 로 읽을 수도 있고 A UGC AUG CUU CUA AUU AAU UAG UA 로 읽을 수도 있는 것입니다.

실제 위 p53의 mRNA에는 다음과 같은 여러 종류의 open reading frame이 존재할 수 있습니다. 모두 ATG로 시작하여 termination codon으로 끝나고 있습니다.

보통은 가장 긴 염기서열이 의미가 있기 때문에 일단은 맨 처음 나타나는 시작 코돈부터 open reading frame 을 잡으면 됩니다. 그래서 유전자를 밝힌 사람이 대개 CDS가 어디부터 어디까지인가를 표시하는 것입니다.

아래에서 보면 분명히 CDS에 해당하는 부위가 ATG로부터 TGA(붉게 표시함)로 끝나고 있습니다.

        1 gtctagagcc accgtccagg gagcaggtag ctgctgggct ccggggacac tttgcgttcg
       61 ggctgggagc gtgctttcca cgacggtgac acgcttccct ggattggcag ccagactgcc
      121 ttccgggtca ctgcc
atgga ggagccgcag tcagatccta gcgtcgagcc ccctctgagt
      181 caggaaacat tttcagacct atggaaacta cttcctgaaa acaacgttct gtcccccttg
      241 ccgtcccaag caatggatga tttgatgctg tccccggacg atattgaaca atggttcact
      301 gaagacccag gtccagatga agctcccaga atgccagagg ctgctccccc cgtggcccct
      361 gcaccagcag ctcctacacc ggcggcccct gcaccagccc cctcctggcc cctgtcatct
      421 tctgtccctt cccagaaaac ctaccagggc agctacggtt tccgtctggg cttcttgcat
      481 tctgggacag ccaagtctgt gacttgcacg tactcccctg ccctcaacaa gatgttttgc
      541 caactggcca agacctgccc tgtgcagctg tgggttgatt ccacaccccc gcccggcacc
      601 cgcgtccgcg ccatggccat ctacaagcag tcacagcaca tgacggaggt tgtgaggcgc
      661 tgcccccacc atgagcgctg ctcagatagc gatggtctgg cccctcctca gcatcttatc
      721 cgagtggaag gaaatttgcg tgtggagtat ttggatgaca gaaacacttt tcgacatagt
      781 gtggtggtgc cctatgagcc gcctgaggtt ggctctgact gtaccaccat ccactacaac
      841 tacatgtgta acagttcctg catgggcggc atgaaccgga ggcccatcct caccatcatc
      901 acactggaag actccagtgg taatctactg ggacggaaca gctttgaggt gcgtgtttgt
      961 gcctgtcctg ggagagaccg gcgcacagag gaagagaatc tccgcaagaa aggggagcct
     1021 caccacgagc tgcccccagg gagcactaag cgagcactgc ccaacaacac cagctcctct
     1081 ccccagccaa agaagaaacc actggatgga gaatatttca cccttcagat ccgtgggcgt
     1141 gagcgcttcg agatgttccg agagctgaat gaggccttgg aactcaagga tgcccaggct
     1201 gggaaggagc caggggggag cagggctcac tccagccacc tgaagtccaa aaagggtcag
     1261 tctacctccc gccataaaaa actcatgttc aagacagaag ggcctgactc agac
tga

사실 염기서열의 분석을 눈으로 하기는 여간 괴로운 것이 아닙니다. 여기서 모두 소개할 수는 없지만, 분자생물학을 하는 사람들이 DNA를 분석하는 프로그램으로 DNAstar 또는 VectorNTI와 같은 것을 씁니다. 여러 가지 분석 도구도 있지만, 염기서열의 번호와 길이, 제한효소 부위, 염기서열의 검색 같은 일이 기본적으로 프로그램에서 이루어집니다.

 

원문 출처 :  http://biochemistry.yonsei.ac.kr/biochem_molecular/