Daily Archives: 2014/04/21

開放讀序框架

開放讀序框架 (Open reading frame)
國立臺灣師範大學生命科學系研究助理陶韻婷

4422952630_1c85197335_z

圖片來源:flickr用戶dullhunk

DNA由一長串的核苷酸組成,當細胞進行活動時,會啟動基因產生蛋白質。DNA上會產生蛋白質部分稱為open reading frame(ORF),其中每3個核苷酸(nucleotide)為一組密碼子,經轉錄(transcription)後產生訊息RNA(message RNA, mRNA),再將mRNA上的密碼子(codon)轉譯成胺基酸鏈(amino acid sequence),進而摺疊成蛋白質;此段ORF從起始密碼子(initiation codon)開始,起始密碼子在DNA上通常是ATG,但也有例外,直到終止密碼子(termination codon)之前結束,終止密碼子在DNA上通常是TAA、TAG或TGA。

利用生物資訊軟體尋找基因是相當重要的,可稱為基因預測(gene prediction)或開放讀序框架掃描(ORF Scan)。一段DNA在定序(sequencing)之後,每3個核苷酸為一組密碼子,對於一條長串鹼基序列即有3種分析找尋基因的可能性,而DNA為雙股螺旋,故有6種可能性,如圖一。依序尋找起始密碼子及終止密碼子,但是若此框架片段的密碼子小於50個,通常會被認為是無效的框架,無法轉譯成蛋白質。也就是說若找到一段DNA前有起始密碼子,後有終止密碼子,且長度超過50個密碼子,則此段DNA序列可能是一個基因。

DNA:  5’-GACACCATGGTGCACCTGACTCCTGAGGAGAAGGTCTGCCG-3’
可能性1:GAC ACC ATG GTG CAC CTG ACT CCT GAG GAG AAG GTC TGC CG
可能性2:G ACA CCA TGG TGC ACC TGA CTC CTG AGG AGA AGG TCT GCC G
可能性3:GA CAC CAT GGT GCA CCT GAC TCC TGA GGA GAA GGT CTG CCG

互補DNA:3’-CTGTGGTACC ACGTGGACTG AGGACTCCTC TTCCAGACGGC-5’
可能性4:CTG TGG TAC CAC GTG GAC TGA GGA CTC CTC TTC CAG ACG GC
可能性5:C TGT GGT ACC ACG TGG ACT GAG GAC TCC TCT TCC AGA CGG C
可能性6:CT GTG GTA CCA CGT GGA CTG AGG ACT CCT CTT CCA GAC GGC

圖一  尋找基因的6種可能性(ATG為起始密碼子)

然而,真核生物的基因體(eukaryotic genomes),包含人類基因體,有一些重要的特色,造成基因預測或開放讀序框架掃描的困難性增高。首先因為真核生物基因體的資訊過於龐大,有可能在基因聚集處找到的無效的open reading frame,看起來符合開放讀序框架的定義,卻無法合成出蛋白質。