在DNA分子中,那些包含有遺傳編碼,能夠編碼蛋白質產物的片段叫做結構基因。高等真核生物的結構基因多為一種“斷裂基因”(split gene)。一個斷裂基因中含有幾個編碼序列,叫外顯子( exon),基因的編碼序列被一個個插入的非編碼序列隔開,這些間隔序列叫內含子(intron)。例如:人血紅蛋白p珠蛋白基因全長1700bp,編碼146個氨基酸'基因包 含3個外顯子和2個內含子。不同基因外顯子的數目有多有少,最多的可有40多個,如膠原蛋白基因。基因轉錄時,內含子與外顯子均被轉錄成初級mRNA,然后要經過剪接去除內含子部分,成熟的mRNA只保留有外顯子的信息。分析結構基因內含子,發(fā)現有一共同的特征,即5,端總是以GT開始,3,端總是以AG結束,這些特征可能是mRNA剪接加工的信號。 值得注意的是真核基因中非編碼序列占有比例一般要比編碼區(qū)大。例如:p珠蛋白基因編碼 146個氨基酸,只需要438個核苷酸長度編碼,僅占1700bp基因長度的25.8%。人類第四因子基因長186kb,有26個外顯子和25個內含子,編碼2552個氨基酸,該基因中編碼序列只占全基因的4%。
在基因的3′端和5′端還有一些特殊的短序列,可能對基因的轉錄和翻譯起到調控作用。例如:在基因的上游25~ 30bp處含有TATA框,是轉錄的起點,能提供RNA聚合酶識別轉錄起點的信號。在基因3,端的下游有一個AATAAA序列,是多聚腺苷酸附加信號。另外在第一外顯子上游有前導序列,最后外顯子下游有尾隨序列,均為非編碼序列,能被轉錄,但不翻譯?;蜣D錄起始點上游有啟動子序列,可能遠距基因起點lkb,但它對基因轉錄起重要的調控作用。