DNA dizisi

DNA dizisi veya genetik dizi, gerçek veya hayalî bir DNA molekülü veya ipliğinin birincil yapısına karşılık gelen harfler dizisidir.

Bu dizide bulunan harfler A, C, G ve T 'dir, bunlar DNA ipliğinde bulunan adenin, sitozin, guanin ve timin adlı dört bazı temsil eder. Tipik olarak bu diziyi oluşturan harfler birbirine bitişik olarak, aralarda boşluk olmaksızın yazılır, örneğin AAAGTCTGAC gibi; bu dizinin soldan sağa okunuşu 5'-3' doğrultusuna karşılık gelir.

Fonksiyona göre bir DNA dizisine anlamlı veya anti-anlamlı ve kodlayan veya kodlamayan olarak değinilebilir.

Bir DNA molekülünün baz dizisinin okunmasına DNA dizilemesi denir.

Belirsizlik sembolleri

Özel durumlarda bir dizide A, T, C ve G dışında harfler bulunabilir. Bu harfler dizide belirsizlik olduğunu belirtmek için kullanılır. Saf ve Uygulamalı Kimya Uluslararası Birliği (IUPAC)'nin bu amaç için belirlemiş olduğu sembollerin anlamları (ve anımsatıcıları) şöyledir:^[1]

A = adenin
C = sitozin (ing. cytosine)
G = guanin
T = timin
U = uridin (RNA dizilerinde kullanılır)
R = G A (pürin)
Y = T C (pirimidin: ing. pyrimidine)
K = G T (keto gruplular)
M = A C (amino gruplular)
S = G C (kuvvetli bağlılar: ing. strong bonds)
W = A T (zayıf bağlılar: ing. weak bonds)
B = G T C (A harici hepsi)
D = G A T (C harici hepsi)
H = A C T (G harici hepsi)
V = G C A (T harici hepsi)
N = A G C T (herhangi)

Yukarıda belirtilen belirsizlik sembolleri başlıca iki durumda kullanılır:

DNA dizilemesi sırasında bir baz teknik nedenlerden dolayı tam okunamadığı zaman (örneğin ya G ya C olabilirse, 'S' yazılır)
birbirine benzeşen dizilerin ortak yönlerini belirtmek için. Örneğin SREBP adlı transkripsiyon faktörünün bağlandığı dizilerin ortak özelliği TCACNCCAC olarak yazılabilir. Bu örnekteki N harfi o konumda herhangi bir bazın bulunabileceği anlamına gelir. Bir diziler grubununu bu şekilde ifade edilen biçimine dizi motifi denir.

Dizi formatları

DNA dizilerinin biyoenformatik programları tarafından okunması için belli standart formatlar oluşmuştur. Örneğin bunların en yaygını olan FASTA formatında birinci satır bir ">" sembolünü takibeden bir başlık içerir, onu izleyen satırlarda ise DNA dizisi yer alır.^[2] Örneğin:

>gi|14456711|ref|NM_000558.3| Homo sapiens hemoglobin, alpha 1 (HBA1), mRNA
ACTCTTCTGGTCCCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGCCGACAAGACCAACGTC
AAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCC
TGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGG
CCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTG
TCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACT
GCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAA
GTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTT
CTTGCCCCTTGGGCCTCCCCCCAGCCCCTCCTCCCCTTCCTGCACCCGTACCCCCGTGGTCTTTGAATAA
AGTCTGAGTGGGCGGC

Ayrıca bakınız

Kaynakça

^ Nomenclature for Incompletely Specified Bases in Nucleic Acid Sequences 21 Ağustos 2017 tarihinde Wayback Machine sitesinde arşivlendi., NC-IUB, 1984.
^ "FASTA format description". 10 Ağustos 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 4 Haziran 2009.

[1] Nomenclature for Incompletely Specified Bases in Nucleic Acid Sequences 21 Ağustos 2017 tarihinde Wayback Machine sitesinde arşivlendi., NC-IUB, 1984.

[2] "FASTA format description". 10 Ağustos 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 4 Haziran 2009.

[1]

[2]