Schrotschuss-Sequenzierung
Schrotschuss-Sequenzierung bzw. Shotgun Sequencing ist in der Molekularbiologie eine Methode zur Sequenzierung langer DNA-Stränge. Sie wurde von 1979 bis 1981 entwickelt.[1][2] Hierbei wird die DNA zunächst zufällig fragmentiert und die resultierenden Fragmente anschließend sequenziert (einige Sequenzierverfahren beinhalten zusätzlich einen Schritt, in dem die DNA vor der Sequenzierung vervielfältigt wird). Unter Anwendung bioinformatischer Methoden wird aus den Fragmenten anschließend die zugrundeliegende DNA-Sequenz rekonstruiert, wobei ein Minimum an Fehlern und Lücken in der Sequenz angestrebt wird.
Eigenschaften
[Bearbeiten | Quelltext bearbeiten]Mit aktuellen Sequenzierverfahren kann man DNA-Stränge von ca. 1100 Basen an einem Stück sequenzieren. Danach bricht das Verfahren ab, oder die gewonnene Sequenzinformation enthält zu viele Fehler. Das menschliche Genom ist ca. 3 Milliarden Basen, das Genom einer Fruchtfliege ist ca. 200 Millionen Basen und das Genom des Bakteriums Escherichia coli ist ca. 4,6 Millionen Basen lang. Demnach können Genome nicht einfach am Stück sequenziert werden.
Prinzip
[Bearbeiten | Quelltext bearbeiten]Die Sequenzierung mit dem Schrotschuss-Sequenzierungsverfahren wird in mehrere Phasen eingeteilt:
- Fragmentierung der DNA und Sequenzierung der Fragmente (Fragmentierungs-Phase)
- Feststellung von Überlappungen zwischen den Fragment-Sequenzen (Overlap-Phase)
- Berechnung eines multiplen Alignments der Fragmente (Layout-Phase)
- Ermittlung der Konsensus-Sequenz (Konsensus-Phase)
Fragmentierung
[Bearbeiten | Quelltext bearbeiten]Die Fragmente werden zufällig erzeugt, entweder mit Endonukleasen (z. B. DNase I, EcoRI, Endo IV oder ApeI) oder indem mechanische Scherkräfte auf die DNA einwirken (beispielsweise Ultraschall). Daher auch der Name Schrotschuss-Sequenzierung, da die Verteilung des „Schrots“ (die Fragmentierung) im Ziel auch zufällig ist. Ein sequenziertes Fragment wird auch als read bezeichnet. Diese reads sind je nach Methode zur Fragmentierung und DNA-Sequenzierung zwischen 100 und 2000 Nukleotide lang.[3]
Overlap
[Bearbeiten | Quelltext bearbeiten]Um die Überlappungen zwischen sequenzierten Fragmenten festzustellen, müssen Vergleiche durchgeführt werden. Bei Verwendung von einem modifizierten Standard-DP-Sequenzalignment-Algorithmus, liegt ein Vergleich in , wobei die maximale Fragmentlänge ist. Deshalb werden in der Praxis auch effizientere heuristische Techniken verwendet (z. B. durch Verwendung von BLAST).
Layout
[Bearbeiten | Quelltext bearbeiten]Die Information der Overlap-Phase wird verwendet, um die Fragmente überlappend anzuordnen. Dieser Prozess wird mit Hilfe von Algorithmen der Bioinformatik automatisiert durchgeführt. In Abhängigkeit von der Abdeckung (coverage) der Eingabesequenz mit den zufällig erzeugten Fragmenten, sind nach der Anordnung der Fragmente Lücken in diesem Alignment der Fragmente (Layout) vorhanden. Diese durch Lücken voneinander getrennten Inseln von Fragment-Alignments werden auch als Contigs bezeichnet. Celera Assembler ist ein solches Programmpaket.
Wiederholungen in der Eingabe DNA-Sequenz (repeats) sind problematisch, da in der Layout-Phase die Fragmente die Stücke eines repeats enthalten, falsch angeordnet werden können. Es kann zu einer Komprimierung der konstruierten Konsensussequenz kommen. Durch statistische Verfahren (z. B. Poisson-Verteilung (Lander-Waterman-Statistik)) können solche Stellen erkannt und gesondert behandelt werden.
Wenn auch bei einer hohen Abdeckung Lücken vorhanden sind, dann können Lücken durch andere Verfahren, beispielsweise durch Primer Walking, geschlossen werden.
Varianten
[Bearbeiten | Quelltext bearbeiten]Es wird zwischen whole-genome-shotgun-sequencing und clone-by-clone-sequencing unterschieden. Whole-genome-shotgun-sequencing wird auch als double-barrel-shotgun-sequencing bezeichnet, da hierbei die zufällig erzeugten Fragmente (> 2 × 800 Basen) von beiden Enden sequenziert werden. Die beiden Enden eines Fragments werden auch als mate pairs bezeichnet. Die Länge, und die beiden Endsequenzen jedes Fragmentes werden in der späteren Assemblierungsphase der Fragmente verwendet. Aus diesen Informationen wird ein Gerüst (scaffold) erstellt, an den Inseln von überlappenden Fragmenten (contigs), ausgerichtet werden, wenn jeweils ein Fragment eines mate-pairs auf unterschiedlichen überlappenden Fragmenten liegt.
Bei der Clone-by-Clone-Sequenzierung wird das Genom zuerst mit Restriktionsenzymen in mehrere überlappende Bereiche geschnitten. Die einzelnen Bereiche werden kloniert und es wird eine physikalische Karte der Klone in dem Genom erstellt, d. h., die Reihenfolge und die Orientierung der Sequenzen der Clone wird durch Untersuchung auf genetische Marker ermittelt (physical mapping). Danach wird jede Clone-Sequenz einzeln schrotschuss-sequenziert und mit Hilfe der physikalischen Karte kann eine komplette Konsensussequenz abgeleitet werden.
Literatur
[Bearbeiten | Quelltext bearbeiten]- R. Merkl, S. Waack: Bioinformatik Interaktiv. WILEY-VCH, 2003, ISBN 3-527-30662-5, S. 313–324.
- Dan Gusfield: Algorithms on strings, trees, and sequences. Cambridge University Press, 1999, ISBN 0-521-58519-8, S. 420 ff. (Shotgun Sequencing).
- Rolf Knippers: Molekulare Genetik. 8. Auflage. Georg Thieme Verlag, 2001, ISBN 3-13-477008-3, S. 465–470.
- S.B. Primrose, R.M. Twyman: Principles of Gene Manipulation and Genomics. 7. Auflage. Blackwell Publishing, 2006, ISBN 1-4051-3544-1, S. 362–371.
Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ R. Staden: A strategy of DNA sequencing employing computer programs. In: Nucleic Acids Research (1979), Band 6, Heft 7, S. 2601–2610, doi:10.1093/nar/6.7.2601, PMID 461197, PMC 327874 (freier Volltext).
- ↑ S. Anderson: Shotgun DNA sequencing using cloned DNase I-generated fragments. In: Nucleic Acids Research (1981), Band 9, Heft 13, S. 3015–3027, doi:10.1093/nar/9.13.3015, PMID 6269069, PMC 327328 (freier Volltext).
- ↑ H. Stranneheim, J. Lundeberg: Stepping stones in DNA sequencing. In: Biotechnology journal. Band 7, Nummer 9, September 2012, ISSN 1860-7314, S. 1063–1073, doi:10.1002/biot.201200153, PMID 22887891, PMC 3472021 (freier Volltext).