Heim

Genom

Als Genom oder auch Erbgut eines Lebewesens wird die Gesamtheit der vererbbaren Informationen einer Zelle bezeichnet, die als Desoxyribonukleinsäure (DNA) vorliegt. Einige Viren nutzen statt DNA RNA als Speichermedium. Das Genom enthält die Informationen, die zur Entwicklung (Ontogenese) und zur Ausprägung der spezifischen Eigenschaften des Lebewesens oder Virus notwendig sind. Diese Informationen sind in der Basensequenz der DNA enthalten.

Der Begriff wurde 1920 von Hans Winkler geprägt, es kann jedoch auch eine Genommutation zu stande kommen. Die Erforschung des Genoms und die Wechselwirkung der darin enthaltenen Gene wird als Genomik bezeichnet (englisch Genomics).

Inhaltsverzeichnis

Chemische Grundlagen

Die für die Vererbung von Eigenschaften und Merkmalen erforderlichen und auf der Ebene der Zellen und der Individuen weitergegebenen Informationen sind in den Desoxyribonukleinsäuren (DNA, von englisch desoxyribonucleic acids) enthalten, und zwar in Form von Sequenzen der DNA-Basen Adenin, Guanin, Cytosin und Thymin. Die DNA-Moleküle können in Abschnitte mit kodierenden und nicht-kodierenden Sequenzen eingeteilt werden. Die kodierenden Abschnitte (Gene) enthalten die Erbinformationen für bestimmte Proteine. Daneben gibt es DNA-Abschnitte, die der Genregulation dienen. Pseudogene sind durch Mutationen funktionslos gewordene und vom Organismus nicht mehr abgelesene Gene. Bei Eukaryoten findet durch das alternative Splicing eine Datenkompression statt, so dass die Genomgröße (in Basenpaaren gemessen) kleiner sein kann als die Anzahl der durch das Genom kodierten Merkmale.

Bei allen Organismen, die komplexer als Viren sind, gibt es außerhalb der chromosomalen DNA (bei Eukaryoten Karyom genannter Teil des Genoms) weitere Genombestandteile in anderen Zellteilen. So finden sich bei Bakterien und Archaebakterien essentielle Plasmide, bei Eukaryoten (Pflanzen, Tiere, Pilze) gibt es selbstständig vererbte DNA-Sequenzen in den Mitochondrien (Mitochondriom) und Plastiden (Plastidom), die aber zum Gesamtgenom der Zellen gehören.

Genomgrößen

Die Angabe der Genomgröße eines Organismus bezieht sich auf die vorhandene Menge an DNA pro haploiden Zellkern, wobei entweder die Zahl der jeweils vorhandenen Basenpaare (bp) angegeben wird oder die Masse der DNA in der Einheit pg (Picogramm). 1 pg doppelsträngiger DNA besteht aus zirka 0,978·109 bp, also aus knapp einer Milliarde Basenpaaren.

Nach neueren Untersuchungen besitzt der Südamerikanische Lungenfisch (Lepidosiren paradoxa) mit 80 pg (7,84 × 1010 bp) das größte bisher bekannte tierische Genom.[1] Ältere, aber wohl ungenauere Untersuchungen zeigen mit zirka 133 pg noch größere Genome, die ebenfalls bei Lungenfischen, allerdings bei der afrikanischen Art Äthiopischer Lungenfisch (Protopterus aethiopicus) gefunden wurden.[2] Mit 0,04 pg (weniger als 50 Millionen Basenpaare) besitzt das zum primitiven Tierstamm Placozoa gehörende, auf Algen lebende, etwa 2 mm große, wenig differenzierte Trichoplax adhaerens das kleinste bisher bekannte tierische Genom.[2] Die Zahl der Basenpaare des Darmbakteriums Escherichia coli ist nur um einen Faktor 10 kleiner. Rekordhalter für das kleinste bakterielle Genom ist derzeit der Blattfloh-Endosymbiont Carsonella ruddii: er begnügt sich mit einem zirkulären Genom aus nur knapp 160.000 Basenpaaren, auf der er sämtliche Informationen speichert, die er zum Leben braucht.[3]

Vergleich der Genomgrößen
Organismus Genomgröße1 Gene Gendichte2
λ-Phage 5 × 104
Blattfloh-Endosymbiont Carsonella ruddii 1,6 × 105 182 1.138
Darmbakterium Escherichia coli 4,6 × 106 4.500 900
Bäckerhefe Saccharomyces cerevisiae 2 × 107 6.000 300
Trichoplax adhaerens 4 × 107
Fadenwurm Caenorhabditis elegans 8 × 107 19.000 200
Ackerschmalwand Arabidopsis thaliana 1 × 108 25.500 255
Taufliege Drosophila melanogaster 2 × 108 13.500 70
Kugelfisch Fugu rubripes 3,65 × 108
Kohl Brassica oleracea 5,99-8,68 × 108 100.000 599-868
Mensch Homo sapiens sapiens 3,2 × 109 40.000 10
Teichmolch Triturus vulgaris 2,5 × 1010
 1in Basenpaaren  2Anzahl der Gene pro Millionen Basenpaare

Bemerkungen

Die DNA einer einzelnen menschlichen Zelle ist zirka 1,80 m lang. Eine Base auf einem DNA-Strang hat einen Informationsgehalt von 2 bit, da sie 22 = 4 Zustände (A/T/G/C) annehmen kann. Ausgehend von 3×109 Basenpaaren hat das Genom des Menschen einen Informationsgehalt von etwa 750 MB.

Ein Vergleich der Genom-Größe mit der Komplexität und des Organisationsgrades des Organismus ergibt einen direkten Zusammenhang: Je größer das Genom, um so komplexer ist der Organismus.

Ausnahmen bilden hierbei weniger komplexe Organismen mit hoher DNA-Menge (als „C-Wert-Paradoxon“ bezeichnet): einige Samenpflanzen, die Salamander und urtümliche Fische wie Stör, Hornhecht und Quastenflosser.

Die höchste DNA-Menge weisen einfache Eukaryoten wie einige Amöben und die Urfarne (Psilopsida) mit rund einer Billion Basenpaare auf.

Diese Arten enthalten einzelne Gene als tausendfache Kopien, und lange, nicht-Protein-kodierende Abschnitte. Auch im menschlichen Genom kommt ein etwa 300 Basenpaare langes DNA-Stück, die Alu-Sequenz in über 1.000.000 Kopien vor und macht etwas über 10 % der gesamten DNA aus.[4]

Anteil der DNA, der nicht für Proteine kodiert.

Wird dagegen der Anteil der DNA, der nicht Proteine kodiert, betrachtet, ergibt sich ein direkter Zusammenhang zur Komplexität des Organisationsgrades (Vergleiche dazu die Angaben zur Gendichte in der Tabelle oben).

Dieser Zusammenhang könnte darin begründet sein, dass diese Sequenzen zahlreiche regulatorische Aufgaben erfüllen. Zur Zeit (März 2005) wird die Möglichkeit diskutiert, dass die Komplexität eines Organismus in Zusammenhang mit der Menge an DNA steht, die zwar keine Proteine kodiert, aber dennoch transkribiert, also in RNA übertragen wird. Dabei werden Introns nicht als Reste alter Gene aufgefasst, sondern als Abkömmlinge beweglicher DNA-Abschnitte, vergleichbar mit den heutigen Gruppe-II-Introns. Diese und weitere RNA-Moleküle, die durch Transkription entstehen, und die weder m-, t- oder rRNAs sind, können Teil eines Regulationssystems sein, das neben den Proteinen die Entwicklung eines Organismus steuert. Zum Beispiel sind RNA-Signale an der Markierung des Chromatins beteiligt, wodurch die Genexpression gesteuert wird.

Bestandteile des menschlichen Genoms

Die Zahlen beziehen sich auf den haploiden Chromosomensatz des Menschen ohne mitochondrialer DNA (mtDNA). Mb = 106 Basen

Die Gesamtmenge des menschlichen Genoms beträgt 3.000 Mb, das sind 3 Milliarden Basenpaare.

Der Mensch besitzt 20.000 - 25.000 Gene[5] (andere Quellen gehen - bei vorläufiger Berechnung - von 30.000 - 40.000 Genen aus[6]).

Gene

Ein Teil des Genoms besteht aus Sequenzen, die in einem Transkription genannten Vorgang in eine RNA übertragen werden. Diese Sequenzen werden auch als Gene bezeichnet.

Protein-kodierende Gene

Das RNA-Transkript enthält Basensequenzen, welche die Aminosäuresequenz von Proteinen kodieren. Die RNA wird dann als mRNA bezeichnet. Bei den Eukaryoten ist sie aus Exons und Introns zusammengesetzt und wird in diesem Zustand als prä-mRNA oder hnRNA bezeichnet. Sie wird noch vor der Translation bearbeitet (prozessiert), in dem die nichtkodierenden Introns herausgeschnitten werden. Die mRNA der Prokaryoten weist nie Introns auf.

Die Aminosäuresequenzen-kodierende DNA ist beim Menschen 90 Mb groß, das sind 3 % des Genoms. Das entspricht 25000 Genen, die ungefähr 500.000 Proteine kodieren.

Von Genen abstammende Sequenzen

Einige Basensequenzen stammen zwar von Genen ab, das Transkript wird aber nicht in eine Aminosäuresequenz übersetzt.

  1. Pseudogene sind veränderte Kopien funktionell aktiver Gene, die aber - durch Mutationen bedingt - nicht mehr für ein stabiles Protein kodieren können. Früher hielt man Pseuogene für grundsätzlich funktionslos (also "genetischen Müll", was sie zum größten Teil wohl auch sind), mittlerweile hat sich aber heraus gestellt, dass einige transkribierte Pseudogene an der Expressionsteuerung ihrer (funktionalen) Ursprungsgene beteiligt sein können.
  2. Introns werden noch im Zellkern der Eukaryoten aus der prä-mRNA herausgeschnitten. Ihre Rolle ist nicht vollständig geklärt. Einige enthalten Erkennungssequenzen für Replikationsfaktoren, die die Aktivität der RNA-Polymerase beeinflussen. Eine bisweilen geäußerte Vermutung ist, dass durch die zwischen die kodierenden Exons eingestreuten Introns die Mutationshäufigkeit in den kodierenden Sequenzen herabgesetzt ist. Dagegen spricht aber, dass auch in den Introns hochkonservierte consense-Sequenzen (siehe unten) zu finden sind, ferner macht ein solcher Mechanismus der "Mutationsabwehr" nicht wirklich Sinn. Fest steht hingegen, dass etlichen Introns eine definierte biologische Rolle zukommt: Ein großer Teil der eukaryontischen Gene kann differenziell gespleißt werden, d.h. es können von den vorhandenen Exonen unterschiedliche Kombinationen in der reifen mRNA auftauchen - verursacht durch die Auswahl unterschiedlicher Introne beim Spleißen. Auf diese Weise kann ein einziges Gen für mehrere (u.U. Dutzende) verschiedene Proteinvarianten kodieren, die allesamt etwas unterschiedliche Eigenschaften (Ligandenbindestellen, Interaktionsdomänen, Membrananker etc.) aufweisen. Introns haben in der Evolution eine wichtige Rolle gespielt, weil sie die Neukombination von Exonen durch chromosomale Rearrangements erleichtern. Die Frage, ob Introns ursprünglich sind (also so alt wie die Gene selbst) oder erst in neuerer Zeit entstanden ist nicht entschieden.
  3. Genfragmente (die man als eine Version von Pseudogenen betrachten muss) entstehen dann, wenn es von einem Gen mehrere Kopien im Genom gibt und eine dieser Kopien durch Deletion(en) unbrauchbar wird.

RNA-codierende Gene

Das RNA-Transkript enthält Basensequenzen, welche die Basensequenz von RNAs kodieren. Diese Moleküle werden auch als ncRNAs (nc von engl. non coding = nicht kodierend) bezeichnet und erfüllen zahlreiche Aufgaben bei der Proteinbiosynthese. Einige davon sind erst vor kurzem bekannt geworden und noch nicht genauer erforscht. Es wird vermutet, dass die ncRNAs molekulare Fossilien aus der RNA-Welt sind (siehe chemische Evolution) und damit von Bedeutung für das Verständnis der Evolution der Lebewesen sind.

  1. tRNAs transportieren Aminosäuren zu den Ribosomen.
  2. rRNAs sind Bestandteile der Ribosomen und erfüllen dort strukturelle und katalytische Aufgaben. ssRNA (ssuRNA, small subunit RNA) ist die RNA für die kleine, lsRNA (lsuRNA, large subunit RNA) die für die große Untereinheit der Ribosomen.
  3. snRNAs sind Bestandteile der Spliceosomen, welche aus der prä-mRNA die Introns herausschneiden.
  4. Ebenfalls ein junges Forschungsgebiet ist die RNA-Interferenz (RNAi), eine weitere Möglichkeit der Regulation der Proteinbiosynthese, wobei kleinere RNA-Moleküle mit Teilen der mRNA reagieren und dadurch in der Regel die Translation verhindern. Solche RNA-Moleküle sind siRNAs (si von engl. short interfering), microRNAs, von welchen das menschlichen Genom mehrere Hundert aufweist. Es gibt auch Interaktionen von RNAs mit der DNA, mit Proteinen und mit niedermolekularen Substanzen.
    1. Mikro-RNA: Manche Introns enthalten zueinander komplementäre Abschnitte, so dass die prä-RNA nach der Transkription Haarnadelschleifen bilden kann. Diese werden durch spezielle Proteine des „Zensursystems“ (ursprünglich ein Abwehr-System gegen virale Doppelstrang-RNA) erkannt und so abgebaut, dass einsträngige RNA-Abschnitte entstehen, die an andere mRNAs binden und somit spezifisch (zielgenau) mRNA zerstören können (RNA-Interferenz) oder ihre Translation unterdrücken. Für einzelne Moleküle ist ihre Funktion bekannt: Sie sorgen dafür, dass Stammzellen sich nicht differenzieren, und steuern Zellvermehrung und Apoptose (programmierter Zellselbstmord) beim Umbau embryonaler Gewebe.
  5. Antisense-RNA: Die mRNA entsteht am codogenen (Matrizen-) Strang der DNA. Wird auch der komplementäre Strang abgelesen, entsteht eine zur mRNA komplementäre RNA. Verbinden sich mRNA und Antisense-RNA zu einem Doppelstrang, kann kein Protein mehr bei den Ribosomen gebildet werden. Auch dies stellt eine Möglichkeit der Regulation der Proteinbiosynthese dar. Beim Menschen gibt es mindestens 1600 antisense-Gene.
  6. 7SL-RNA ist Bestandteil der signal recognition particles, das sind Protein-RNA-Komplexe, welche den zielgerichteten Transport von Proteinen in der Zelle gewährleisten.

Nichtkodierende Sequenzen

Der übrige Teil des Genoms besteht aus Sequenzen, die nicht transkribiert werden (siehe nichtkodierende Desoxyribonukleinsäure). Er wird als extragenische DNA bezeichnet und weist eine Länge von insgesamt 2100 Mb auf.

Davon besteht der größte Teil (1.680 Mb) aus einzelnen, individuellen oder nur selten wiederholten Basensequenzen. Dies sind in der Regel Sequenzen, an welche bestimmte Enzyme binden und dadurch die Replikation und Transkription steuern:

Der Rest der DNA von 420 Mb besteht aus hoch repetitiven Sequenzen.

disseminierte (verstreute) genomweite Wiederholungen

Tandemwiederholungen

Die Anzahl der Wiederholungen variiert von Individuum zu Individuum, die Abweichungen sind vom Verwandtschaftsgrad abhängig. Deshalb sind sie für den genetischen Fingerabdruck geeignet. Die von der Norm abweichende Zahl an Wiederholungen kann Krankheiten auslösen.

Weitere besondere DNA-Sequenzen

Sogenannte Junk-DNA

Abschnitte der DNA, von denen man zunächst annahm, sie trügen keinerlei genetische Information, wurden von der Wissenschaft als „Junk DNA“ oder „Müll-DNA“ bezeichnet. Auch Introns, die kodierende Teile voneinander separieren, wurden der Kategorie Junk-DNA zugerechnet. Mit dem heutigen Wissensstand ist diese Ansicht überholt. Vielmehr sind in den anscheinend bedeutungslosen DNA-Sequenzen sowohl „alter Code“ als Vorstufen für Gensequenzen zu finden. Für den Organismus tatsächlich bedeutungslose Sequenzen dürften im Laufe der Evolution zum Teil verloren gegangen sein, als auch noch auf den Introns zu finden sein. (Siehe die Evolution des Y-Chromosoms).

Repetitive Sequenzen erleichtern den Austausch zwischen homologen Chromsomen während der Meiose (Crossing Over) und erhöhen damit die genetische Variabilität.

Organisation von Genomen

Prokaryotengenome

Bei den Prokaryota (Bacteria und Archaea) besteht das Genom aus einem großen, in sich geschlossenen DNA-Molekül und mehreren kleineren, ebenfalls in sich geschlossenen, in ihrer Zahl variierenden DNA-Molekülen, den Plasmiden. Diese können sich unabhängig von der Haupt-DNA verdoppeln und an andere Bakterienzellen weitergegeben werden, ein Prozess, der als Konjugation bezeichnet wird. Sie enthalten in der Regel nur wenige Gene, die zum Beispiel Resistenzen gegen Antibiotika oder Fertilität, die Fähigkeit zur Konjugation vermitteln. Manche Plasmide sind reversibel in die Haupt-DNA integriert und werden dann als Episome bezeichnet.

Eukaryotengenome

Bei den Eukaryota (im Wesentlichen Pflanzen, Pilze und Tiere) ist das Genom in mehrere strangförmige Chromosomen unterteilt, die nur im Zellkern vorkommen und deshalb als Karyom bezeichnet werden. Neben dem Karyom können Organellgenome vorhanden sein.

Organellengenome

In eukaryotischen Zellen können Organelle vorhanden sein, die ihrerseits eigene vererbbare DNA enthalten. Man spricht in solchen Fällen vom Kerngenom und den Organellgenomen. Das Kerngenom ist das eigentliche in Chromosomen organisierte Genom der Zelle, welches sich im Zellkern befindet. Ein Organellgenom ist die Gesamtheit der genetischen Information des entsprechenden Organell-Typs. Organelle, welche eigene Genome enthalten, stammen nach der Endosymbiontentheorie von Bakterien ab, die in sehr früher Zeit der Lebewesenentwicklung in andere prokaryotische Wirtszellen eingewandert sind, wodurch - zusammen mit anderen Vorgängen - Eukaryoten entstanden sind. Das trifft sowohl auf die Mitochondrien als auch auf die Plastiden (z. B. Chloroplasten) zu.

Da die Organelle von ihren Wirtszellen versorgt werden, müssen sie ihrerseits nur spezielle Funktionen übernehmen. Diese Funktionen sind bei den Mitochondrien auf die Atmung und bei den Chloroplasten auf die Photosynthese fokussiert. Die Genome sind entsprechend klein. Bemerkenswert ist die Tatsache, dass die Organelle eigene genetische Codes besitzen und spezielle Nukleotide in den tRNAs aufweisen. Entsprechend ihrer Herkunft sind Organellgenome im Grunde Prokaryotengenome, wegen ihrer Größe werden sie eher als Plasmide bezeichnet.

Die Tatsache, dass die Mitochondrien nicht an der Rekombination durch die Meiose teilnehmen und bei Menschen (weitestgehend) durch die Eizelle nicht aber durch Spermien in die Zygote gelangen, führt dazu, dass bestimmte Bereiche in mitochondrialen Genomen als „evolutionäre Marker“ in der Humangenetik bzw. Populationsgenetik Anwendung finden.

Virusgenome

Die Genome von Viren besitzen einen geringeren Umfang (1.000 bis 350.000 bp), da weniger Proteine kodiert werden müssen und oft einzelne Genomabschnitte durch überlappende Leserahmen, alternative Start- und Stopcodons und verschiedene Leseraster für verschiedene Transkripte kodieren. Dadurch ist die genetische Information auf besondere Weise im viralen Genom konzentriert.

Das Genom von Viren ist weit vielfältiger als bei anderen Gruppen: es kann als RNA- oder DNA vorliegen, jeweils einzel- oder doppelsträngig, verschiedene Leserichtungen beinhalten, linear, zirkulär oder segmentiert sein. Eine Besonderheit stellen einige RNA-Viren dar, die so genannten Retroviren), da sie ihr RNA-Genom mittels Reverser Transkription in DNA umschreiben können. Die Eigenschaft des Genoms bei Viren dient als wichtiges Kriterium zu deren Einteilung (Virus-Taxonomie).

Sequenzierte Genome im Internet

Die DNA von Genomen verschiedener Organismen, die entweder für die medizinisch-pharmazeutische oder anwendungsorientierte Forschung oder auch für die Grundlagenforschung relevant sind, wurde annähernd vollständig „sequenziert“ (man spricht auch fälschlicherweise vom „Entschlüsseln“), das heißt ihre Basensequenz wurde ermittelt (DNA-Sequenzierung). Die Basensequenzen werden über das Internet u.a. vom NCBI bereitgestellt.

Übersichten
Einzelne Genome

Quellenangaben

  1. A.E. Vinogradov: Genome size and chromatin condensation in vertebrates. Chromosoma 113, 2005; Seiten 362-369.
  2. a b T.R. Gregory: Animal Genome Size Database. 2005
  3. Petra Jacoby: Spektrum der Wissenschaft, Spektrum der Wissenschaft Verlagsgesellschaft mbH, Band 5, 2007, S. 16f
  4. M. A. Batzer and P. L. Deininger. Alu Repeats and Human Genomic Diversity. Nature Reviews: Genetics 3: 370-9 (May 2002)
  5. Internationales Humangenomprojekt (IHGSC). in: Nature. London 431, S.931. ISSN 0028-0836 (Von den 3,08 Milliarden Basenpaaren sind zur Zeit 2,88 Milliarden bei dem öffentlichen Genomprojekt verfügbar)
  6. Neil A. Campbell: Biologie. Spektrum Verlag, Heidelberg 1997, S.467; Pearson Studium, München 2006. ISBN 3-8274-0032-5, ISBN 3-8273-7180-5

Literatur

Siehe auch