Seminar „Genetischer Code und Genomgrammatik“

Einer der effizientesten bekannten Informationsspeicher ist die DNA. Inhalt dieses Seminars ist es, die biochemischen und biophysikalischen Grundlagen zu beleuchten und die Prinzipien der Verarbeitung genetischer Information („Replikation“ und „Genexpression“) als Basis allen Lebens zu verstehen. Daneben sollen Gen- und Genomsequenzen als spezielle Strings betrachtet und ein Überblick über statistische Auswertungsverfahren von Gensequenzen als wichtiges Teilgebiet der Bioinformatik erarbeitet werden.

Je nach Interessenlage und Kenntnisstand der Teilnehmerinnen und Teilnehmer können auch Antworten auf Fragen gesucht werden wie: Wieso basiert die genetische Information auf einem 2-Bit-Alphabet? Gibt es eine Grammatik des Lebens? Sind Biocomputer die besseren Rechner?

Voraussetzungen

Kenntnis des Stoffs der Informatikveranstaltungen der ersten zwei Semester

Anrechenbarkeit im Curriculum

Das Seminar kann entweder als Zusatz- oder Wahlpflichtfach Sondergebiete der Informatik angerechnet werden oder als Seminar Wirtschaftsinformatik.

Zeitplan

Datum Uhrzeit Thema Vortragende(r)
1.4.2011 11.15 Vorbesprechung
bis 15.4. Vereinbarung der Gliederungen
26.5. 09.00 Chemische Grundlagen des Lebens
  • Aminosäuren und Proteine
  • DNA, RNA, Replikation und Genexpression
Christina Funke
26.5. 09.45 Statistische Betrachtungen von menschlichen Genomsequenzen Cem Kiyak
26.5. 10.30 Grammatik der Genome
  • Formale Sprachen
  • Chomsky-Hierarchie
  • Genom- und Gensequenzen: Wörter einer formalen Sprache?
Andreas de Vries
bis 6.6. Einreichung der Hausarbeit (gerne elektronisch, als PDF und auch Word/LaTeX, ... für eine etwaige Zusammenstellung / Veröffentlichung)

Hintergrundinformationen

  • Download der menschlichen Genomsequenzen per FTP:

    ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/

    (User: anonymous, kein Passwort). Sinnvoll sind die Dateien mit der Endung .fa im FASTA-Format, gezippt also mit der Endung .fa.gz. Die größten menschlichen Chromosomen sind Nr. 1 und 2 mit ungezippt jeweils etwa 220 MB und 230 MB, die kleinsten Nr. 21 und 22 mit etwa 34 MB und das Y-Chromosom mit 25 MB.

    Human genes

    Auf Metaphasechromosomen aus einem menschlichen weiblichen Lymphocyten wurden durch Fluoreszenz in situ Hybridisierung die Alu-Sequenzen markiert (grün). Diese Sequenzen sind besonders in genreichen Chromosomenabschnitten häufig. DNA ist rot eingefärbt.
    (Quelle: http://upload.wikimedia.org/wikipedia/commons/2/27/PLoSBiol3.5.Fig7ChromosomesAluFish.jpg)

  • Gerne stelle ich das Programm Utils in dem Paket org.mathIT.genes meiner Java-Bibliothek http://www.math-it.org/java/ zur Verfügung, mit der einfache statistische Auswertungen von FASTA-Dateien durchgeführt werden können, z.B. eine Liste aller Worte der Länge k, die nicht vorkommen, oder eine Häufigkeitsverteilung der verschiedenen Buchstabenkombinationen. Manche der Programme sind momentan noch eine Baustelle und somit nicht überall leicht nachvollziehbar ...
  • Für die an formalen Sprachen Interessierten: Ich habe versucht, das für das Seminar Wichtigste möglichst knapp zusammenzutragen, siehe languages.pdf. Auch hier gilt jedoch: Vorsicht Baustelle!

Weitere Unterlagen und Hinweise