Der Code des Lebens

Der Code des Lebens

Transkript

Zurück zur Episode

Johanna Stegmann: Hi und herzlich willkommen zu einer neuen Folge vom Code des Lebens. Mein Name ist Johanna Stegmann und ich spreche hier jeden Monat mit spannenden Gästen aus der Welt der Genomforschung. In unserer heutigen Folge geht es um eine wissenschaftliche Disziplin ohne die viele medizinische und wissenschaftliche Durchbrüche kaum möglich gewesen wären. Zum Beispiel die vollständige Entschlüsselung unseres menschlichen Erbguts oder die Sequenzierung und Interpretation des Coronavirus Genoms, eine wichtige Grundlage für die Entwicklung von mRNA-Impfstoffen. Auch die gezielte Veränderung von DNA mit der Genschere CRISPR/Cas9 oder die Vorhersage wie Proteine im Körper aussehen - all das beruht auf riesigen Datenmengen. Um diese Daten nutzbar zu machen braucht es eine bestimmte Disziplin: die Bioinformatik. Sogar ein Nobelpreis wurde zumindest indirekt kürzlich dafür vergeben. 2024 wurde der Nobelpreis für Chemie an die Entwickler von Alphafold vergeben: ein KI gestütztes Verfahren, das Proteinstrukturen alleine anhand der Aminosäuresequenz vorhersagen kann. Ein echter Durchbruch für die Biomedizin, ermöglicht durch Ansätze der Bioinformatik. Aber was genau verbirgt sich eigentlich hinter dieser Disziplin? Warum ist sie aus der modernen Forschung nicht mehr wegzudenken? Was machen Menschen, die in diesem Feld arbeiten? Und wie wird man überhaupt Bioinformatiker:in? Darüber spreche ich heute mit unserem Gast Camill Kaipf: Camill, ich freue mich sehr, dass du heute bei uns zu Gast bist. Du bist nicht nur Bioinformatiker, sondern auch mein Kollege bei GHGA. Stell dich doch bitte vor.

Camill Kaipf: Ja, hi. ich bin Camill und bin wissenschaftlicher Mitarbeiter an der Uni Tübingen im Fachbereich angewandte Bioinformatik und bin da im Projekt GHGA tätig.

Johanna Stegmann: Du hast mir da schon zwei Stichpunkte geliefert: die angewandte Bioinformatik und deine aktuelle Tätigkeit. Da steigen wir später noch tiefer ein. Aber lass uns mal von vorne anfangen: Was genau versteht man unter Bioinformatik eigentlich und warum braucht sie es überhaupt?

Camill Kaipf: Also sehr vereinfacht gesagt ist die Bioinformatik daraus entstanden, dass in den Lebenswissenschaften oder in der Biologie oder in der Medizin in den letzten Jahrzehnten durch die Veränderung der Experimente immer mehr Daten entstehen, größere Datenmengen. Früher hat man vielleicht im Labor eine Pflanzengröße gemessen und konnte das alles noch von Hand erfassen und aufschreiben. Es hat sich durch die Veränderung in den Experimenten, die dort durchgeführt werden so verändert, dass die Datenmengen nicht mehr von Hand bearbeitet werden können und deswegen verschiedene, mehr Programmierfähigkeiten oder computergeschützte Fähigkeiten gebraucht werden, um die Daten analysieren zu können.

Johanna Stegmann: Du hast gerade erwähnt, dass sich die Experimente verändert haben und das klassische Auswertmethoden nicht mehr ausreichen. Was genau hat sich denn verändert?

Camill Kaipf: Genau. Ich habe es extra auch sehr allgemein ausgedrückt, weil es sehr unterschiedlich ist von dem, was gemacht wird. Aber in der Bioinformatik gehts schon hauptsächlich um die Genomanalysen oder um Sequenzanalysen. Also das Erfassen von kompletten Genomen oder großen Mengen an molekularen Zwischenprodukten auf verschiedenen Ebenen. Das sind, würde ich sagen, schon die Kernthemen der Bioinformatik. Aber natürlich ist es ein sehr breit gefächertes Gebiet und ich will jetzt nicht für alle Bioinformatiker sprechen was Bioinformatik ist und was nicht. Aber im Kern geht es schon um die Sequenzanalysen.

Johanna Stegmann: Wenn wir über Sequenzanalysen sprechen, dann darf das Human Genome Projekt auf keinen Fall fehlen. 1990 wurde es ins Leben gerufen und es war ein riesiges internationales Projekt mit dem ehrgeizigen Ziel, das menschliche Erbgut zu entschlüsseln, also die rund drei Milliarden Bausteine unserer DNA. Das war ein ziemliches Mammutprojekt und dauerte fast 13 Jahre. Die größte Herausforderung war aber nicht nur das Genom zu entschlüsseln, sondern vor allem mit den riesigen Datenmengen umzugehen. Und hier hat die Bioinformatik eine entscheidende Rolle gespielt. Camill, würdest du sagen, dass das Human Genome Projekt die Geburtsstunde der Bioinformatik war?

Camill Kaipf: Würde ich auch so sehen, das war ein Meilensteinprojekt wo es ein konkretes Ziel gab: die komplette Entschlüsselung des menschlichen Genoms. Zum einen braucht man dafür die molekularen Techniken im Labor, aber auch die entsprechenden statistischen oder Informatikfähigkeiten, um diese Datenmengen nachher zusammenzuführen. Das hat sicherlich die Fragestellung nach vorne bewegt.

Johanna Stegmann: Also schon ein sehr wichtiger Meilenstein. Seitdem ist auch ziemlich viel passiert in der Bioinformatik: 2005 kam eine neue Sequenziertechnologie auf den Markt: das Next Generation Sequencing. Damit konnten Wissenschaftler:innen Genome viel schneller und deutlich günstiger entschlüsseln als vorher. Falls euch das interessiert, hört gern mal in Folge 20 rein. Da erklären wir genau wie das funktioniert. Ein paar Jahre später, um 2012, kam dann CRISPR/Cas9, das bisher präziseste Werkzeug zur Genomeditierung auf den Markt. Es wird auch oft von der Genschere gesprochen. Und auch hier war die Bioinformatik zentral: Sie hilft dabei, die richtigen Stellen im Erbgut für die Editierung zu finden. Und dann, klar, die Coronapandemie. Ohne bioinformatische Methoden, z.B. die Sequenzierung und Interpretation des Coronavirus Genoms, wären die mRNA-Impfstoffe kaum so schnell entwickelt worden. Genauso wenig wie neue Virusvarianten weltweit so schnell erkannt und eingeordnet worden wären. Die Bioinformatik beschränkt sich aber nicht nur auf die Analyse von DNA. Sie spielt auch auf anderen Ebenen eine zentrale Rolle, z.B. bei der Untersuchung von RNA oder der Struktur und Funktion von Proteinen. Ein Beispiel dafür ist Alphafold. 2020 sorgte dieses System, das auf künstlicher Intelligenz basiert, für großes Aufsehen. Alphafold kann die räumliche Struktur von Proteinen ziemlich präzise vorhersagen, alleine anhand ihrer Aminosäureabfolge. Was früher jahrelange Laborarbeit bedeutete, gelingt heute in wenigen Stunden mit Hilfe von Algorithmen. Wer dazu mehr erfahren möchte: Folge 9 dreht sich ganz um die KI in der Genetik. Camill, wie nimmst du das wahr? Welche Bedeutung hat die Bioinformatik heute?

Camill Kaipf: Also für die Forschung wird der Stellenwert immer größer, es ist ja im Vergleich zur Geschichte der Naturwissenschaften noch eine relativ junge Disziplin. Auch anhand der Nobelpreise sieht man sicherlich, dass die Bedeutung immer größer wird. Das hat damit zu tun, dass wir in den Naturwissenschaften den Fokus sehr auf Datenerfassung haben. Also wir entwickeln immer genauere Experimente, Messanalysen, um noch höher auflösend verschiedene schwer greifbare molekulare Prozesse abbilden zu können. Und deswegen haben wir die Bioinformatik und früher hat man vielleicht manche Sachen noch in einer Exceltabelle abbilden können. Das ist heute in manchen Bereichen noch möglich aber in vielen Bereichen nicht, sodass ohne die Bioinformatik viele aktuelle Untersuchungen nicht möglich wären.

Johanna Stegmann: Warum reicht Excel bei Genomdaten eigentlich nicht mehr aus?

Camill Kaipf: Ja, die Frage kann ich nicht so ganz allgemein beantworten. Es gibt natürlich manche Datenanalysen, die auch in Excel Tabellen ausgeführt werden können. Aber das, was sozusagen im Kern die Bioinformatik ist, z.B aus dem Sequenzierer kommt ja kein komplettes Menschliches Genom heraus, sondern da kommen ganz viele Schnipsel, quasi wie, wenn ich eine Papierseite hätte, die in ganz viele kleine Teile zerschnitten ist. Ich bekomme ein Puzzle, dass ich erstmal zusammenfügen muss. Das sind sehr abstrakte Daten, die mit komplizierteren Methoden zusammengefasst werden müssen. Es gibt wahrscheinlich Menschen, die das auch in der Excel Tabelle versuchen würden, aber macht man in der Regel nicht. Ist einfach nicht effizient und braucht entweder sehr lange oder ist sehr schwer in der Handhabung.

Johanna Stegmann: Eigentlich wäre es ja ziemlich cool, ein ganzes Genom direkt am Stück zu sequenzieren. Da würde man sich ja viel Arbeit sparen. Warum ist das nicht möglich?

Camill Kaipf: Wir können das menschliche Genom nicht am Stück sequenzieren aufgrund der molekularen Techniken und Methoden, die wir da anwenden, sondern wir können immer nur kleine Fragmente, wie kleine Puzzlestücke, als zusammenhängende Sequenz auslesen aus dem Gerät im Labor und bekommen nachher ein riesiges Puzzle, und das war ja auch die Entschlüsselung des menschlichen Genoms, was wir am Ende als ein Bild zusammensetzen wollen. Und alles, was ein Computer kann, kann man natürlich auch anders machen, aber aufgrund von der Berechnungszeit und auch Nachvollziehbarkeit macht man das nicht.

Johanna Stegmann: Vielleicht fragt ihr euch jetzt: Wie sieht so ein Sequenzierer eigentlich aus? Tatsächlich erinnert er eher an einen schlichten, modernen Drucker als an ein futuristisches Hightech-Gerät. Die größeren Modelle stehen oft in eigenen Laborräumen, andere passen auch auf einen Labortisch. Die bekanntesten Geräte stammen von der Firma Illumina, z.B das NovaSeq, das besonders viele Daten auf einmal erzeugen kann und sich sehr gut für groß angelegte Genomprojekte eignet. Etwas kompakter aber immer noch für leistungsstarke Anwendungen konzipiert ist das NextSeq. Diese Geräte bieten besonders präzise Ergebnisse, sind jedoch entsprechend teuer und groß. Es gibt aber auch andere Systeme wie die von Pacific Biosciences oder Oxford Nanopore. Letztere bieten sogar mobile Sequenzierer an. Die sehen aus wie ein etwas zu groß geratener USB-Stick und passen sogar in eine Jackentasche. Diese mobilen Geräte sind besonders praktisch für die Feldarbeit, wenn man schnell und direkt vor Ort Daten sammeln möchte. Ihre Datenqualität ist aber in der Regel nicht so hoch wie die von größeren Geräten. Egal ob groß oder klein, am Ende spucken all diese Geräte keine hübschen Doppelhelix Bilder aus, sondern riesige Mengen an Rohdaten, also kurze DNA-Abschnitte, die erst mit Hilfe von der Bioinformatik zusammengesetzt und interpretiert werden können. Bei der derzeit gängigsten Sequenzierungsmethode wird die DNA erstmal zerstückelt und dann sequenziert. Dabei entstehen kurze DNA-Fragmente und die werden anschließend mit Hilfe von Algorithmen wieder zu einem langen zusammenhängenden DNA-Strang zusammengesetzt. Das ist ein entscheidender Schritt, um die vollständige Sequenz des Genoms zu rekonstruieren.

Speaker #2: Also ist schon erstaunlich, dass man es überhaupt machen kann. Man darf ja nicht vergessen, da gehts um lineare Moleküle, die aus verschiedenen Bausteinen zusammengesetzt sind, wo wir die einzelnen Bausteine auslesen und das ist technisch relativ anspruchsvoll, das zu machen. Das menschliche Genom ist ja sehr sehr lang, daher muss man es vorher fragmentieren oder kleiner zerstückeln. Diese Prozesse sind teilweise sehr fragil. So ein langes Molekül, ich meine, wir können diese Moleküle nicht sehen, das ist alles sehr sehr abstrakt. Und das wäre sehr fehleranfällig, wenn ich versuchen würde, so lange Moleküle auszulesen. Also das ist im Labor einfach technisch nicht möglich. Aber das sind auch Sachen, die verändert werden. So ein Fragment nennt man Read und es gibt auch Long Reads, da wird durchaus experimentiert. Technisch wäre es schön, wenn man ein ganzes Genom oder ein sehr sehr langes Fragment auslesen kann, denn das geht dann auch über in die algorithmischen Sachen danach. Umso länger die Fragmente sind, umso einfacher ist es teilweise für die Algorithmen später, diese Fragmente zusammenzufügen. Umso kürzer ein Fragment, umso höher ist die Wahrscheinlichkeit, dass es doppelt und dreifach vorkommt.

Johanna Stegmann: Johanna Stegmann: Drei Gigabyte: so viel bringt ein einziges, vollständig entschlüsseltes menschliches Genom mit sich. Und das passiert nicht nur einmal, sondern zehntausendfach überall auf der Welt, jeden Tag. Da sprechen wir dann nicht mehr von ein paar Festplatten, sondern von riesigen Datenzentren, Petabytes an biologischen Informationen - und es wird täglich mehr. Genau hier kommt die Bioinformatik ins Spiel. Sie sorgt nicht nur dafür, dass diese Daten sicher gespeichert werden, sondern auch dafür, dass wir sie überhaupt verstehen können. Aber wie funktioniert das eigentlich? Wie setzt man all diese vielen kleinen DNA-Fragmente wieder zu einem vollständigen Genom zusammen?

Camill Kaipf: Man hat dann dieses große Chaos an verschiedenen Fragmenten und was natürlich auch dazu kommt, man hat in der Regel nicht jedes Fragment einmal, sondern in dem Sequenzierprotokoll muss man auch, wiederum aus technischen Gründen, die Fragmente vervielfältigen, damit man belastbarere Ergebnisse hat. Das heißt, ich habe nachher verschiedene Fragmente in verschiedenen Anzahlen von Kopien, die ich auslesen kann. Viele Algorithmen funktionieren auch so wie man sich das erstmal vorstellt. Ich gucke: Wo überlappt sich was? Wie kann ich das zu größeren zusammenhängenden Stücken zusammenbauen? Aber das ist in der Regel ein statistischer Prozess. Also da gibts meistens nicht unbedingt eindeutige Ergebnisse, weil so ein Fragment an verschiedene Stellen passen könnte. Deswegen gibts auch die Bioinformatik.

Johanna Stegmann: Wie sieht so eine Sequenz eigentlich am Bildschirm aus? Kannst du beschreiben wie man sich das vorstellen kann?

Camill Kaipf: Es ist auch ein Problembereich der Bioinformatik, dass es eine Vielzahl an Formaten und unterschiedlichen Arten gibt, diese Daten zu speichern. Aber aus dem Sequenzierer kommt wirklich erstmal eine große Textdatei heraus, die sehr sehr groß ist. So ein Gigabyte kann das schon sein. Das variiert natürlich auch sehr. Das sind Dateigrößen, die ich nicht im Editor oder in Word öffnen kann. Da wird der Computer sich beschweren. Das heißt, man muss es in der Regel anders auslesen oder bearbeiten. Und in diesen Dateien hast du dann diese Fragmente aufgelistet. Meistens sind es mehrere Zeilen, wo eine Zeile die Sequenz ist, die ausgelesen wurde. Bei einem Genom dann eine Abfolge von den vier Basen und noch meistens eine Zeile. Der Sequenzierer gibt auch immer noch mal einen Qualitätswert zurück. Also der sagt: bei der Base war ich mir 80% sicher, dass es das ist, weil wie gesagt es sind in der Regel statistische Prozesse - es ist nicht immer eindeutig, manchmal gehts nur Wahrscheinlichkeiten - und noch einen Identifier, also irgendeine Art von ID, mit der man die Sequenz dieses Fragmentschnipsels dann identifizieren kann.

Johanna Stegmann: Bei den ganzen technischen Details könnte man schon vergessen, dass es sich am Ende um biologische Fragen dreht. Wie entscheidend ist es denn, dass Bioinformatiker*innen auch ein gutes Verständnis für die Biologie mitbringen?

Camill Kaipf: Ja, das ist natürlich auch eine Frage, die unterschiedlich beantwortet wird, weil der Weg in die Bioinformatik, der hat ja verschiedene Ausgangspunkte. Der kann von dem Biologiestudium herkommen, der kann auch aus ganz anderen Fachbereichen kommen, oder er kann von Anfang an in der Bioinformatik sein. Und da wird natürlich der Stellenwert von dem biologischen Grundwissen unterschiedlich bewertet. Ich bin wie gesagt selber vom Grundstudium Biologe, deswegen würde ich diesen Stellenwert höher einschätzen. In der Biologie oder Lebenswissenschaften ist es relativ schwierig, exakte Messungen zu machen. Man braucht da einfach auch so ein bisschen, ich nenn es mal Gefühl für die Daten. Ein Gefühl für was macht Sinn, was macht vielleicht weniger Sinn. Ich bin jetzt kein Physiker, aber ich denke in anderen Fachbereichen sind die Daten manchmal ein bisschen verlässlicher. Ich finde die Laborerfahrung prinzipiell da schon wichtig, damit man so ein bisschen Gefühl dafür hat, dass die Daten jetzt nicht unbedingt die komplette Wahrheit sein müssen, die man nachher herausbekommt.

Johanna Stegmann: Du hast gerade gesagt, dass biologische Daten manchmal unzuverlässig sein können. Warum ist das so?

Camill Kaipf: Das ist was wo ich persönlich aufgrund meiner Meinung sagen kann. Aber die Naturwissenschaften haben ja verschiedene Ebenen. Die Physik, dann könnte man sagen kommt die Chemie, und oben drauf die Biologie. Die Physik schaut sich sozusagen auf atomarer Ebene Sachen an. Dann gibts die Chemie, wo es dann schon Moleküle gibt und mehr Komplexität, weil jede Ebene, jeder Layer bringt auch einfach mehr Wechselwirkung, mehr Komplexität, mehr Parameter in Modelle, die wir noch nicht kennen, mit sich. Und die Biologie, und dann die Medizin natürlich auch, ist schon auf einer Ebene, wo wir recht viel Unsicherheit von unten heraus mitbekommen. Beim Sequenzieren zum Beispiel auch, dass wir uns nicht sicher sein können. War diese Base wirklich an der Stelle? Das sind meistens statistische Aussagen. Ich kann sagen mit neunzigprozentiger Wahrscheinlichkeit war da ein Guanin an der Stelle. Und parallel gehts ja ums Detail, zum Beispiel um eine mutierte Base.

Johanna Stegmann: Glaubst du dann, wenn die experimentellen Methoden immer besser werden, dass dann auch die bioinformatischen Modelle präziser werden?

Camill Kaipf: Vom Fortschritt her gedacht ja würde das so sein, und so ist es ja auch. Die Daten werden genauer. In der Physik werden Fortschritte gemacht, in der Chemie auch. Dadurch werden die Modelle besser, dadurch können wir bessere Techniken entwickeln, dadurch werden dann später auch die biologischen Daten genauer. Aber trotzdem darf man nicht vergessen, es ist schon relativ schwierig, einen Organismus, der nur aus einer Zelle besteht, zu verstehen. Es ist eine Suppe aus verschiedenen Molekülen, die miteinander interagieren, sich mit verschiedenen Beschränkungen oder Dynamiken in dieser Suppe bewegen und dort verschiedene Sachen auslösen oder auch nicht. Und da haben wir schon eine sehr hohe Komplexität in den Experimenten und in dem, was wir eigentlich untersuchen wollen. Und ich glaube deswegen ist ein Biologiestudium schon wichtig, um vielleicht ein Bisschen eine Bescheidenheit zu haben, was man wirklich konkret aussagen kann und was nicht.

Johanna Stegmann: Wir haben jetzt viel darüber gesprochen was die Bioinformatik inhaltlich ausmacht. Aber wie kommt man eigentlich dahin? Also welche Studienwege führen typischerweise in die Bioinformatik?

Camill Kaipf: Ich weiß nicht wie es an allen Hochschulen in Deutschland ist, aber zumindest die, wo ich kenne, gibts hauptsächlich zwei Möglichkeiten wie man in die Bioinformatik kommt. Es gibt Hochschulen, die haben eher freiere Zulassungsbeschränkungen. Da kann man sich mit einem Biologiestudium oder auch mit einem Chemiestudium oder mit einem Informatikstudium für einen Master in Bioinformatik Einschreiben. Und dann gibts auch Hochschulen, die ein reines Bioinformatikstudium anbieten, wo man einen Bachelor in Bioinformatik braucht, um sich für den Master einschreiben zu können. Das sind, würde ich sagen, die zwei hauptsächlichen Modelle, die es in Deutschland gibt. Also entweder mit einem spezifischen anderen Fachhintergrund oder mit einem Grundstudium Bioinformatik.

Johanna Stegmann: Findest du, dass es ein Vorteil ist, dass es verschiedene Wege in die Bioinformatik gibt?

Camill Kaipf: Ja da gibts unterschiedliche Ansichten. Deswegen wird es auch von Hochschule zu Hochschule unterschiedlich gemacht. Ich sehe einen Vorteil mit dem heterogenen Hintergrund. Auf der anderen Seite verstehe ich auch, dass man in manchen Programmen nur mit Bioinformatik Bachelor zulässt, weil dann der Grad der Spezialisierung schon sehr hoch ist. Es ist auch ein bisschen unterschiedlich von Uni zu Uni. Aber man ist schon sehr spezialisiert auf diese Sequenzanalyen und die Algorithmen dazu. Das macht Sinn und das ist auch was, dass man nicht von heute auf morgen lernt.

Johanna Stegmann: Wie war das denn bei dir? Wie bist du zur Bioinformatik gekommen? Du hast ja erzählt, dass du im Bachelor Biologie studiert hast. War für dich der Bioinformatikmaster dann eine logische Schlussfolgerung?

Camill Kaipf: Nein das war gar nicht klar. Ich habe Abitur auf einem Fachgymnasium für Biotechnologie gemacht und als ich mich für die Master beworben hatte, hatte ich durch Zufall festgestellt, dass ich schon in der Schule Bioinformatik hatte, was ich zu dem Zeitpunkt der Bewerbung schon wieder komplett vergessen hatte. Das ist ein gutes Bild dafür, dass ich diesen Weg nicht vorhatte, sonst hätte ich das wahrscheinlich nicht vergessen. Ich habe erst Biologie studiert an der FU in Berlin. Dort war der Bachelor noch sehr allgemein gehalten. Und das ist, finde ich, auch das was die Biologie ausmacht. Dass man erstmal ein großes Allgemeinwissen bekommt, ein Rundumblick, über viele verschiedene Fachbereiche, über die ganze Vielfalt, die es gibt. Bei den Pflanzen, bei Tieren oder bei allen anderen Lebensformen und welche Prinzipien sich in der Biologie oder im Leben herausgebildet haben. Und es ist auch wichtig, eine Art und Weise des Denkens zu lernen. Zum Beispiel gibts bei verschiedenen Tieren verschiedene Art und Weisen, die Abfallprodukte aus dem Körper herauszubekommen. Da haben sich in der Evolution verschiedene Organe gebildet. Und auch auf molekularer Ebene gibts wieder verschiedene Wege, Sachen zu machen. Diese Art und Weise des Denkens fand ich spannend und habe ich gerne gemacht.

Johanna Stegmann: Was genau meinst du dann mit der bestimmten Art des Denkens, die man für die Bioinformatik braucht?

Camill Kaipf: Sehr vereinfacht zusammengefasst - es gibt in der Biologie nichts was es nicht gibt. Es ist nicht so statisch. Wenn man denkt das Problem wird von Organismen immer so gelöst, dann findet man meistens irgendeinen Organismus, der es ganz anders macht. Und das ist schon spannend, einfach zu sehen, welche Vielfalt es gibt, um die gleichen oder andere Probleme auf Organismus Ebene zu lösen.

Johanna Stegmann: Im Master hast du dann ja Bioinformatik studiert. Welche Schwerpunkte hast du hier gesetzt? War das stärker Informatik getrieben oder biologisch geprägt?

Camill Kaipf: Mir war auch während meinem Grundstudium schon klar, dass ich nicht im Labor arbeiten will. Deswegen hatte ich im Bachelor schon meine Abschlussarbeit eher Richtung Statistik geschrieben. Es ging um genomische Marker, wo schon ein bisschen intensivere Datenanalyse hinten dabei war und ich hatte dann gesehen, dass, gerade in Leipzig, das Masterprogramm relativ offen ist, auch wenn man mit dem Biologiehintergrund kommt. Das war dann schon sehr intensiv würde ich sagen. Ich hatte vorher ein halbes Jahr Leerlauf, bevor ich in Leipzig angefangen hatte. Da habe ich in Eigenarbeit relativ viel vorgearbeitet, was auch nötig war. Meine Mathematik lag schon eine Weile zurück und das Studium ist schon erstmal sehr algorithmisch. Programmieren muss man können: Es wird fast schon erwartet, dass man es kann oder nebenher lernt. Der Fokus liegt da erstmal auf den algorithmischen Methoden, auf der Mathematik, die man dafür braucht, um die ganze Statistik verstehen zu können.

Johanna Stegmann: Gibts eigentlich bestimmte Programmiersprachen, die jeder Studierende der Bioinformatik lernt?

Camill Kaipf: Das ist immer ein sehr meinungsstarkes Feld. Bei uns war das nicht wirklich Vorgegeben. Ich selber hatte, aufgrund von meinem Bachelor, mit R angefangen, was eine Statistik Skriptsprache ist. Aber damit macht man hauptsächlich Datenanalysen. Ich habe meine Exceltabelle und möchte die Daten visualisieren oder verschiedene andere statistische Verfahren darauf anwenden. Wenn man an die Rohdaten geht, dann ist der Standard schon Python. Die Frage, welche Programmiersprache für welchen Zweck die Beste ist, die begleitet dann auch das komplette Berufsleben später.

Johanna Stegmann: Während deines Studiums hast du dich auf RNA spezialisiert. Warum ist das so ein spannendes Feld in der Bioinformatik?

Camill Kaipf: Das hat verschiedene Gründe. Also zum einen ist RNA relativ ähnlich zur DNA und hat viele verschiedene Funktionen in Organismen. Es gibt Viren, die statt DNA zum Beispiel RNA haben. Aber RNA kann auch selber räumliche Strukturen bilden und quasi als molekulares Werkzeug in Zellen funktionieren, wie Proteine. Es ist aber auch ein Zwischenprodukt, und das ist das, was am Bekanntesten ist, dass die DNA das Genom in ein Protein übersetzt. Dann wird es erstmal in ein RNA Zwischentranskript übergeschrieben und dann in ein Protein übersetzt. Das hat sehr viele unterschiedliche Funktionen und, warum es auch ein gutes Thema in der Bioinformatik ist, es ist weniger komplex. Zumal sind die Moleküle kleiner, man hat weniger Material. Die bestehen aus vier unterschiedlichen Basen. Ein Protein besteht irgendwas über zwanzig Aminosäuren. Da gibts quasi zwanzig unterschiedliche, ich nenn es jetzt mal Buchstaben, die in diesen Sequenzen vorkommen können. Ich habe ein lineares Molekül, eine Sequenz, das kann man auch mit einem Gummiband oder mit einer Schnur manchmal sehen, wenn man sie in unterschiedliche Richtungen bewegt oder verschiedene Kräfte darauf bringt, dann formt sie sich in verschiedene Strukturen. Diese Berechnungen und die Algorithmen dahinter sind von den Modellen her ein bisschen einfacher, wenn es weniger mögliche Grundbausteine gibt. Bei RNA sind es vier, bei Proteinen sind es viel mehr. Das heißt bei RNA gibts für kleinere Fragestellungen exaktere Modelle oder es gibt Modelle, wo man sie genauer anschauen kann. Und das fand ich sehr gut, um ins Thema reinzukommen, weil man sonst relativ schnell in sehr komplexen Systemen ist, wo man einfach sehr viele pauschale Grundannahmen machen muss. Und bei diesen Algorithmen bei der Datenanalyse kann man relativ häufig recht exakt arbeiten.

Johanna Stegmann: Kann man dann auch über die RNA Rückschlüsse auf andere biologische Systeme ziehen?

Camill Kaipf: Genau. Da gibts unterschiedliche Forschungsinteressen. Es gibt, wie überall, das Grundlagenforschungsinteresse, wo man sagt, ich versuch von dem möglichst einfachen Modellorganismus auszugehen und versuch mir da das einfachste Problem herauszunehmen und das exakt zu beschreiben oder sehr gut vorhersagen zu können. Also ich nehme ein Virus, und wie könnte jetzt das RNA-Molekül aussehen? Wenn man sagt ich möchte mir eine Krankheit im Menschen anschauen, wo diverse Proteine eine Rolle spielen, dann habe ich schon sehr komplexes Problem und muss, um das bearbeiten zu können, andere Methoden anwenden oder einfach mehr Grundannahmen machen. Und man hat dann eine Vorhersage aber weniger ein konkretes Modell, das man damit bestätigt bekommt.

Johanna Stegmann: Wenn man mit dem Studium durch ist wie gehts denn weiter? Welche Berufsfelder stehen Bioinformatiker:innen offen?

Camill Kaipf: Ich würde sagen der häufigste Weg ist ein Forschungsmaster. Das heißt die Meisten, die das studieren, wollen daher auch promovieren und gehen dann auch in den PhD. Die Pharmaindustrie sucht nach Bioinformatikern oder auch andere Life Science Unternehmen, die sich auf diese Themen spezialisieren. Hier in Tübingen gibts da auch verschiedene Firmen die sich zum Beispiel auf die Diagnose von Krankheiten spezialisiert haben, wo man Genomanalysen für braucht. Da gibts sehr unterschiedliche Bereiche, in denen man arbeiten kann. Es gibt auch den Haus-Bioinformatiker oder Bioinformatikerin, die in dem Team von Ärzten oder Biologen, das Team unterstützt in der Analyse von Daten bis hin zu Teams, wo man nur Bioinformatik um sich rumhat. Da gibts unterschiedliche Modelle.

Johanna Stegmann: Wie ging es für dich denn weiter nach dem Studium? Für welchen Weg hast du dich entschieden?

Camill Kaipf: Ich habe selber ein hohes technisches Interesse, auch unabhängig von der Bioinformatik, und die Bioinformatik war für mich der Weg, meine technischen Fähigkeiten zu vertiefen und nach dem Master hatte ich erstmal Lust, auch tiefer einzusteigen und in Richtung Softwareentwicklung oder in einen IT-Betrieb zu gehen, um noch mehr zu verstehen, wie die ganze IT um uns herum funktioniert. Ich hatte dann sehr viel Glück, weil ich in der angewandten Bioinformatik in Tübingen eine Stelle gefunden hatte. Bei uns in der Gruppe realisieren wir Infrastrukturprojekte für die Bioinformatik. In dem Bereich der Bioinformatik bin ich zu Hause, was hilfreich ist, denn ich verstehe warum machen wir das, was wir machen. Aber was wir konkret tun im Alltag ist sehr Infrastruktur lastig. Da gehts mehr darum Software zu entwickeln, Server aufzusetzen, Software am Laufen zu halten.

Johanna Stegmann: Du arbeitest ja jetzt bei GHGA, dem Deutschen Humangenom-Phänomarchiv. Was machst du da genau?

Camill Kaipf: Genau ich bin bei den Infrastrukturprojekten gelandet und ein Problem bei der Bioinformatik ist, dass wir ein Sammelsurium an verschiedenen Formaten haben. Jeder macht viele Sachen bisschen anders. Und bei GHGA gibts das Bestreben, dass man Daten sammelt, dass Forschungsdaten, die erhoben wurden, in dem Fall ja diese Omicsdaten, gespeichert werden. Auch mit entsprechenden Metadaten dazu, die dann auch eine Form haben, dass man die als Forscher später gut verwenden kann. Da gibts einfach auch wieder sehr hohe Komplexität an unterschiedlichen Praktiken, wie Leute das machen. Und ich bin da eher in den Operations. Ich mache da viel die Systeme, auf denen die Software, die wir entwickelt haben, dann läuft.

Johanna Stegmann: Johanna Stegmann: Camill hat ja gerade den Begriff Omics erwähnt. Omics, das ist ein Sammelbegriff für Daten, die aus großen molekularbiologischen Analysen stammen. Also zum Beispiel das gesamte Erbgut, die Erfassung aller RNA-Moleküle in der Zelle oder die Gesamtheit aller Proteine. Diese Daten, die geben uns einen unglaublich tiefen Einblick in biologische Prozesse. Aber sie sind auch komplex, riesig und manchmal ziemlich unübersichtlich. Und genau deshalb braucht es eine Software, um sie zu speichern, zu durchsuchen und überhaupt erst sinnvoll auswerten zu können. Camill, du arbeitest ja genau an dieser Schnittstelle. Was bedeutet das konkret? Wie unterstützt Software die Arbeit mit solchen Omicsdaten?

Camill Kaipf: Wir entwickeln diese Software bei uns im Team. Da geht es um eine Submission Plattform, wo Daten hochgeladen werden können, die dann an verschiedenen Orten gespeichert werden und später im nächsten Schritt analysiert werden können. Gerade gibts das noch nicht. Jetzt gerade war unser Ziel erstmal die Archivierung von diesen Daten. Wenn Forschungsdaten erhoben werden, können die bei uns sicher verwahrt und archiviert werden. Und ich bin da als DevOps-Engineer. Ich beschäftige mich hauptsächlich damit, wie die Software, die wir entwickeln, möglichst schnell und getestet und sicher und gut laufend in ein produktives System eingespielt werden kann.

Johanna Stegmann: Ein Thema, das hier eine große Rolle spielt, ist das Thema Datensicherheit. Was bedeutet das in deinem Arbeitskontext?

Camill Kaipf: Das spielt bei uns natürlich eine sehr große Rolle. Ich glaube, das Wichtigste ist, erstmal ein Bewusstsein da drüber zu haben was ich tue. Dass wir Genomdaten haben, wo wir aus der Gegenwart heraus nicht letztendlich beurteilen können, was wir aus diesen Daten in der Zukunft herauslesen können. Das birgt natürlich immer ein gewisses Risiko diese Daten zu sammeln, teilweise zentral an verschiedenen Orten. Da ist es wichtig auf dem Schirm zu haben was man tut, wenn man diese Daten anlegt und alles andere geht natürlich dann in die IT-Sicherheit. Da gehts einfach darum - wie setze ich Systeme auf, um Einfalltore für Angriffe zu reduzieren. Das ist natürlich auch in dem Bereich nicht so, dass man alles immer abdecken kann, aber erstmal die Motivation zu haben, okay ich versuche, wo immer es mir möglich ist, die höchsten Sicherheitsstandards anzuwenden. Es ist ein Stück weit eine Arbeitsweise. Also weniger schnell, sondern mehr ich versuch's gründlich zu machen, versuche drauf zu achten, dass man nicht aus Versehen irgendwelche Sicherheitslücken einbaut oder missachtet.

Johanna Stegmann: Der Schutz betrifft sowohl Angriffe von Außen und auch Fehlbedienung oder Missbrauch von Innen. Richtig?

Camill Kaipf: Genau. Das sind die zwei Angriffspunkte, wo man auf dem Schirm haben muss. Von Innen geht man eher organisatorisch vor. Da schaut man sich ganz konkret an - es gibt für eine Datenbank ein Administratorpasswort. Wer hat da Zugriff drauf? Wie kann man unter Umständen da eine Überwachung aufbauen oder ein Logging, wer wie zugegriffen hat? Da stehen sehr sehr viele Fragen dahinter, wie man sowohl die Infrastruktur, die ganzen Komponenten, die man in so einem Server dann verwendet, aufsetzt aber auch organisatorisch, wie man diesen Betrieb organisiert.

Johanna Stegmann: Ist es hilfreich, dass du, wie du in unserem Vorgespräch gesagt hast, ein eher skeptischer Mensch bist?

Camill Kaipf: Ja da habe ich nie drüber nachgedacht. Aber ja, es ist auf jeden Fall hilfreich, skeptisch zu sein und das ist auch unsere Arbeitshaltung im Team. Immer erstmal zu schauen: was machen wir hier? Habe ich das verstanden, was ich tu? Man hat ja auch viel Drittsoftware, wir haben sowohl unsere eigene geschriebene Software, als auch Software, die wir brauchen, um überhaupt diese Software laufen lassen zu können. Die Server in der Kybernetik, da gibts dann sehr unterschiedliche andere Anwendungen, die man dafür benötigt, und da ist eine gewisse Skepsis schon sinnvoll. Zu schauen, ok, wo gebe ich denn jetzt hier gerade welche Passwörter ein oder wo speichere ich die. Ist es verschlüsselt, wenn ich die Daten übermittle? Ist es verschlüsselt, wenn ich speichere? Das sind die Fragen, die mich in meinem Arbeitsalltag beschäftigen.

Johanna Stegmann: Was denkst du denn, wie wird sich das Feld der Bioinformatik in den nächsten Jahren entwickeln?

Camill Kaipf: Was man auf jeden Fall sagen kann, aus der Perspektive von unseren Projektinteressen ist, dass mehr Daten generiert werden. Es wird nicht einfacher, weil es immer mehr wird und je mehr Daten desto schneller ist es dann auch komplexer. Die Generierung von Daten wird noch günstiger werden. Das heißt, wir werden immer mehr Sequenzdaten erhalten, die wir idealerweise so speichern können, dass wir wiederum darauf forschen können. Ich meine diese ganzen Algorithmen, diese ganzen Berechnungsmethoden, die werden auch ständig weiterentwickelt. Das heißt, manchmal muss man auch alte Daten nochmal mit anderen Methoden anschauen und das ist schon auch was, das für die Medizin und für Patienten wichtiger wird. Dass die Genomanalysen oder die Omics-Methoden immer mehr den Weg in die Klinik finden, und dort noch breiter angewendet werden.

Johanna Stegmann: Camill hat abschließend noch ein paar Tipps für alle, die sich überlegen in die Bioinformatik einzusteigen.

Camill Kaipf: Fürs Studium würde ich auf jeden Fall erstmal empfehlen - was interessiert dich? Das ist erstmal ganz wichtig, denn die Zeit des Studiums ist auch dafür da, dass man Sachen nachgeht, wo man vielleicht noch nicht genau weiß, ob das irgendeinen Sinn hat oder wo das einen hinführt. Ich habe im Studium auch ganz viele Sachen gelernt, wo mir klar war, da werde ich wahrscheinlich später nie für bezahlt werden, weil es einfach sehr abstrakt, eine sehr große Nische ist. Was interessiert mich wirklich? Machts mir Spaß Daten zu visualisieren, machts mir Spaß Algorithmen zu entwickeln oder welche Arten von Algorithmen finde ich spannend? Und dann sich lieber auf einzelne Sachen spezialisieren und das auch wirklich mal durcharbeiten. Dafür bietet die Bioinformatik sehr viele Möglichkeiten.

Johanna Stegmann: Ganz lieben Dank Camill für das spannende Gespräch und die vielen Einblicke in die Welt der Bioinformatik. Das war der Code des Lebens präsentiert von GHGA, dem Deutschen Humangenom-Phänomarchiv.

Über diesen Podcast

Der Code des Lebens – der Wissenschaftspodcast von GHGA beschäftigt sich mit verschiedenen Aspekten der menschliche Genomforschung. Obwohl wir 99% unseres Erbgutes (=unserer Gene) miteinander teilen, machen die kleinen Unterschiede uns zu dem was wir sind. Doch wie ist unser Erbgut eigentlich entstanden? Wie funktioniert Genomforschung und wie beeinflussen unsere Gene unser tägliches Leben? Diesen Fragen und mehr geht “Der Code des Lebens” auf den Grund. Zuhörende benötigen kein spezielles Vorwissen um in die faszinierende Welt der Gene einzutauchen.

Dieser Podcast wird präsentiert von GHGA – dem deutschen Humangenom-Phenom Archiv. Wir entwickeln eine Infrastruktur, in welcher humane Genomdaten sicher gespeichert und kontrolliert für die biomedizinische Forschung zugänglich gemacht werden können. Das Projekt wird von der Deutschen Forschungsgemeinschaft finanziert und ist Teil der Nationalen Forschungsdateninfrastruktur (NFDI).

Podcastlizenz: CC-BY

von und mit GHGA

Abonnieren

Follow us