00:00:00: Johanna Stegmann Herzlich willkommen zu einer neuen Folge vom Code des Lebens. Mein Name ist Johanna Stegmann und ich spreche hier jeden Monat mit spannenden Gästen aus der Welt der Genomforschung. Mein heutiger Gast ist Prof. Dr. Anna Poetsch. Mit ihr spreche ich darüber, wie man die Sprache der DNA entschlüsseln kann. Los geht's! Frau Poetsch, Sie leiten an der TU Dresden eine Forschungsgruppe, die nennt sich Biomedical Genomics. Was verbirgt sich denn hinter diesem Begriff?
00:00:36: Dr. Anna Poetsch Wir beschäftigen uns im Großen und Ganzen mit DNA, also mit unserer Erbinformation. Und wir möchten besonders eben verstehen, was da für Information drin liegt und wie sie sich verändert. Gerade wenn wir altern, dann kriegen wir Mutationen. Und das versuchen wir zu verstehen und versuchen eben auch zu verstehen, wie das von der DNA-Sequenz abhängig ist. Also die DNA ist ein ganz langes Molekül. Und aber auf der anderen Seite liegt eben in dieser DNA auch die Information. Und die Information liegt eben über chemische Moleküle, die man abkürzen kann mit A, C, G und T. Und dann ist das im Wesentlichen einfach wie ein Text.
00:01:11: Johanna Stegmann Wie sind Sie da denn hingekommen zu diesem Feld?
00:01:13: Dr. Anna Poetsch Interessanterweise war ich da sehr schnell und habe dann aber einen großen Umweg gemacht. Also ich war schon als Jugendliche sehr, sehr fasziniert von DNA. Also ich bin tatsächlich auch wirklich als Jugendliche in die Universitätsbibliothek gegangen und habe mir Bücher über DNA rausgeholt. Und wollte damals Humangenetikerin werden, weil ich jemanden kannte, der Humangenetiker war. Also ich habe dann angefangen, eine Kombination aus Biologie und Chemie zu studieren, also Life Science in Konstanz am Bodensee. Das war dann deutlich tiefer in der Chemie, als ich das ursprünglich wollte. Und habe dann über verschiedene Stationen, also ich war dann im japanischen Krebsforschungszentrum, habe meine Promotion dann am deutschen Krebsforschungszentrum gemacht und auch in der Zeit immer experimentell gearbeitet, also pipettiert. Und dann habe ich mich darauf besonnen, wenn ich das wirklich untersuchen möchte und verstehen möchte, gerade im Hinblick auf wie DNA kaputt geht, dann muss ich wirklich programmieren lernen. Und dann habe ich mich quasi nach meiner Promotion entschieden, in einer reinen Computergruppe einen Postdoc zu machen. Und dann ist es irgendwie immer weitergegangen und jetzt sind wir eben ganz tief im Maschinellen lernen drin. Aber die Fragestellungen sind tatsächlich noch genau die gleichen, die mich auch in meiner Masterarbeit schon interessiert haben.
00:02:19: Johanna Stegmann Sie haben ja gesagt, dass Sie dann im Nachhinein sich noch programmierend drauf geschafft haben, haben Sie sich das selbst beigebracht? Oder wie haben Sie das gelernt?
00:02:26: Dr. Anna Poetsch Genau, also wie bin ich da hingekommen? Ich habe es tatsächlich mehrfach probiert. Ich komme aus einer Familie, wo sehr viel programmiert wird. Also mein Vater ist Mathematiker, also aus einer Zeit, wo es Informatiker noch nicht gab, also eigentlich ist er Informatiker. Und auch mein Bruder. Und es war eigentlich immer auch ganz selbstverständlich, dass er sich als Kind dafür interessiert hat. Und bei mir halt irgendwie nicht so. Und es liegt auch ein bisschen wahrscheinlich daran, dass ich ein Mädchen war. Und ich habe dann, als ich im Schüleraustausch in den USA war, Java programmieren wollen. Die Lehrerin kam aus Texas und ich habe die einfach nicht verstanden. Und irgendwann hat sie mir einfach ein Buch gegeben und dann habe ich ein bisschen rumgespielt und das war es dann. Und dann habe ich nach dem Studium gedacht, naja jetzt möchte ich das ein bisschen mehr vertiefen und habe so einen Freiwilligenkurs gemacht in Fortran. Fortran ist eine relativ alte Sprache, die Bio-Physiker noch ganz gerne verwenden, aber sonst eigentlich, also zum Beispiel in meinem Bereich gar keiner. Und die ist halt sehr, sehr schwierig zu lernen und sehr ungewöhnlich. Es war ein ganz, ganz kleiner Kurs, aber alle konnten schon Python programmieren. Und die haben mich halt wirklich ganz schnell abgehängt. Und ich bin dann zu meinem Professor gegangen und habe gesagt: „Entschuldigung, ich komme nicht mehr mit“. Und dann hat er gesagt, naja gut, dann halt nicht. Und dann bin ich gegangen. Keiner auf die Idee gekommen, mir zu sagen, vielleicht ist Fortran nicht die beste Einsteiger-Sprache. Und sie ist es auch wirklich nicht. Also ich kann es nach wie vor nicht. In dem Moment habe ich halt gedacht, naja, es liegt mir halt nicht. Ich glaube, das war auch ein Faktor, warum es so lange gedauert hat, bis ich da wieder hingekommen bin. Und das kam hauptsächlich dadurch, dass ich während meiner Promotion doch auch viel gemacht habe, wo Statistik gemacht werden musste. Und wir hatten eine super Statistikerin an DKFZ, die ist jetzt Professorin in Oslo, Manuela Zucknick. Die hat uns so R-Skripte geschrieben, wo man relativ leicht einfach nur was Kurzes ändern musste. Dadurch, dass ich die dann genommen habe und dann ein bisschen rumgeändert habe und so weiter, habe ich dann angefangen zu sehen, das ist jetzt ja eigentlich gar nicht so schwer. Als ich dann überlegt habe, wirklich eine Computergruppe aufzusuchen, habe ich halt angefangen, so ein bisschen programmieren zu lernen, sodass ich denen zumindest zeigen konnte, ich will das wirklich. Aber ich bin dann dahin gekommen und konnte eigentlich noch nichts. Und habe auch eine relativ klare Ansage gekriegt, entweder lerne ich das relativ schnell oder ich muss mir was anderes suchen. Und ich habe es dann tatsächlich sehr, sehr schnell gelernt. Und das dann aber hauptsächlich sehr viel auch in Eigenarbeit. Aber ich war halt auch immer noch in der Umgebung, wo diese Denkweise drin war. Das Wichtigste bei der ganzen Sache ist tatsächlich auch zu lernen, wie man mit seinen Ergebnissen umgeht. Also das Technische, also jetzt gerade auch mit ChatGPT-Support und so weiter, den Code selber schreiben, ist gar nicht so schwierig. Aber die richtige Herausforderung ist tatsächlich, wie stelle ich die Fragen richtig, wie interpretiere ich denn, was hinten rauskommt und wie entwickle ich daraus neue Fragen. Es kommt eigentlich immer irgendwie was Hübsches raus, aber das Einzuschätzen zu lernen, das ist tatsächlich die Herausforderung.
00:05:07: Johanna Stegmann Ich finde es total spannend, dass sich ihr Interesse ja wie ein roter Faden durch ihren Lebenslauf zieht. Was fasziniert Sie denn so an Ihrem jetzigen Beruf? Was macht Ihnen so Spaß daran?
00:05:18: Dr. Anna Poetsch Er ist sehr vielfältig, das macht Spaß. Und ich bin auch sehr frei. Das genieße ich halt auch, dass ich selber entscheiden darf, in welche Richtung es geht. Was viele denken, was schwierig ist fürs Professorenlevel, dass man sehr viel in Meetings ist und man kann ja gar nicht mehr sich mit Wissenschaft beschäftigen, weil, man hat ja keine Zeit mehr für Experimente und so. Und das nehme ich tatsächlich nicht so wahr, weil die meisten Meetings, die ich habe, die gehen ja meistens um Wissenschaft. Das heißt, ich bin in ganz vielen Doktorandenkomitees und die präsentieren dann was häufig auch relativ weit weg von dem ist, was meine Expertise ist. Das heißt, da lerne ich noch dazu, kann mit denen über Sachen diskutieren, die mit meiner Arbeit jetzt gar nicht so wirklich was zu tun haben. Ich muss mich ganz viel damit beschäftigen, wie es in der Zukunft weitergeht, welche Fragen wir stellen wollen, welche Anträge wir schreiben wollen, auch Anträge schreiben, macht tatsächlich Spaß, weil, man darf da alle seine Ideen aufs Papier legen. Die Formalien machen natürlich keinen Spaß, aber die kann man dann einfach so mitnehmen. Und man ist halt auch die ganze Zeit mit jungen Menschen zusammen. Die Ideen haben, die neugierig sind. Und deshalb macht mir das auch besonders Spaß, jetzt eine Gruppe zu leiten, was mir tatsächlich weniger Spaß gemacht hat in der Vergangenheit war, dass ich das dann auch wirklich durchführen musste. Und dass ich mich dann zurückhalten musste, irgendwie neue Sachen anzufahren, weil, ich musste erstmal die anderen fertig machen. Und jetzt darf ich Ideen haben und kann sagen, kannst du mal bitte? Ich möchte neue Ideen haben. Und das ist schon schön auch. Also auch der Beruf als Gruppenleiter macht Spaß. Und hat aber natürlich auch eine ganz, ganz große menschliche Komponente. Und das ist was, das ich ein bisschen unterschätzt habe. Einfach wie viel man Management von Menschen lernen muss und da eben auch mit unterschiedlichsten Charakteren umgehen muss. Das macht auf der einen Seite Spaß, aber hat natürlich auch durchaus Herausforderungen.
00:06:56: Johanna Stegmann Sie beschäftigen sich unter anderem mit DNA-Sprachmodellen. Lassen Sie uns erstmal grundsätzlich anfangen, wie Sprachmodelle funktionieren. ChatGPT kennen wahrscheinlich sehr viele von uns. Wie funktionieren solche Sprachmodelle?
00:07:10: Dr. Anna Poetsch Also was die Modelle letztendlich lernen ist, dass man denen sagt, sie sollen bitte das nächste Wort vorhersagen, in den Sprachmodellen. Und um das machen zu können, müssen sie eben lernen, wie Grammatik funktioniert. Also dass man ein Subjekt, ein Verb, ein Objekt hat, im Englischen zum Beispiel. Aber eben auch, dass bestimmte Worte wichtiger sind als andere. Also wenn man jetzt sagt, der Vogel fängt den Wurm, dann ist das Wort Vogel sehr, sehr informativ, weil das bedeutet, dass der Vogel wahrscheinlich was zu essen fangen will. Wenn er jetzt nicht Vogel wäre, sondern Polizist, dann wüsste man, das Objekt muss was anderes sein. Weil ein Polizist wird jetzt sich nicht für den Wurm interessieren.
00:07:43: Johanna Stegmann Und wie sieht es in der DNA aus? Ist das da genauso oder funktioniert das anders?
00:07:51: Dr. Anna Poetsch In der DNA ist es einigermaßen ähnlich, bloß, dass DNA an sich keine Richtung hat. Es hat nur eine Richtung im Sinne von Genen und im Sinne, wie sie kopiert wird, aber nicht insgesamt. Und damit macht man den Task, den das Modell dann lernt, das ist ein Wort in der Mitte vorhersagt. Aber letztendlich ist es das Gleiche, was dieses Modell dann lernt, ist, dass es einen Gefühl kriegt für grammatikalische Strukturen, wenn sie denn da sind. Und eben aber auch, dass, wo es sieht, dass bestimmte Sequenzen mit anderen Sequenzen zusammenhängt. Auch da sind manche Sequenzen wichtiger als andere. Und so lernt es dann eben analoge Systeme. Aber da ist eben der erste große Unterschied da, dass wir bei der Sprache in gewisser Weise wissen, was wir lernen müssen, weil wir sind ja mit unserer Sprache recht gut vertraut. In der DNA an sich gibt es einfach noch ganz viel, was wir überhaupt nicht wissen. Also wir können nur nachprüfen, wie gut ist es darin, Worte vorher zu sagen, aber wir können nicht sagen, stimmt es denn jetzt, was es an Strukturen lernt? Und dann gibt es eben auch wirklich große konzeptionelle Unterschiede zwischen Sprache und DNA. Das eine ist eben die Richtung, aber das andere ist auch der Informationsfluss an sich. Weil in der menschlichen Sprache ist es so, dass der Informationsfluss relativ gradlinig ist. Das heißt, wenn ich was sage, kann man das mitschreiben und ist eigentlich relativ klar, was die zentrale Information ist. Allerdings mein Ton oder auch, wie ich meine Hände bewege, das wären so Zusatzinformationen. Aber die zentrale Information ist eigentlich relativ klar. Das ist in der DNA nicht unbedingt so. Wir denken gerne, dass das mit Genen zusammenhängt. Aber wenn man sich jetzt anschaut, wie Evolution unsere DNA geformt hat, ist das gar nicht unbedingt nur der zentrale Punkt. Weil eigentlich das Erste, was wirklich wichtig ist für DNA, ist, dass die sauber kopiert wird. Wenn die DNA nicht kopiert werden kann oder dabei bricht, dann geht die aus dem Genpool raus und geht eben nicht in die nächste Generation. Und das andere ist auch, wie DNA entstanden ist. Weil menschliche Sprache, die verändert sich, einerseits über die Schrift, aber gleichzeitig gibt es eine Evolution im gesprochenen Wort, also die Jugendsprache und so weiter. In der DNA ist das anders. In der DNA ist es so, dass die DNA nur weiterkommt, wenn sie durch die Keimbahn geht. Also das heißt, wenn sie über Sperma und Eizellen in die nächste Generation geht, alles, was in der DNA passiert im Soma, also quasi in den Zellen und in den Geweben, das wird nicht weitergegeben. Und damit kann man auf gewisser Weise sagen, sie wird nur über das geschriebenen Wort weitergegeben. Und das macht natürlich für die Evolution und wie sie sich verändert schon durchaus ein Unterschied.
00:10:16: Johanna Stegmann Wie sind Sie denn dann auf die Idee gekommen, für die DNA ein Sprachmodell zu entwickeln?
00:10:22: Dr. Anna Poetsch Eigentlich habe ich ursprünglich DNA ja wirklich als Buchstaben gesehen und ohne jetzt dem Ganzen die Ordnung von Sprache zu geben. Und dann kam GPT-3 raus und dachte mir, das ist ja interessant, kann man sowas auf DNA auch machen. Und dann haben wir uns da halt dran gewagt und haben halt überlegt, wie können wir das machen. Wir brauchen dann ja eine Definition von Worten. Das gibts ja eigentlich gar nicht wirklich in DNA und haben eben selbst so ein Modell aufgebaut. Es war tatsächlich auch ein sehr großes Forschungsfeld. In den 60ern gab es einige Studien dazu und in den 90ern nochmal. Und am Anfang natürlich sehr stark auf den Teil der DNA fokussiert, der auf Proteine kodiert. Das sind nur 1-2 Prozent, ein Proteine ist ja letztendlich das, was unseren Körper aufbaut. Aber es ist eben noch ganz viel da, was man eben nicht so versteht. Und das ist gerade in den 90ern es losgegangen, dass man eben sagen konnte, wie ist es denn mit Sprache, gibt es da Analogien und so.
00:11:12: Johanna Stegmann Wie geht man denn da vor? Also man hat ja einen riesigen Buchstabensalat, wie kann man denn da dann eine Logik erkennen oder eine Syntax?
00:11:21: Dr. Anna Poetsch Also das Intuitive daran wäre jetzt erstmal tatsächlich, in die Logik reinzugehen, die im Protein liegt. Und das ist ja auch das, was man ursprünglich dann so als Wort bezeichnet hat. Also das geht auf Sydney Brenner zurück und Francis Crick in den 50ern, die haben hier wirklich etabliert, dass 3 Buchstaben zusammen machen dann ein Element von einem Protein, also einer Aminosäure, und die Aminosäuren machen dann die Proteine. Das Problem ist bloß, dass eben diese Proteinkodierung ja nur einen ganz kleinen Teil vom Genom ausmacht. Dann habe ich ja gesagt, es gibt regulatorische DNA-Sequenzen. Und die haben auch Worte, die man auch wirklich als solche bezeichnet hat. Das sind sogenannte Transkriptionsfaktor-Bindestellen. Das heißt, da gibt es Proteine, die binden dann die DNA, die haben ein Motiv, also wirklich ein Wort, das sie erkennen. Und das führt dann zur Regulation von Genen. Das kann man auch als Wort bezeichnen. Bloß, das ist halt auch wieder nur ein ganz kleiner Teil vom Genom. Das heißt, eine Definition, die das Ganze Genom betrifft, gibt es nicht wirklich. Das heißt, das, was man dann machen kann, ist, man hackt das Genom einfach in kleine Stücke. Die macht man in verschiedenen Größen. Also man sagt jetzt einfach mal, okay, wir sagen jetzt jedes Wort hat 6 Buchstaben und man macht einfach 6 hintereinander. Gibt ein paar Worte, die eine Sequenz haben, die relativ häufig ist, die zum Beispiel 6 As, 6 Ts, werden so die häufigsten Worte dann sein. Und andere wie zum Beispiel welche, die CG drin haben, die sind super selten. Und das ist für die Algorithmen wieder ein Problem, weil die Algorithmen, die verlieben sich dann in die Frequenz und lernen deshalb nicht richtig. Das heißt, was wir dann letztendlich gemacht haben, ist, dass wir das mit einem Algorithmus gemacht haben, der das einigermaßen optimiert, wie häufig die Worte sind. Und damit haben wir jetzt ein sehr artifizielles System, Worte aufzubauen, das ist biologisch, hat nicht wirklich eine Bedeutung. Und die haben aber unterschiedliche Längen und sind aber einigermaßen ausbalanciert in ihrer Häufigkeit.
00:13:03: Johanna Stegmann Sie selbst entwickeln ja auch Sprachmodelle, zum Beispiel GROVER. Was ist das genau für ein Sprachmodell und was für ein Ziel verfolgen Sie damit?
00:13:13: Dr. Anna Poetsch Also wir haben zwei Modelle, das eine ist GROVER, das andere ist EAGLE. Und GROVER ist ein Basismodell, das man für viele verschiedene Aufgaben feintunen kann. Und das ist eben so trainiert, dass man eben ein Wort in der Mitte vorhersagt und dieses Wort ist eben eine bestimmte DNA-Sequenz. Und dadurch lernt es ein Gefühl für Semantik und Sprache und Grammatik oder was immer eben analog in der DNA sein könnte. Und damit kann man zwei Sachen machen, die für mich sehr spannend sind. Das eine ist zu gucken, was hat es denn jetzt gelernt? Also wir können ja sehen, wie gut wird es da drin, die Worte vorherzusagen. Wo ist es denn besser, wo ist es sicher, wo ist es unsicher? Und dann eben zu gucken, wo ist eigentlich überhaupt eine gewisse Informationsstruktur da? Und was hat das Modell jetzt eigentlich über Biologie gelernt? Wir haben dem ja überhaupt nichts gegeben, was wir über Biologie wissen. Wir haben dem nur die DNA-Sequenz gegeben. Das heißt, es hat was gelernt, das muss jetzt nicht unbedingt das gelernt haben, was wir über DNA wissen. Das heißt, das an sich ist schon mal sehr spannend, aber das ist natürlich eine sehr große Grundlagensfrage. Und das macht wirklich auch sehr Spaß, weil da weiß man wirklich, das ist so eine richtige Wissenschaft, wo man einfach nicht weiß, wo wird das jetzt enden. Und sowas ist wirklich spannend.
00:14:20: Johanna Stegmann Das macht Ihnen auch Spaß, oder? Also, dass Sie am Ende noch gar nicht wissen, was rauskommen könnte, sondern dass es sehr, sehr vage noch alles ist.
00:14:29: Dr. Anna Poetsch Das macht Spaß, ja. Das sind dann auch so meine Wochenendprojekte. Und die Arbeitsgruppe arbeitet da auch so ein bisschen dran, aber eher an den Sachen, die dann sicherer sind, also die nicht so weit offen sind in die Zukunft. Das ist das eine, was man machen kann, was aber natürlich deutlich pragmatischer ist, ist eben das, was ich erwähnt habe, in diesem Feintunen. Das heißt, dass man dieses Basismodell nimmt und das dann für verschiedene Aufgaben anpasst. Und diese Aufgaben für uns sind jetzt zum Beispiel Stabilitätsfragen. Wo bricht die DNA? Wo ist sie stabil? Also wir haben zum Beispiel auch Messungen zu DNA-Schaden. Das sind eher kleinere Schäden, also Oxidierungen an den Basen. Und die sind auf ganz bestimmten repetitiven Sequenzen. Und da kann man jetzt dieses Modell zum Beispiel auch nehmen, um rauszufinden, warum das auf bestimmten Sequenzen ist, aber nicht auf anderen. Und wie weit ist das eigentlich in der DNA drin, warum die da sind, diese Schäden? Und inwieweit das von anderen Faktoren auch noch begünstigt wird?
00:15:22: Johanna Stegmann Also das DNA-Sprachmodell kann somit vorhersagen, hier wird die DNA vermutlich brechen mit einer bestimmten Wahrscheinlichkeit. Aber warum kann sie denn auch vorhersagen, warum sie dort ausgerechnet brechen wird?
00:15:37: Dr. Anna Poetsch Weil wir gucken können, anhand welcher Sequenzen das Sprachmodell das vorhersagt. Und wir wissen für bestimmte Sequenzen auch, was da sonst so passiert. Also wo es zum Beispiel gerne bricht, ist da, wo Gene anfangen. Oder auch zum Beispiel, wenn es in den Genen passiert, können wir davon ausgehen, dass während ein Gen ausgelesen wird, kann es zum Beispiel auch sein, dass es kollidiert, bis die DNA gleichzeitig kopiert wird. Das sind zwei riesen Komplexe, die dann halt auch einfach zusammenkrachen können. Was wir eben auch machen können, mit diesem Feintunen, ist, dass wir andere Daten mit reinnehmen. Also dass wir sagen können, wir haben jetzt zusätzliche Messungen zum Beispiel, zu was sonst auf der DNA passiert. Und dann trainieren wir ein Modell, das diese Information eben auch berücksichtigt. Und wenn dieses Modell jetzt dann besser wird, dann wissen wir, dass da zusätzlich Information kommt. Und wohingegen die Informationen dem Modell nicht helfen, heißt das, da ist nichts Zusätzliches drin gewesen. Und dann wissen wir, das war dann auch schon in der DNA-Sequenz.
00:16:28: Johanna Stegmann Welche Trainingsdaten nutzen Sie eigentlich für Ihre Sprachmodelle?
00:16:33: Dr. Anna Poetsch Wir benutzen tatsächlich, also für das Ursprungsmodell, das Referenzgenom für den Menschen. Das bedeutet, dass ist ein Genom, das man definiert hat als so das Durchschnittsgenom. Es ist tatsächlich nicht wirklich durchschnittlich, das wurde tatsächlich auch mal analysiert und da hat man dann doch durchaus gesehen, dass es zu 80% eine Person ist aus Buffalo, der aber zumindest den gemixten Hintergrund hatte zwischen Westafrika und Europa. Das heißt ein bisschen Diversität ist schon dabei. Und das wird so als Durchschnittsgenom gesehen. Was wir ursprünglich geplant hatten, war tatsächlich, das auch zu diversifizieren, also entsprechend Daten auch mitreinzunehmen, um die Menschheit besser abzudecken. Da haben wir aber gemerkt, dass das wahrscheinlich gar nichts bringt. Und der Grund, weswegen wir das gemerkt haben, ist, dass wir ein gleiches Modell gebaut haben für das Mausgenom. Und da haben wir gemerkt, dass dieses Modell, obwohl das Mausgenom doch sehr unterschiedlich ist zum Humangenom, jetzt nicht unbedingt in den Genen, das ist tatsächlich sehr ähnlich, aber außerhalb der Gene. Und trotzdem haben beide Modelle sehr, sehr ähnliche Sachen gelernt. Die Grundprinzipien sind so ähnlich, dass wir das tatsächlich ganz schön uns zu Brust nehmen mussten, um da Unterschiede zu finden. Und wenn das schon bei Mensch und Maus so ist, dann sind Menschen, die ja an sich, also auch im Vergleich zu anderen Arten, genetisch sehr ähnlich sind, wird das wahrscheinlich überhaupt keinen Unterschied lernen. Was man noch machen könnte, ist tatsächlich, dass es technisch ein bisschen hilft, wenn man einfach mehr Trainingsdaten hat, wenn man einfach ein paar mehr Diversitätsmarker mit drin hat. Aber ich weiß, es machen andere Leute auch. Und wenn wir die Modelle, die es so gibt, vergleichen, die Qualität der Modelle ist so ähnlich, dass ich glaube, wir sind tatsächlich an dem Punkt, wo man die gar nicht unbedingt mehr verbessern kann.
00:18:06: Johanna Stegmann Wenn das Maus- und das Humangenom gar nicht so unterschiedlich sind, was bedeutet das dann für Tierversuche?
00:18:15: Dr. Anna Poetsch Also ich glaube, das Grundprinzip ist ähnlich. Dass es ähnliche Grammatik lernt und so weiter. Aber das ist trotzdem noch so, dass das Mausgenom ja dann auch unterschiedliche Gensequenzen hat. Also das ist ein bisschen so, wie die Bibel baut auf die gleiche Grammatik auf wie Pippi Langstrumpf. Aber es sind trotzdem unterschiedliche Bücher und der Inhalt ist sehr unterschiedlich. Und das trifft nach wie vor auf das Humane und das Mausgenom zu. Ich glaube, es ist eher so eine praktische Frage, dass man sich überlegen muss: Muss man jetzt wirklich für jedes einzelne Tier ein eigenes Modell bauen? Oder kann man die eben übereinander anwenden? Oder kann man zum Beispiel auch Modelle von anderen Spezies benutzen, um über Spezies, wo man gar nicht das Genom genau kennt, Aussagen zu treffen? Also hilft uns zum Beispiel das Elefantengenom fürs Mammut. Das sind eher solche Fragestellungen, die mit reinspielen. Was ich generell denke, ist, dass diese Arten von Algorithmen, sowohl was die DNA anbelangt, als auch das, was generell in der Biologie gerade passiert, mit maschinellem Lernen und so, glaube ich sehr gut darin auch ist, generell Experimente einfach zu machen. Also wir haben zum Beispiel jetzt auch andere Projekte, wo wir Genregulation uns angucken, wo wir tatsächlich in silico Experimente machen, was quasi heißt, wir machen Experimente im Computer.
00:19:23: Johanna Stegmann In vivo und in vitro sagt mir was, aber was genau ist in silico?
00:19:29: Dr. Anna Poetsch Genau, also in vivo heißt quasi im lebenden Organismus, in vitro heißt in einem Röhrchen. Und in silico ist quasi einfach wegen dem Silikon im Computer. Wir verändern DNA-Sequenzen und gucken, hat das jetzt bestimmte Konsequenzen auf das Gen, das wir uns anschauen und so weiter. Und solche Fragen, das kann man dann im Computer machen. Und das waren halt vorher aufwändige Experimente, wenn man sowas machen wollte. Und ich glaube, da kann man jetzt einfach viel mehr Sachen durchsimulieren, so dass man dann zum einen Experimente vermeiden kann. Man muss es schon noch irgendwie anders validieren, aber das geht schon auch mit Computermethoden oder mit Daten. Validierung muss nicht immer nur experimentell sein. Oder man kann wirklich auch experimentelle Szenarien durchspielen und kann dann die Zahl der Experimente, die man zum Schluss machen muss, um es wirklich festzunageln, sehr stark reduzieren.
00:20:14: Johanna Stegmann Sie beschäftigen sich vor allem mit der Grundlagenforschung von Altern und Krebs. Wie kombinieren Sie diese Themen mit den DNA-Sprachmodellen?
00:20:25: Dr. Anna Poetsch Ja, also ich hatte das schon erwähnt mit den Strangbrüchen. Und das ist natürlich ein ganz großer Faktor in der Entstehung von Zellen, die altern, und eben dann auch in der Krebsentstehung. Und wir gucken generell nach DNA-Schaden und Mutation. Also das andere Modell, das ich schon erwähnt habe, EAGLE, zum Beispiel, das lernt ganz gezielt somatische Mutationen. Und das haben wir angefangen mit dem Speiseröhrenkrebs und jetzt inzwischen auf viele Krebsarten erweitert. Und das ist ganz konkret eben mit Proben aus der Krebsforschung, aber eben jetzt auch gesundes Gewebe. Also das Wichtigste daran für uns ist auch zu verstehen, wo kommen die Mutationen überhaupt her. Also für ganz viele Mutationstypen wissen wir gar nicht, wie die entstehen. Wir können sehen, dass die Wahrscheinlichkeit, wo sie sind, ist sehr, sehr heterogen. Und das liegt zum einen daran, dass bestimmte Mutationen selektiert werden, weil die eben einen Evolutionsvorteil haben. Dann greifen wirklich so richtig die Mechanismen, die Darwin beschrieben hat, dass, wenn eine Zelle fitter ist als eine andere Zelle, dass sie dann mehr wächst. Und was wir aber auch sehen, dass es an der Mutagenese selber, also wie die Mutationen entstehen, ist es auch sehr, sehr heterogen. Und so gibt es halt Gebiete im Genom, die viel mutieren, und andere, die nicht viel mutieren. Wenn wir das vorhersagen können, können wir eben auch gucken, welche Muster liegen da drunter, welche Biologie passiert da denn eigentlich, um eben dann verstehen zu können, wo kommen die denn her. Wenn wir diese Heterogenität auch verstehen, also dadurch, dass wir das jetzt auch simulieren können, wie hoch ist die Wahrscheinlichkeit, können wir eben auch gucken, wie hängt eigentlich die Wahrscheinlichkeit zusammen, damit, wie häufig wir Mutationen sehen. Und das wird nämlich auch sehr, sehr wichtig, dass wir einfach sagen können, welche Mutationen sind denn jetzt eigentlich wichtig in der Krebsentstehung? Da wissen wir auch schon sehr viel, aber gerade zum Beispiel bei den Mutationen, die dazu führen, dass wir altern, da weiß man eben noch nicht so richtig, welche Gene spielen dann jetzt eigentlich eine Rolle, weil das teilweise auch unterschiedliche Gene sind als in der Krebsentstehung. Das ist das eine, und dann kann man natürlich jetzt auch, wenn man diese Wahrscheinlichkeiten hat, kann man damit noch viele andere Sachen machen, weil die tatsächlich auch von der Datenstruktur deutlich zugänglicher sind als Mutationen. Weil, Mutationen sind sehr, sehr selten.
00:22:27: Johanna Stegmann Aber sind Mutationen wirklich so selten? Ich dachte immer, Mutationen kommen häufiger vor, als man denkt.
00:22:34: Dr. Anna Poetsch Wenn man es mal ganz quantitativ sagt, sehen wir so in den Zehntausenden meistens. Das klingt jetzt viel, deshalb gebe ich Ihnen recht, ja, es sind viele, aber wenn man jetzt sagt, wir haben drei Milliarden Buchstaben, dann sind es plötzlich wenige. Also es gibt viele Buchstaben, die gerne mutieren, aber noch viel mehr, die ungern mutieren. Und jetzt ist es so, dass wir nur eine bestimmte Zeit haben, in denen die mutieren können. Und das bedeutet nicht, dass nur die mutieren, die eben auch gerne mutieren, sondern eben auch die Unwahrscheinlichen dann halt auch mit dabei sind, einfach weil es so viele sind. Das ist halt einfach wirklich eine Frage der Statistik. Und das führt aber dazu, dass wir halt immer nur einen sehr kleinen Ausschnitt davon sehen von den Mutationen, die wirklich gerne passiert wären, weil die einfach nicht genug Zeit haben. Das ist ein bisschen so, wie man nur die Spitze vom Eisberg sieht, von denen die wirklich mutieren wollen. Und wenn wir das halt konvertieren können in Wahrscheinlichkeiten, dann haben wir jetzt wirklich für jeden Buchstaben wirklich einen richtigen Wert. Und das ist für viele Aufgaben einfach sehr, sehr, sehr hilfreich. Wir haben jetzt zum Beispiel einen Primärtumor und wir haben eine Metastase. Die Sache ist die, dass diese Metastase, die man misst, nicht unbedingt genau in den Bereich kommt, wie der Primärtumor, den wir jetzt messen. Aber wir können die Mutationen uns angucken und wir versuchen zu fragen, welche sind später gekommen. Aber wenn wir jetzt quasi eine Mutation selber, einfach ein differenzielles Bild machen wollen, dann kann es einfach sein, dass wir ganz viele Mutationen aus dem Primärtumor zum Beispiel mit der Metastase gar nicht finden. Aber wenn wir jetzt Wahrscheinlichkeiten haben, dann können wir das so ein bisschen ausgleichen und können einfach sagen, welche Arten von Mutationen sind dann einfach häufiger in der Metastase. Und das ist besonders dann eben auch wichtig, wenn zur Zeit des Primärtumors zum Beispiel eine Behandlung stattgefunden hat und es sich hier um eine Metastase halt gehandelt hat, die später gekommen ist. Also hat man quasi mit der Behandlung eine Metastase ausgelöst oder nicht. Und viel deutet halt auch darauf hin, dass es gar nicht unbedingt so ist. Also alles, was wir bisher uns angeguckt haben, wenn ein Tumor zurückgekommen ist, war der Klon, der dann letztendlich hochgewachsen ist, der war immer schon im Primärtumor da. Da hat man eben nicht mit der Behandlung das ausgelöst. Nun, damit keine Missverständnisse entstehen.
00:24:32: Johanna Stegmann Sie hatten vorhin erwähnt, dass sich Ihre Forschung zu Beginn vor allem auf Speiseröhrenkrebs konzentriert hat. Gab es einen Grund, warum Sie sich ausgerechnet mit diesem Krebs näher beschäftigt haben?
00:24:44: Dr. Anna Poetsch Mich interessiert generell sehr stark oxidativer DNA-Schaden, wenn man ein extra Sauerstoff auf einem G bekommt, weil wir den auch schön messen können. Also da habe ich in meiner Karriere früher, als ich noch pipettiert habe, eine Methode entwickelt, dass man die messen kann. Und wir wissen eben nicht so wirklich, wo diese Mutationen herkommen, die in der Speiseröhre sind, die von der Magensäure ausgelöst werden. Aber die hängen wahrscheinlich eben mit diesem Mechanismus zusammen. Generell interessiere ich mich, wie die Magensäure Mutationen auslöst. Gerade wenn man bedenkt, dass Magenkrebs und Speiseröhrenkrebs wirklich üble Krebsarten sind, wo auch die Forschung nicht wirklich weiterkommt, gute Behandlungsmöglichkeiten vorzuschlagen, sind das so diese Krebsarten, wo man auch wirklich sich ganz, ganz doll Gedanken machen sollte, wie man die verhindern kann.
00:25:28: Johanna Stegmann Was sind denn weitere praktische Anwendungen, die Sie mit Ihren DNA-Sprachmodellen untersuchen können?
00:25:35: Dr. Anna Poetsch Die genetische Variabilität zwischen Menschen, die kann ja auch wirklich dazu führen, dass verschiedene Prozesse unterschiedlich sind. Und wenn wir jetzt zum Beispiel mit der DNA-Sequenz vorhersagen, dass wir an irgendeiner Stelle eine bestimmte Wahrscheinlichkeit für einen Doppelstrangbruch haben, bedeutet das ja natürlich auch, dass wenn wir jetzt die DNA-Sequenz ändern, dass es sein kann, dass die Wahrscheinlichkeit sich dort ändert. Also diese sogenannten Varianteneffekte, die gucken wir uns auch in verschiedenen Bereichen genauer an. Sogenanntes Replication Timing schauen wir uns dahingehend an. Replication Timing ist ein Wert, der sagt, wie die DNA kopiert wird. Da gibt es Bereiche im Genom, die werden früh kopiert und es gibt Bereiche im Genom, die werden spät kopiert in der Zellteilung. Und das hat einen Rieseneinfluss darauf, wie stabil das alles ist. Also am Anfang ist immer alles stabil und gut. Und gegen Ende hin wird das alles ein bisschen instabiler. Das können wir tatsächlich auch sehen, dass wenn da eine andere Variante zum Beispiel irgendwo sitzt, dass sich das ändert. Dass plötzlich was, was sonst bei jemand anderem früh kopiert wird, bei einer anderen Person dann spät kopiert. Und das hat natürlich dann auch Konsequenzen, wie wahrscheinlich es ist, dass es bricht. Und das hat dann auch das Potenzial, dass das bestimmte Krankheiten begünstigt oder eben auch schützend ist. Und das ist was, was jetzt erst so richtig losgeht, dass man sich sowas richtig angucken kann. Weil experimentell ist sowas super, super schwierig, weil wenn man dann Varianten einführt, dann kann man das nicht im hohen Durchsatz machen. Aber natürlich im Computer ist der hohe Durchsatz egal, wenn man die entsprechende Rechenleistung hat.
00:27:02: Johanna Stegmann Forschung hat oft zwei Seiten. Sie kann sehr viel Gutes bewirken, aber sie hat eben auch ihre Schattenseiten und kann missbraucht werden. Um zum Beispiel eine DNA-Sequenz von Viren herzustellen, also um neue Viren zu erfinden. Wie schätzen Sie denn diese Gefahr ein?
00:27:19: Dr. Anna Poetsch Natürlich gibt es auch andere Leute, die DNA-Sprachmodelle verwenden und die wirklich generative Aufgaben machen. Also da gab es jetzt eben vor Kurzem eine Studie, wo sie mit diesen Modellen Viren gebaut haben. Das waren Viren, die Bakterien befallen, also keine Humanpathogenviren. Und das ist dann eben was, wo halt die künstliche Intelligenz wirklich DNA-Sequenzen macht. Und dann braucht es aber auch immer noch den Wissenschaftler, der diese DNA-Sequenzen in ein Bakterium reinmacht, damit ein Virus entsteht. Und dann hatte dieser Virus aber eben auch neue Eigenschaften, dass es das Bakterium getötet hat. Und das sind natürlich dann auch Dinge, über die man nachdenken sollte, was kann das für Folgen haben. Es kam jetzt durchaus auch eine Studie raus, das hätte ich tatsächlich nicht gemacht. Ich weiß auch gar nicht, inwieweit das mit den deutschen Regeln überhaupt vereinbar gewesen wäre. Aber die haben eben dieses Modell auch weiter trainiert, indem sie humanpathogene Viren reingegeben haben, einfach um zu zeigen, wie einfach das ist. Aber dann haben sie nicht weiter was gemacht. Also sie haben tatsächlich nicht die DNA genommen und wirklich damit Viren gebaut. Aber sie haben die Sequenz schon sich geholt, um zu sagen, das könnten wir jetzt machen. Schlimme Viren bauen kann man als Virologe, wenn man wirklich Ahnung davon hat, auch jetzt schon, also auch die klassischen Methoden funktionieren. Und es gibt ganz, ganz strenge Regeln, also gerade in Deutschland, die das eben auch nicht zulassen. Also das ist alles schon sehr streng reguliert. Daher sind diese Modelle eigentlich nur dazu geeignet, das Ganze effizienter, schneller und einfacher zu machen. Aber man muss danach ja auch trotzdem noch ins Labor, und das fällt ja unter die normalen Regeln. Was man sich jetzt überlegen sollte, ist, dass man einfach diese Regeln sich nochmal vornimmt und guckt, greifen die dann für all die Eventualitäten, und dass man sich halt auch wirklich Gedanken drüber macht, gibt es dadurch jetzt ein Risiko. Gerade weil es eben einfacher wird. Ich würde jetzt noch nicht mal sagen, dass unbedingt das Risiko jetzt größer ist als vorher, aber ich denke schon, dass ein Gespräch da drüber jetzt wichtig ist. Gerade mit Experten. Also gerade für Viren bin ich zum Beispiel auch kein Experte, da kann ich jetzt so viel nicht dazu sagen, aber eben diese Modelle sind jetzt einfach leichter zugänglich, und eben diese Arbeiten sind jetzt leichter durchzuführen.
00:29:19: Johanna Stegmann Zum Abschluss habe ich eine etwas poetische Frage für Sie. Die Sprache der DNA, mit was würden Sie die vergleichen? Ist das wie Poesie, wie Englisch, wie Umgangssprache?
00:29:33: Dr. Anna Poetsch Es klingt jetzt vielleicht ein bisschen doof, aber ich sehe es tatsächlich sehr stark wie ein Vierjähriger ein Lego-Auto baut, weil so Evolution funktioniert. Letztendlich ist Evolution so, dass zufällig irgendwelche Sachen passieren, wie so ein Vierjähriger, der irgendwie plötzlich ein Kran auf das Auto baut, aber sobald es fährt, ist er glücklich. Und so funktioniert Evolution auch. Das heißt, es sind eine Menge zusätzliche Sachen drin, so lange die nicht stören, gehen die nicht weg, und wenn sie stören dann schon. Was dranpacken, gucken, ob es läuft, wenn es nicht stört, läuft es weiter. Dadurch ist es in gewisser Weise sehr funktional und sehr flexibel, aber doch auch sehr chaotisch. Und das alles gleichzeitig. Und daher ist es mit einer Sprache nicht so zu vergleichen, weil ich glaube, eine Sprache doch deutlich mehr Struktur hat, also deutlich weniger Zufallseinflüsse hat.
00:30:23: Johanna Stegmann Das finde ich einen sehr schönen Vergleich. Frau Poetsch, ich danke Ihnen für das Gespräch. Das war der Code des Lebens, produziert von GHGA, dem Deutschen Humangenom-Phänomarchiv.