Neue Art des Studiums der Genomik macht Deep Learning zum Kinderspiel

Bildnachweis: Pixabay/CC0 Public Domain

Forscher des Max-Delbrück-Centrums für Molekulare Medizin haben ein neues Werkzeug entwickelt, das es einfacher macht, die Leistungsfähigkeit von Deep Learning für das Studium der Genomik zu maximieren. Sie beschreiben den neuen Ansatz, Janggu, in der Zeitschrift Naturkommunikation.

Stellen Sie sich vor, dass Sie, bevor Sie das Abendessen zubereiten können, zuerst die Küche umbauen müssen, die speziell für jedes Rezept entwickelt wurde. Sie würden viel mehr Zeit mit der Vorbereitung verbringen, als mit dem Kochen. Für Computerbiologen war die Analyse von Genomdaten ein ähnlich zeitaufwändiger Prozess. Bevor sie mit der Analyse beginnen können, verbringen sie viel wertvolle Zeit damit, riesige Datensätze zu formatieren und vorzubereiten, um sie in Deep-Learning-Modelle einzuspeisen.

Um diesen Prozess zu rationalisieren, haben Forscher des MDC ein universelles Programmierwerkzeug entwickelt, das eine Vielzahl von Genomdaten in das erforderliche Format für die Analyse durch Deep-Learning-Modelle umwandelt. „Früher haben Sie viel Zeit mit dem technischen Aspekt verschwendet, anstatt sich auf die biologische Frage zu konzentrieren, die Sie zu beantworten versuchten“, sagt Dr. Wolfgang Kopp, Wissenschaftler in der Forschungsgruppe Bioinformatik und Omics Data Science am MDC Berlin Institut für Medizinische Systembiologie (BIMSB) und Erstautor der Arbeit. “Mit Janggu wollen wir einen Teil dieser technischen Belastung entlasten und so vielen Menschen wie möglich zugänglich machen.”

Eindeutiger Name, universelle Lösung

Janggu ist nach einer traditionellen koreanischen Trommel benannt, die wie eine auf die Seite gedrehte Sanduhr geformt ist. Die beiden großen Abschnitte der Sanduhr repräsentieren die Bereiche, auf die sich Janggu konzentriert: Vorverarbeitung von Genomdaten, Ergebnisvisualisierung und Modellauswertung. Der schmale Konnektor in der Mitte stellt einen Platzhalter für jede Art von Deep-Learning-Modell dar, die Forscher verwenden möchten.

Deep-Learning-Modelle beinhalten Algorithmen, die riesige Datenmengen sortieren und relevante Merkmale oder Muster finden. Obwohl Deep Learning ein sehr leistungsfähiges Werkzeug ist, war seine Verwendung in der Genomik begrenzt. Die meisten veröffentlichten Modelle funktionieren in der Regel nur mit festen Datentypen, die nur eine bestimmte Frage beantworten können. Das Auslagern oder Hinzufügen neuer Daten erfordert oft einen Neuanfang und einen umfangreichen Programmieraufwand.

Janggu wandelt verschiedene Genomik-Datentypen in ein universelles Format um, das in jedes Machine-Learning- oder Deep-Learning-Modell eingebunden werden kann, das Python, eine weit verbreitete Programmiersprache, verwendet.

„Das Besondere an unserem Ansatz ist, dass Sie problemlos jeden genomischen Datensatz für Ihr Deep-Learning-Problem verwenden können, alles ist in jedem Format möglich“, sagt Dr. Altuna Akalin, die die Forschungsgruppe Bioinformatik und Omics Data Science leitet.

Trennung ist der Schlüssel

Akalins Forschungsgruppe hat eine doppelte Mission: neue Werkzeuge des maschinellen Lernens zu entwickeln und damit Fragestellungen in Biologie und Medizin zu untersuchen. Während ihrer eigenen Recherchen waren sie ständig frustriert, wie viel Zeit für die Formatierung von Daten aufgewendet wurde. Sie erkannten, dass ein Teil des Problems darin bestand, dass jedes Deep-Learning-Modell seine eigene Datenvorverarbeitung enthielt. Durch die Trennung der Datenextraktion und -formatierung von der Analyse bietet es eine viel einfachere Möglichkeit, Datenabschnitte auszutauschen, zu kombinieren oder wiederzuverwenden. Es ist, als ob Sie alle Küchengeräte und Zutaten zur Hand haben, um ein neues Rezept auszuprobieren.

„Die Schwierigkeit bestand darin, die richtige Balance zwischen Flexibilität und Benutzerfreundlichkeit zu finden“, sagt Kopp. “Wenn es zu flexibel ist, werden die Leute in verschiedenen Optionen ertrinken und es wird schwierig, loszulegen.”

Kopp hat mehrere Tutorials vorbereitet, um anderen den Einstieg in die Verwendung von Janggu zu erleichtern, zusammen mit Beispieldatensätzen und Fallstudien. Die Naturkommunikation Das Papier demonstriert Janggus Vielseitigkeit beim Umgang mit sehr großen Datenmengen, beim Kombinieren von Datenströmen und bei der Beantwortung verschiedener Arten von Fragen, wie der Vorhersage von Bindungsstellen aus DNA-Sequenzen und/oder der Zugänglichkeit von Chromatin sowie für Klassifizierungs- und Regressionsaufgaben.

Endlose Anwendungen

Obwohl der größte Vorteil von Janggu im Frontend liegt, wollten die Forscher eine Komplettlösung für Deep Learning bereitstellen. Janggu beinhaltet auch die Visualisierung der Ergebnisse nach der Deep-Learning-Analyse und wertet aus, was das Modell gelernt hat. Bemerkenswert ist, dass das Team eine “Sequenzcodierung höherer Ordnung” in das Paket integriert hat, die es ermöglicht, Korrelationen zwischen benachbarten Nukleotiden zu erfassen. Dies trug dazu bei, die Genauigkeit einiger Analysen zu erhöhen. Durch die Vereinfachung und Benutzerfreundlichkeit von Deep Learning hilft Janggu, die Tür zur Beantwortung aller Arten biologischer Fragen zu öffnen.

“Eine der interessantesten Anwendungen ist die Vorhersage der Wirkung von Mutationen auf die Genregulation”, sagt Akalin. “Das ist spannend, weil wir jetzt damit beginnen können, einzelne Genome zu verstehen, zum Beispiel genetische Varianten zu lokalisieren, die regulatorische Veränderungen verursachen, oder wir können regulatorische Mutationen interpretieren, die in Tumoren auftreten.”


Leave a Comment