Juli 31, 2025

Neues KI-Tool beleuchtet die „dunkle Seite“ des menschlichen Genoms

Forscher des Salk Institute starten ShortStop, ein Framework für maschinelles Lernen, das übersehene DNA-Regionen auf der Suche nach Mikroproteinen untersucht, die bei Krankheiten eine Rolle spielen könnten

Salk-Nachrichten


Neues KI-Tool beleuchtet die „dunkle Seite“ des menschlichen Genoms

Forscher des Salk Institute starten ShortStop, ein Framework für maschinelles Lernen, das übersehene DNA-Regionen auf der Suche nach Mikroproteinen untersucht, die bei Krankheiten eine Rolle spielen könnten

LA JOLLA – Proteine erhalten das Leben, wie wir es kennen, und erfüllen im gesamten Körper wichtige strukturelle und funktionelle Aufgaben. Doch diese großen Moleküle werfen einen langen Schatten auf eine kleinere Unterklasse von Proteinen, die Mikroproteine. Mikroproteine sind in den 99 % der DNA verloren gegangen, die als „nicht kodierend“ gelten – versteckt in riesigen, dunklen Abschnitten unerforschten genetischen Codes. Doch obwohl sie klein und schwer fassbar sind, könnte ihre Bedeutung genauso groß sein wie die größerer Proteine.

Brendan Miller (links) und Alan Saghatelian (rechts) stehen in ihrem Labor, während ShortStop auf dem Desktop neben ihnen läuft.
Brendan Miller (links) und Alan Saghatelian (rechts) stehen in ihrem Labor, während ShortStop auf dem Desktop neben ihnen läuft.
Zu den offenen Stellen für ein hochauflösendes Bild.
Bildnachweis: Salk Institute

Wissenschaftler des Salk Institute erforschen derzeit die geheimnisvolle dunkle Seite des Genoms auf der Suche nach Mikroproteinen. Mit ihrem neuen Tool ShortStop können Forscher genetische Datenbanken durchsuchen und DNA-Abschnitte im Genom identifizieren, die wahrscheinlich für Mikroproteine kodieren. ShortStop sagt zudem voraus, welche Mikroproteine am wahrscheinlichsten biologisch relevant sind. Das spart Zeit und Geld bei der Suche nach Mikroproteinen, die für Gesundheit und Krankheit verantwortlich sind.

ShortStop wirft ein neues Licht auf bestehende Datensätze und rückt Mikroproteine in den Fokus, die bisher nicht auffindbar waren. Tatsächlich hat das Salk-Team das Tool bereits zur Analyse eines Lungenkrebs-Datensatzes verwendet und dabei 210 völlig neue Mikroproteinkandidaten – darunter ein herausragendes validiertes Mikroprotein – gefunden, die in Zukunft gute therapeutische Ziele darstellen könnten.

Die Ergebnisse wurden veröffentlicht in BMC-Methoden Juli 31, 2025.

„Die meisten Proteine in unserem Körper sind gut bekannt, aber neuere Entdeckungen deuten darauf hin, dass uns Tausende kleiner, versteckter Proteine – sogenannte Mikroproteine – entgangen sind, die in übersehenen Regionen unseres Genoms kodiert werden“, sagt der leitende Autor Alan Saghatelian, Professor und Inhaber des Dr. Frederik Paulsen-Lehrstuhls am Salk. „Lange Zeit untersuchten Wissenschaftler nur die DNA-Regionen, die für große Proteine kodierten, und taten den Rest als ‚Junk-DNA‘ ab. Doch jetzt erfahren wir, dass diese anderen Regionen tatsächlich sehr wichtig sind und dass die von ihnen produzierten Mikroproteine eine entscheidende Rolle bei der Regulierung von Gesundheit und Krankheit spielen könnten.“

Mehr über Mikroproteine

Mikroproteine zu erkennen und zu katalogisieren ist vor allem aufgrund ihrer Größe schwierig. Im Vergleich zu Standardproteinen, die Hunderte bis Tausende von Aminosäuren lang sein können, enthalten Mikroproteine typischerweise weniger als 150 Aminosäuren, was ihre Erkennung mit herkömmlichen Methoden der Proteinanalyse erschwert. Daher suchen Wissenschaftler nicht nach den Mikroproteinen selbst, sondern in großen, öffentlich zugänglichen Datensätzen nach den DNA-Sequenzen, aus denen sie bestehen.

Wissenschaftler haben nun herausgefunden, dass bestimmte DNA-Abschnitte, sogenannte kleine offene Leserahmen (smORFs), die Anweisungen zur Herstellung von Mikroproteinen enthalten können. Mit aktuellen experimentellen Methoden wurden bereits Tausende von smORFs katalogisiert, doch diese Verfahren sind nach wie vor zeitaufwändig und teuer. Zudem ist es ihnen nicht möglich, potenziell funktionelle Mikroproteine von nicht-funktionellen Mikroproteinen zu trennen, was ihre Entdeckung und Charakterisierung verzögert.

So funktioniert ShortStop

Nicht alle smORFs führen zu biologisch relevanten Mikroproteinen. Bestehende Methoden können nicht zwischen funktionalen und nicht funktionalen mikroproteinerzeugenden smORFs unterscheiden. Das bedeutet, dass Wissenschaftler jedes Mikroprotein einzeln testen müssen, um festzustellen, ob es funktional ist oder nicht.

Zellen exprimieren ein neues, von ShortStop vorhergesagtes Mikroprotein (grün), wobei die Zellkerne blau gefärbt sind. Das Muster deutet darauf hin, dass Mikroproteine entweder in Endosomen, Organellen, die für die Sortierung und den Transport zellulärer Fracht zuständig sind, oder in Lysosomen, Organellen, die zellulären Abfall sammeln und entfernen, lokalisiert sind.
Zellen exprimieren ein neues, von ShortStop vorhergesagtes Mikroprotein (grün), wobei die Zellkerne blau gefärbt sind. Das Muster deutet darauf hin, dass Mikroproteine entweder in Endosomen, Organellen, die für die Sortierung und den Transport zellulärer Fracht zuständig sind, oder in Lysosomen, Organellen, die zellulären Abfall sammeln und entfernen, lokalisiert sind.
Zu den offenen Stellen für ein hochauflösendes Bild.
Bildnachweis: Salk Institute

ShortStop verändert diesen Arbeitsablauf radikal und optimiert die smORF-Entdeckung durch die Sortierung von Mikroproteinen in funktionale und nicht-funktionale Kategorien. Der Schlüssel zur Zwei-Klassen-Sortierung von ShortStop liegt in der Art und Weise, wie es als maschinelles Lernsystem trainiert wird. Das Training basiert auf einem negativen Kontrolldatensatz computergenerierter zufälliger smORFs. ShortStop vergleicht gefundene smORFs mit diesen Lockvögeln, um schnell zu entscheiden, ob ein neues smORF wahrscheinlich funktional oder nicht-funktional ist.

ShortStop kann nicht definitiv sagen, ob ein smORF für ein biologisch relevantes Mikroprotein kodiert, aber dieses Zwei-Klassen-System schränkt den experimentellen Pool erheblich ein. Forscher müssen nun weniger Zeit mit der manuellen Sortierung von Datensätzen verbringen und müssen weniger am Labortisch scheitern.

Als die Forscher ShortStop auf einen zuvor veröffentlichten smORF-Datensatz anwendeten, identifizierten sie 8 % davon als wahrscheinlich funktionelle Mikroproteine und priorisierten sie für eine gezielte Nachverfolgung. Dies beschleunigt die Mikroproteincharakterisierung, indem Sequenzen herausgefiltert werden, die wahrscheinlich keine biologische Relevanz haben. ShortStop konnte auch Mikroproteine identifizieren, die mit anderen Methoden übersehen wurden, darunter eines, das durch den Nachweis in menschlichen Zellen und Geweben validiert wurde.

„ShortStop ist besonders leistungsstark, weil es mit gängigen Datentypen wie RNA-Sequenzierungs-Datensätzen arbeitet, die viele Labore bereits nutzen“, sagt Erstautor Brendan Miller, Postdoktorand in Saghatelians Labor. „Das bedeutet, dass wir nun in großem Maßstab in gesundem und erkranktem Gewebe nach Mikroproteinen suchen können. Dies wird uns neue Einblicke in die menschliche Biologie ermöglichen und neue Wege für die Diagnose und Behandlung von Krankheiten wie Krebs und Alzheimer eröffnen.“

ShortStop erkennt Mikroproteine, die mit Lungenkrebs in Zusammenhang stehen

Die Forscher haben ShortStop bereits verwendet, um ein Mikroprotein zu identifizieren, das in Lungenkrebstumoren hochreguliert war. Sie analysierten genetische Daten von menschlichen Lungentumoren und angrenzendem Normalgewebe, um eine Liste potenzieller funktioneller smORFs zu erstellen. Unter den von ShortStop gefundenen smORFs stach einer hervor – er wurde im Tumorgewebe stärker exprimiert als im Normalgewebe. Dies deutet darauf hin, dass er als Biomarker oder funktionelles Mikroprotein für Lungenkrebs dienen könnte.

Die Identifizierung dieses mit Lungenkrebs in Zusammenhang stehenden Mikroproteins zeigt den Wert von ShortStop und maschinellem Lernen bei der Priorisierung von Kandidaten für zukünftige Forschung und therapeutische Entwicklung.

„Es gibt bereits so viele Daten, die wir nun mit ShortStop verarbeiten können, um neue Mikroproteine zu finden, die mit Gesundheit und Krankheit in Zusammenhang stehen – von Alzheimer bis Fettleibigkeit und darüber hinaus“, sagt Saghatelian. „Mein Team ist wirklich gut darin, Methoden zu entwickeln, und mit Daten anderer Salk-Dozenten können wir diese Methoden integrieren und die Wissenschaft vorantreiben.“

Weitere Autoren sind Eduardo Vieira de Souza, Victor Pai, Joan Vaughan, Calvin Lau und Jolene Diedrich von Salk sowie Hosung Kim von der UC Los Angeles.

Die Arbeit wurde von den National Institutes of Health (P30CA014195, R01GM102491) und der Clayton Medical Research Foundation unterstützt.

DOI: 10.1186/s44330-025-00037-4

INFORMATIONEN ZUR VERÖFFENTLICHUNG

JOURNAL

BMC-Methoden

TITEL

ShortStop: Ein Framework für maschinelles Lernen zur Entdeckung von Mikroproteinen

AUTOREN

Brendan Miller, Eduardo Vieira de Souza, Victor J. Pai, Hosung Kim, Joan M. Vaughan, Calvin J. Lau, Jolene K. Diedrich, Alan Saghatelian

Forschungsgebiete

Für mehr Informationen

Büro für Kommunikation
Tel: (858) 453-4100
press@salk.edu

Das Salk-Institut für biologische Studien:

Das Salk Institute ist ein unabhängiges, gemeinnütziges Forschungsinstitut, das 1960 von Jonas Salk, dem Entwickler des ersten sicheren und wirksamen Polio-Impfstoffs, gegründet wurde. Das Institut hat es sich zur Aufgabe gemacht, grundlegende, kooperative und risikoreiche Forschung zu betreiben, die sich mit den drängendsten gesellschaftlichen Herausforderungen wie Krebs, Alzheimer und der Anfälligkeit der Landwirtschaft auseinandersetzt. Diese Grundlagenforschung bildet die Basis für alle translationalen Bemühungen und generiert Erkenntnisse, die weltweit die Entwicklung neuer Medikamente und Innovationen ermöglichen.