Luglio 31, 2025
I ricercatori del Salk Institute lanciano ShortStop, un framework di apprendimento automatico che esplora regioni del DNA trascurate alla ricerca di microproteine che potrebbero svolgere un ruolo nelle malattie
I ricercatori del Salk Institute lanciano ShortStop, un framework di apprendimento automatico che esplora regioni del DNA trascurate alla ricerca di microproteine che potrebbero svolgere un ruolo nelle malattie
LA JOLLA—Le proteine sostengono la vita come la conosciamo, svolgendo molti importanti ruoli strutturali e funzionali in tutto il corpo. Ma queste grandi molecole hanno gettato una lunga ombra su una sottoclasse più piccola di proteine chiamate microproteine. Le microproteine sono andate perse nel 99% del DNA ignorato come "non codificante", nascoste in vaste e oscure distese di codice genetico inesplorato. Ma nonostante siano piccole e sfuggenti, il loro impatto potrebbe essere altrettanto grande quanto quello delle proteine più grandi.

Gli scienziati del Salk Institute stanno ora esplorando il misterioso lato oscuro del genoma alla ricerca di microproteine. Con il loro nuovo strumento ShortStop, i ricercatori possono sondare i database genetici e identificare tratti di DNA nel genoma che probabilmente codificano per microproteine. È importante sottolineare che ShortStop prevede anche quali microproteine hanno maggiori probabilità di essere biologicamente rilevanti, risparmiando tempo e denaro nella ricerca di microproteine coinvolte nella salute e nelle malattie.
ShortStop getta nuova luce sui dataset esistenti, evidenziando microproteine precedentemente impossibili da individuare. Infatti, il team del Salk ha già utilizzato lo strumento per analizzare un dataset sul cancro ai polmoni e individuare 210 microproteine candidate completamente nuove – tra cui una validata – che potrebbero rappresentare ottimi bersagli terapeutici in futuro.
I risultati sono stati pubblicati in Metodi BMC luglio 31, 2025.
"La maggior parte delle proteine presenti nel nostro corpo sono ben note, ma recenti scoperte suggeriscono che ci sono sfuggite migliaia di piccole proteine nascoste, chiamate microproteine, codificate da regioni trascurate del nostro genoma", afferma l'autore senior Alan Saghatelian, professore e titolare della cattedra Dr. Frederik Paulsen al Salk Institute. "Per molto tempo, gli scienziati hanno studiato solo le regioni del DNA che codificavano per proteine di grandi dimensioni, liquidando il resto come 'DNA spazzatura', ma ora stiamo scoprendo che queste altre regioni sono in realtà molto importanti e che le microproteine che producono potrebbero svolgere un ruolo cruciale nella regolazione della salute e delle malattie".
Maggiori informazioni sulle microproteine
Rilevare e catalogare le microproteine è difficile, soprattutto a causa delle loro dimensioni. Rispetto alle proteine standard, che possono avere una lunghezza variabile da centinaia a migliaia di amminoacidi, le microproteine contengono in genere meno di 150 amminoacidi, il che le rende più difficili da rilevare con i metodi di analisi proteica standard. Pertanto, invece di cercare le microproteine stesse, gli scienziati ricercano in ampi set di dati pubblici le sequenze di DNA che le compongono.
Gli scienziati hanno ora scoperto che alcuni tratti di DNA chiamati "small open reading frame" (smORF) possono contenere le istruzioni per la sintesi di microproteine. Gli attuali metodi sperimentali hanno già catalogato migliaia di smORF, ma questi strumenti rimangono dispendiosi in termini di tempo e denaro. Inoltre, la loro incapacità di separare le microproteine potenzialmente funzionali da quelle non funzionali ne ha bloccato la scoperta e la caratterizzazione.
Come funziona ShortStop
Non tutte le smORF si traducono in microproteine biologicamente significative. I metodi esistenti non sono in grado di distinguere tra smORF funzionali e non funzionali che generano microproteine. Ciò significa che gli scienziati devono testare in modo indipendente ciascuna microproteina per determinarne la funzionalità o meno.

ShortStop modifica radicalmente questo flusso di lavoro, ottimizzando la scoperta di smORF ordinando le microproteine in categorie funzionali e non funzionali. La chiave dell'ordinamento a due classi di ShortStop è il modo in cui viene addestrato come sistema di apprendimento automatico. Il suo addestramento si basa su un set di dati di controllo negativo di smORF casuali generate al computer. ShortStop confronta le smORF trovate con queste esche per decidere rapidamente se una nuova smORF è probabilmente funzionale o non funzionale.
ShortStop non può dire con certezza se una smORF codifichi per una microproteina biologicamente rilevante, ma questo sistema a due classi restringe enormemente il bacino sperimentale. Ora i ricercatori possono dedicare meno tempo all'ordinamento manuale dei set di dati e agli errori in laboratorio.
Applicando ShortStop a un dataset smORF precedentemente pubblicato, i ricercatori hanno identificato l'8% di microproteine come probabili microproteine funzionali, assegnando loro la priorità per un follow-up mirato. Questo accelera la caratterizzazione delle microproteine filtrando le sequenze di improbabile rilevanza biologica. ShortStop è stato in grado di identificare anche microproteine trascurate da altri metodi, tra cui una validata dalla sua rilevazione in cellule e tessuti umani.
"Ciò che rende ShortStop particolarmente potente è la sua compatibilità con tipi di dati comuni, come i set di dati di sequenziamento dell'RNA, già utilizzati da molti laboratori", afferma il primo autore Brendan Miller, ricercatore post-dottorato nel laboratorio di Saghatelian. "Questo significa che ora possiamo cercare microproteine su larga scala in tessuti sani e malati, il che rivelerà nuove conoscenze sulla biologia umana e aprirà nuove strade per la diagnosi e il trattamento di malattie come il cancro e l'Alzheimer".
ShortStop individua la microproteina associata al cancro ai polmoni
I ricercatori hanno già utilizzato ShortStop per identificare una microproteina sovraregolata nei tumori polmonari. Hanno analizzato i dati genetici di tumori polmonari umani e tessuti sani adiacenti per creare un elenco di potenziali smORF funzionali. Tra gli smORF individuati da ShortStop, uno si è distinto: era espresso in misura maggiore nel tessuto tumorale rispetto a quello sano, il che suggerisce che potrebbe fungere da biomarcatore o microproteina funzionale per il cancro polmonare.
L'identificazione di questa microproteina correlata al cancro ai polmoni dimostra il valore di ShortStop e dell'apprendimento automatico per dare priorità ai candidati per la futura ricerca e lo sviluppo terapeutico.
"Esistono già così tanti dati che ora possiamo elaborare con ShortStop per trovare nuove microproteine associate a salute e malattia, dall'Alzheimer all'obesità e oltre", afferma Saghatelian. "Il mio team è davvero bravo a elaborare metodi e, con i dati di altri docenti del Salk, possiamo integrarli e accelerare la ricerca".
Tra gli altri autori figurano Eduardo Vieira de Souza, Victor Pai, Joan Vaughan, Calvin Lau e Jolene Diedrich di Salk, nonché Hosung Kim dell'UC Los Angeles.
Il lavoro è stato supportato dai National Institutes of Health (P30CA014195, R01GM102491) e dalla Clayton Medical Research Foundation.
DOI: 10.1186/s44330-025-00037-4
JOURNAL
Metodi BMC
AUTORI
Brendan Miller, Eduardo Vieira de Souza, Victor J. Pai, Hosung Kim, Joan M. Vaughan, Calvin J. Lau, Jolene K. Diedrich, Alan Saghatelian
Ufficio delle comunicazioni
Tel: (858) 453-4100
press@salk.edu
Il Salk Institute è un istituto di ricerca indipendente e senza scopo di lucro, fondato nel 1960 da Jonas Salk, sviluppatore del primo vaccino antipolio sicuro ed efficace. La missione dell'istituto è quella di promuovere una ricerca fondamentale, collaborativa e rischiosa che affronti le sfide più urgenti della società, tra cui il cancro, il morbo di Alzheimer e la vulnerabilità agricola. Questa scienza fondamentale è alla base di tutti gli sforzi traslazionali, generando intuizioni che consentono nuovi farmaci e innovazioni in tutto il mondo.