Un nuovo strumento di intelligenza artificiale illumina il "lato oscuro" del genoma umano

Salk Notizie

Luglio 31, 2025

Un nuovo strumento di intelligenza artificiale illumina il “lato oscuro” del genoma umano

I ricercatori del Salk Institute lanciano ShortStop, un framework di apprendimento automatico che esplora regioni del DNA trascurate alla ricerca di microproteine che potrebbero svolgere un ruolo nelle malattie

Luglio 31, 2025

LA JOLLA—Le proteine sostengono la vita come la conosciamo, svolgendo molti importanti ruoli strutturali e funzionali in tutto il corpo. Ma queste grandi molecole hanno gettato una lunga ombra su una sottoclasse più piccola di proteine chiamate microproteine. Le microproteine sono andate perse nel 99% del DNA ignorato come "non codificante", nascoste in vaste e oscure distese di codice genetico inesplorato. Ma nonostante siano piccole e sfuggenti, il loro impatto potrebbe essere altrettanto grande quanto quello delle proteine più grandi.

Brendan Miller (a sinistra) e Alan Saghatelian (a destra) sono nel loro laboratorio, mentre ShortStop è in esecuzione sul desktop accanto a loro.
CLICCA QUI per un'immagine ad alta risoluzione.
Credito: Salk Institute

Gli scienziati del Salk Institute stanno ora esplorando il misterioso lato oscuro del genoma alla ricerca di microproteine. Con il loro nuovo strumento ShortStop, i ricercatori possono sondare i database genetici e identificare tratti di DNA nel genoma che probabilmente codificano per microproteine. È importante sottolineare che ShortStop prevede anche quali microproteine hanno maggiori probabilità di essere biologicamente rilevanti, risparmiando tempo e denaro nella ricerca di microproteine coinvolte nella salute e nelle malattie.

ShortStop getta nuova luce sui dataset esistenti, evidenziando microproteine precedentemente impossibili da individuare. Infatti, il team del Salk ha già utilizzato lo strumento per analizzare un dataset sul cancro ai polmoni e individuare 210 microproteine candidate completamente nuove – tra cui una validata – che potrebbero rappresentare ottimi bersagli terapeutici in futuro.

I risultati sono stati pubblicati in Metodi BMC luglio 31, 2025.

"La maggior parte delle proteine presenti nel nostro corpo sono ben note, ma recenti scoperte suggeriscono che ci sono sfuggite migliaia di piccole proteine nascoste, chiamate microproteine, codificate da regioni trascurate del nostro genoma", afferma l'autore senior Alan Saghatelian, professore e titolare della cattedra Dr. Frederik Paulsen al Salk Institute. "Per molto tempo, gli scienziati hanno studiato solo le regioni del DNA che codificavano per proteine di grandi dimensioni, liquidando il resto come 'DNA spazzatura', ma ora stiamo scoprendo che queste altre regioni sono in realtà molto importanti e che le microproteine che producono potrebbero svolgere un ruolo cruciale nella regolazione della salute e delle malattie".

Maggiori informazioni sulle microproteine

Rilevare e catalogare le microproteine è difficile, soprattutto a causa delle loro dimensioni. Rispetto alle proteine standard, che possono avere una lunghezza variabile da centinaia a migliaia di amminoacidi, le microproteine contengono in genere meno di 150 amminoacidi, il che le rende più difficili da rilevare con i metodi di analisi proteica standard. Pertanto, invece di cercare le microproteine stesse, gli scienziati ricercano in ampi set di dati pubblici le sequenze di DNA che le compongono.

Gli scienziati hanno ora scoperto che alcuni tratti di DNA chiamati "small open reading frame" (smORF) possono contenere le istruzioni per la sintesi di microproteine. Gli attuali metodi sperimentali hanno già catalogato migliaia di smORF, ma questi strumenti rimangono dispendiosi in termini di tempo e denaro. Inoltre, la loro incapacità di separare le microproteine potenzialmente funzionali da quelle non funzionali ne ha bloccato la scoperta e la caratterizzazione.

Come funziona ShortStop

Non tutte le smORF si traducono in microproteine biologicamente significative. I metodi esistenti non sono in grado di distinguere tra smORF funzionali e non funzionali che generano microproteine. Ciò significa che gli scienziati devono testare in modo indipendente ciascuna microproteina per determinarne la funzionalità o meno.

Le cellule esprimono una nuova microproteina prevista da ShortStop (verde), con i nuclei cellulari colorati in blu. Il pattern suggerisce che le microproteine siano localizzate negli endosomi, organelli responsabili dello smistamento e del trasporto del carico cellulare, o nei lisosomi, organelli che raccolgono e rimuovono i rifiuti cellulari.
CLICCA QUI per un'immagine ad alta risoluzione.
Credito: Salk Institute

ShortStop modifica radicalmente questo flusso di lavoro, ottimizzando la scoperta di smORF ordinando le microproteine in categorie funzionali e non funzionali. La chiave dell'ordinamento a due classi di ShortStop è il modo in cui viene addestrato come sistema di apprendimento automatico. Il suo addestramento si basa su un set di dati di controllo negativo di smORF casuali generate al computer. ShortStop confronta le smORF trovate con queste esche per decidere rapidamente se una nuova smORF è probabilmente funzionale o non funzionale.

ShortStop non può dire con certezza se una smORF codifichi per una microproteina biologicamente rilevante, ma questo sistema a due classi restringe enormemente il bacino sperimentale. Ora i ricercatori possono dedicare meno tempo all'ordinamento manuale dei set di dati e agli errori in laboratorio.

Applicando ShortStop a un dataset smORF precedentemente pubblicato, i ricercatori hanno identificato l'8% di microproteine come probabili microproteine funzionali, assegnando loro la priorità per un follow-up mirato. Questo accelera la caratterizzazione delle microproteine filtrando le sequenze di improbabile rilevanza biologica. ShortStop è stato in grado di identificare anche microproteine trascurate da altri metodi, tra cui una validata dalla sua rilevazione in cellule e tessuti umani.

"Ciò che rende ShortStop particolarmente potente è la sua compatibilità con tipi di dati comuni, come i set di dati di sequenziamento dell'RNA, già utilizzati da molti laboratori", afferma il primo autore Brendan Miller, ricercatore post-dottorato nel laboratorio di Saghatelian. "Questo significa che ora possiamo cercare microproteine su larga scala in tessuti sani e malati, il che rivelerà nuove conoscenze sulla biologia umana e aprirà nuove strade per la diagnosi e il trattamento di malattie come il cancro e l'Alzheimer".

ShortStop individua la microproteina associata al cancro ai polmoni

I ricercatori hanno già utilizzato ShortStop per identificare una microproteina sovraregolata nei tumori polmonari. Hanno analizzato i dati genetici di tumori polmonari umani e tessuti sani adiacenti per creare un elenco di potenziali smORF funzionali. Tra gli smORF individuati da ShortStop, uno si è distinto: era espresso in misura maggiore nel tessuto tumorale rispetto a quello sano, il che suggerisce che potrebbe fungere da biomarcatore o microproteina funzionale per il cancro polmonare.

L'identificazione di questa microproteina correlata al cancro ai polmoni dimostra il valore di ShortStop e dell'apprendimento automatico per dare priorità ai candidati per la futura ricerca e lo sviluppo terapeutico.

"Esistono già così tanti dati che ora possiamo elaborare con ShortStop per trovare nuove microproteine associate a salute e malattia, dall'Alzheimer all'obesità e oltre", afferma Saghatelian. "Il mio team è davvero bravo a elaborare metodi e, con i dati di altri docenti del Salk, possiamo integrarli e accelerare la ricerca".

Tra gli altri autori figurano Eduardo Vieira de Souza, Victor Pai, Joan Vaughan, Calvin Lau e Jolene Diedrich di Salk, nonché Hosung Kim dell'UC Los Angeles.

Il lavoro è stato supportato dai National Institutes of Health (P30CA014195, R01GM102491) e dalla Clayton Medical Research Foundation.

DOI: 10.1186/s44330-025-00037-4

Un nuovo strumento di intelligenza artificiale illumina il “lato oscuro” del genoma umano

Salk Notizie

Un nuovo strumento di intelligenza artificiale illumina il “lato oscuro” del genoma umano

INFORMAZIONI DI PUBBLICAZIONE

Aree di ricerca

Biologia computazionale

Per maggiori informazioni

Il Salk Institute per gli studi biologici: