31 de julho de 2025
Pesquisadores do Instituto Salk lançam o ShortStop, uma estrutura de aprendizado de máquina que explora regiões de DNA negligenciadas em busca de microproteínas que podem desempenhar papéis em doenças
Pesquisadores do Instituto Salk lançam o ShortStop, uma estrutura de aprendizado de máquina que explora regiões de DNA negligenciadas em busca de microproteínas que podem desempenhar papéis em doenças
LA JOLLA — As proteínas sustentam a vida como a conhecemos, desempenhando muitas funções estruturais e funcionais importantes em todo o corpo. Mas essas moléculas grandes lançaram uma longa sombra sobre uma subclasse menor de proteínas, chamada microproteína. As microproteínas se perderam nos 99% do DNA desconsiderados como "não codificantes" — escondendo-se em vastas e obscuras extensões de código genético inexplorado. Mas, apesar de pequenas e elusivas, seu impacto pode ser tão grande quanto o de proteínas maiores.

Cientistas do Instituto Salk estão agora explorando o misterioso lado obscuro do genoma em busca de microproteínas. Com sua nova ferramenta, o ShortStop, os pesquisadores podem sondar bancos de dados genéticos e identificar trechos de DNA no genoma que provavelmente codificam microproteínas. Além disso, o ShortStop também prevê quais microproteínas têm maior probabilidade de serem biologicamente relevantes, economizando tempo e dinheiro na busca por microproteínas envolvidas na saúde e na doença.
O ShortStop lança uma nova luz sobre conjuntos de dados existentes, destacando microproteínas que antes eram impossíveis de encontrar. De fato, a equipe de Salk já utilizou a ferramenta para analisar um conjunto de dados sobre câncer de pulmão e encontrar 210 candidatos a microproteínas inteiramente novos — com uma microproteína validada de destaque — que podem ser bons alvos terapêuticos no futuro.
Os resultados foram publicados em Métodos BMC em julho 31, 2025.
“A maioria das proteínas do nosso corpo são bem conhecidas, mas descobertas recentes sugerem que temos perdido milhares de pequenas proteínas ocultas — chamadas microproteínas — codificadas por regiões negligenciadas do nosso genoma”, diz o autor sênior Alan Saghatelian, professor e titular da Cátedra Dr. Frederik Paulsen em Salk. "Por muito tempo, os cientistas estudaram apenas as regiões do DNA que codificavam proteínas grandes e descartaram o restante como 'DNA lixo', mas agora estamos aprendendo que essas outras regiões são, na verdade, muito importantes, e as microproteínas que elas produzem podem desempenhar papéis cruciais na regulação da saúde e da doença."
Mais sobre microproteínas
É difícil detectar e catalogar microproteínas, principalmente devido ao seu tamanho. Em comparação com proteínas padrão, que podem variar de centenas a milhares de aminoácidos, as microproteínas normalmente contêm menos de 150 aminoácidos, o que as torna mais difíceis de detectar usando métodos padrão de análise de proteínas. Portanto, em vez de procurar as próprias microproteínas, os cientistas buscam em grandes conjuntos de dados disponíveis publicamente as sequências de DNA que as compõem.
Cientistas descobriram agora que certos trechos de DNA, chamados de pequenos quadros abertos de leitura (smORFs), podem conter as instruções para a produção de microproteínas. Métodos experimentais atuais já catalogaram milhares de smORFs, mas essas ferramentas continuam demoradas e caras. Além disso, a incapacidade de separar microproteínas potencialmente funcionais de microproteínas não funcionais tem dificultado sua descoberta e caracterização.
Como funciona o ShortStop
Nem todos os smORFs se traduzem em microproteínas biologicamente significativas. Os métodos existentes não conseguem distinguir entre smORFs funcionais e não funcionais geradoras de microproteínas. Isso significa que os cientistas precisam testar cada microproteína independentemente para determinar se ela é funcional ou não.

O ShortStop altera radicalmente esse fluxo de trabalho, otimizando a descoberta de smORFs ao classificar microproteínas em categorias funcionais e não funcionais. A chave para a classificação de duas classes do ShortStop é como ele é treinado como um sistema de aprendizado de máquina. Seu treinamento se baseia em um conjunto de dados de controle negativo de smORFs aleatórios gerados por computador. O ShortStop compara os smORFs encontrados com esses chamarizes para decidir rapidamente se um novo smORF tem probabilidade de ser funcional ou não funcional.
O ShortStop não pode afirmar com certeza se um smORF codificará uma microproteína biologicamente relevante, mas esse sistema de duas classes reduz significativamente o conjunto experimental. Agora, os pesquisadores podem gastar menos tempo classificando manualmente conjuntos de dados e falhando no laboratório.
Quando os pesquisadores aplicaram o ShortStop a um conjunto de dados smORF publicado anteriormente, identificaram 8% como prováveis microproteínas funcionais, priorizando-as para acompanhamento direcionado. Isso acelera a caracterização das microproteínas ao filtrar sequências com pouca relevância biológica. O ShortStop também conseguiu identificar microproteínas que foram ignoradas por outros métodos, incluindo uma que foi validada por ser detectada em células e tecidos humanos.
“O que torna o ShortStop especialmente poderoso é que ele funciona com tipos de dados comuns, como conjuntos de dados de sequenciamento de RNA, que muitos laboratórios já utilizam”, afirma o primeiro autor, Brendan Miller, pesquisador de pós-doutorado no laboratório de Saghatelian. “Isso significa que agora podemos pesquisar microproteínas em tecidos saudáveis e doentes em grande escala, o que revelará novos insights sobre a biologia humana e abrirá novos caminhos para o diagnóstico e tratamento de doenças como câncer e Alzheimer.”
ShortStop identifica microproteína associada ao câncer de pulmão
Os pesquisadores já utilizaram o ShortStop para identificar uma microproteína que foi regulada positivamente em tumores de câncer de pulmão. Eles analisaram dados genéticos de tumores de pulmão humanos e tecido normal adjacente para criar uma lista de potenciais smORFs funcionais. Entre os smORFs encontrados pelo ShortStop, um se destacou — foi mais expresso no tecido tumoral do que no tecido normal, sugerindo que pode servir como um biomarcador ou microproteína funcional para câncer de pulmão.
A identificação dessa microproteína relacionada ao câncer de pulmão demonstra o valor do ShortStop e do aprendizado de máquina para priorizar candidatos para pesquisas futuras e desenvolvimento terapêutico.
“Já existem tantos dados que agora podemos processar com o ShortStop para encontrar novas microproteínas associadas à saúde e à doença, desde Alzheimer até obesidade e além”, diz Saghatelian. “Minha equipe é muito boa em criar métodos e, com dados de outros professores do Salk, podemos integrar esses métodos e acelerar a ciência.”
Outros autores incluem Eduardo Vieira de Souza, Victor Pai, Joan Vaughan, Calvin Lau e Jolene Diedrich, de Salk, bem como Hosung Kim, da UC Los Angeles.
O trabalho foi apoiado pelos Institutos Nacionais de Saúde (P30CA014195, R01GM102491) e pela Clayton Medical Research Foundation.
DOI: 10.1186/s44330-025-00037-4
JORNAL
Métodos BMC
IMERSÃO DE INGLÊS
ShortStop: Uma estrutura de aprendizado de máquina para descoberta de microproteínas
AUTORES
Brendan Miller, Eduardo Vieira de Souza, Victor J. Pai, Hosung Kim, Joan M. Vaughan, Calvin J. Lau, Jolene K. Diedrich, Alan Saghatelian
Escritório de Comunicações
Tel: (858) 453-4100
press@salk.edu
O Instituto Salk é um instituto de pesquisa independente e sem fins lucrativos, fundado em 1960 por Jonas Salk, criador da primeira vacina segura e eficaz contra a poliomielite. A missão do Instituto é impulsionar pesquisas fundamentais, colaborativas e inovadoras que abordem os desafios mais urgentes da sociedade, incluindo câncer, doença de Alzheimer e vulnerabilidade agrícola. Essa ciência fundamental sustenta todos os esforços translacionais, gerando conhecimento que possibilita o desenvolvimento de novos medicamentos e inovações em todo o mundo.