Nova ferramenta de IA ilumina o “lado negro” do genoma humano

Notícias Salk

31 de julho de 2025

Nova ferramenta de IA ilumina o “lado negro” do genoma humano

Pesquisadores do Instituto Salk lançam o ShortStop, uma estrutura de aprendizado de máquina que explora regiões de DNA negligenciadas em busca de microproteínas que podem desempenhar papéis em doenças

31 de julho de 2025

LA JOLLA — As proteínas sustentam a vida como a conhecemos, desempenhando muitas funções estruturais e funcionais importantes em todo o corpo. Mas essas moléculas grandes lançaram uma longa sombra sobre uma subclasse menor de proteínas, chamada microproteína. As microproteínas se perderam nos 99% do DNA desconsiderados como "não codificantes" — escondendo-se em vastas e obscuras extensões de código genético inexplorado. Mas, apesar de pequenas e elusivas, seu impacto pode ser tão grande quanto o de proteínas maiores.

Brendan Miller (à esquerda) e Alan Saghatelian (à direita) estão em seu laboratório, enquanto o ShortStop roda na área de trabalho ao lado deles.
Clique aqui para uma imagem de alta resolução.
Crédito: Salk Institute

Cientistas do Instituto Salk estão agora explorando o misterioso lado obscuro do genoma em busca de microproteínas. Com sua nova ferramenta, o ShortStop, os pesquisadores podem sondar bancos de dados genéticos e identificar trechos de DNA no genoma que provavelmente codificam microproteínas. Além disso, o ShortStop também prevê quais microproteínas têm maior probabilidade de serem biologicamente relevantes, economizando tempo e dinheiro na busca por microproteínas envolvidas na saúde e na doença.

O ShortStop lança uma nova luz sobre conjuntos de dados existentes, destacando microproteínas que antes eram impossíveis de encontrar. De fato, a equipe de Salk já utilizou a ferramenta para analisar um conjunto de dados sobre câncer de pulmão e encontrar 210 candidatos a microproteínas inteiramente novos — com uma microproteína validada de destaque — que podem ser bons alvos terapêuticos no futuro.

Os resultados foram publicados em Métodos BMC em julho 31, 2025.

“A maioria das proteínas do nosso corpo são bem conhecidas, mas descobertas recentes sugerem que temos perdido milhares de pequenas proteínas ocultas — chamadas microproteínas — codificadas por regiões negligenciadas do nosso genoma”, diz o autor sênior Alan Saghatelian, professor e titular da Cátedra Dr. Frederik Paulsen em Salk. "Por muito tempo, os cientistas estudaram apenas as regiões do DNA que codificavam proteínas grandes e descartaram o restante como 'DNA lixo', mas agora estamos aprendendo que essas outras regiões são, na verdade, muito importantes, e as microproteínas que elas produzem podem desempenhar papéis cruciais na regulação da saúde e da doença."

Mais sobre microproteínas

É difícil detectar e catalogar microproteínas, principalmente devido ao seu tamanho. Em comparação com proteínas padrão, que podem variar de centenas a milhares de aminoácidos, as microproteínas normalmente contêm menos de 150 aminoácidos, o que as torna mais difíceis de detectar usando métodos padrão de análise de proteínas. Portanto, em vez de procurar as próprias microproteínas, os cientistas buscam em grandes conjuntos de dados disponíveis publicamente as sequências de DNA que as compõem.

Cientistas descobriram agora que certos trechos de DNA, chamados de pequenos quadros abertos de leitura (smORFs), podem conter as instruções para a produção de microproteínas. Métodos experimentais atuais já catalogaram milhares de smORFs, mas essas ferramentas continuam demoradas e caras. Além disso, a incapacidade de separar microproteínas potencialmente funcionais de microproteínas não funcionais tem dificultado sua descoberta e caracterização.

Como funciona o ShortStop

Nem todos os smORFs se traduzem em microproteínas biologicamente significativas. Os métodos existentes não conseguem distinguir entre smORFs funcionais e não funcionais geradoras de microproteínas. Isso significa que os cientistas precisam testar cada microproteína independentemente para determinar se ela é funcional ou não.

As células expressam uma nova microproteína prevista pelo ShortStop (verde), com núcleos celulares corados em azul. O padrão sugere que as microproteínas estão localizadas nos endossomos, organelas responsáveis pela triagem e transporte da carga celular, ou nos lisossomos, organelas que coletam e removem resíduos celulares.
Clique aqui para uma imagem de alta resolução.
Crédito: Salk Institute

O ShortStop altera radicalmente esse fluxo de trabalho, otimizando a descoberta de smORFs ao classificar microproteínas em categorias funcionais e não funcionais. A chave para a classificação de duas classes do ShortStop é como ele é treinado como um sistema de aprendizado de máquina. Seu treinamento se baseia em um conjunto de dados de controle negativo de smORFs aleatórios gerados por computador. O ShortStop compara os smORFs encontrados com esses chamarizes para decidir rapidamente se um novo smORF tem probabilidade de ser funcional ou não funcional.

O ShortStop não pode afirmar com certeza se um smORF codificará uma microproteína biologicamente relevante, mas esse sistema de duas classes reduz significativamente o conjunto experimental. Agora, os pesquisadores podem gastar menos tempo classificando manualmente conjuntos de dados e falhando no laboratório.

Quando os pesquisadores aplicaram o ShortStop a um conjunto de dados smORF publicado anteriormente, identificaram 8% como prováveis microproteínas funcionais, priorizando-as para acompanhamento direcionado. Isso acelera a caracterização das microproteínas ao filtrar sequências com pouca relevância biológica. O ShortStop também conseguiu identificar microproteínas que foram ignoradas por outros métodos, incluindo uma que foi validada por ser detectada em células e tecidos humanos.

“O que torna o ShortStop especialmente poderoso é que ele funciona com tipos de dados comuns, como conjuntos de dados de sequenciamento de RNA, que muitos laboratórios já utilizam”, afirma o primeiro autor, Brendan Miller, pesquisador de pós-doutorado no laboratório de Saghatelian. “Isso significa que agora podemos pesquisar microproteínas em tecidos saudáveis e doentes em grande escala, o que revelará novos insights sobre a biologia humana e abrirá novos caminhos para o diagnóstico e tratamento de doenças como câncer e Alzheimer.”

ShortStop identifica microproteína associada ao câncer de pulmão

Os pesquisadores já utilizaram o ShortStop para identificar uma microproteína que foi regulada positivamente em tumores de câncer de pulmão. Eles analisaram dados genéticos de tumores de pulmão humanos e tecido normal adjacente para criar uma lista de potenciais smORFs funcionais. Entre os smORFs encontrados pelo ShortStop, um se destacou — foi mais expresso no tecido tumoral do que no tecido normal, sugerindo que pode servir como um biomarcador ou microproteína funcional para câncer de pulmão.

A identificação dessa microproteína relacionada ao câncer de pulmão demonstra o valor do ShortStop e do aprendizado de máquina para priorizar candidatos para pesquisas futuras e desenvolvimento terapêutico.

“Já existem tantos dados que agora podemos processar com o ShortStop para encontrar novas microproteínas associadas à saúde e à doença, desde Alzheimer até obesidade e além”, diz Saghatelian. “Minha equipe é muito boa em criar métodos e, com dados de outros professores do Salk, podemos integrar esses métodos e acelerar a ciência.”

Outros autores incluem Eduardo Vieira de Souza, Victor Pai, Joan Vaughan, Calvin Lau e Jolene Diedrich, de Salk, bem como Hosung Kim, da UC Los Angeles.

O trabalho foi apoiado pelos Institutos Nacionais de Saúde (P30CA014195, R01GM102491) e pela Clayton Medical Research Foundation.

DOI: 10.1186/s44330-025-00037-4

Nova ferramenta de IA ilumina o “lado negro” do genoma humano

Notícias Salk

Nova ferramenta de IA ilumina o “lado negro” do genoma humano

INFORMAÇÕES DE PUBLICAÇÃO

Áreas de Pesquisa

Biologia Computacional

Para maiores informações

Instituto Salk de Estudos Biológicos: