31 Julio 2025

Una nueva herramienta de IA ilumina el “lado oscuro” del genoma humano

Investigadores del Instituto Salk lanzan ShortStop, un marco de aprendizaje automático que explora regiones de ADN pasadas por alto en busca de microproteínas que puedan desempeñar un papel en la enfermedad.

Noticias Salk


Una nueva herramienta de IA ilumina el “lado oscuro” del genoma humano

Investigadores del Instituto Salk lanzan ShortStop, un marco de aprendizaje automático que explora regiones de ADN pasadas por alto en busca de microproteínas que puedan desempeñar un papel en la enfermedad.

LA JOLLA—Las proteínas sustentan la vida tal como la conocemos, desempeñando importantes funciones estructurales y funcionales en todo el cuerpo. Sin embargo, estas grandes moléculas han proyectado una gran sombra sobre una subclase más pequeña de proteínas llamadas microproteínas. Las microproteínas se han perdido en el 99 % del ADN considerado "no codificante", escondiéndose en vastas y oscuras extensiones de código genético inexplorado. Pero a pesar de ser pequeñas y esquivas, su impacto podría ser tan grande como el de las proteínas más grandes.

Brendan Miller (izquierda) y Alan Saghatelian (derecha) están en su laboratorio, mientras ShortStop se ejecuta en el escritorio junto a ellos.
Brendan Miller (izquierda) y Alan Saghatelian (derecha) están en su laboratorio, mientras ShortStop se ejecuta en el escritorio junto a ellos.
Haga clic aquí para una imagen de alta resolución.
Crédito: Instituto Salk

Los científicos del Instituto Salk exploran ahora el lado oscuro del genoma en busca de microproteínas. Con su nueva herramienta, ShortStop, los investigadores pueden explorar bases de datos genéticas e identificar fragmentos de ADN en el genoma que probablemente codifiquen microproteínas. Cabe destacar que ShortStop también predice qué microproteínas tienen mayor probabilidad de ser biológicamente relevantes, ahorrando tiempo y dinero en la búsqueda de microproteínas implicadas en la salud y la enfermedad.

ShortStop aporta una nueva perspectiva a los conjuntos de datos existentes, destacando microproteínas que antes eran imposibles de encontrar. De hecho, el equipo de Salk ya ha utilizado la herramienta para analizar un conjunto de datos de cáncer de pulmón y encontrar 210 microproteínas candidatas completamente nuevas —con una microproteína validada destacada— que podrían ser buenas dianas terapéuticas en el futuro.

Los hallazgos fueron publicados en Métodos BMC de julio 31, 2025.

“La mayoría de las proteínas de nuestro cuerpo son bien conocidas, pero descubrimientos recientes sugieren que nos han faltado miles de proteínas pequeñas y ocultas, llamadas microproteínas, codificadas por regiones olvidadas de nuestro genoma”, dice el autor principal. Alan Saghatelian, profesor y titular de la Cátedra Dr. Frederik Paulsen en Salk. «Durante mucho tiempo, los científicos solo estudiaron las regiones del ADN que codificaban proteínas grandes y descartaron el resto como 'ADN basura', pero ahora estamos descubriendo que estas otras regiones son realmente muy importantes, y las microproteínas que producen podrían desempeñar un papel crucial en la regulación de la salud y la enfermedad».

Más sobre las microproteínas

Es difícil detectar y catalogar las microproteínas, debido principalmente a su tamaño. En comparación con las proteínas estándar, que pueden tener entre cientos y miles de aminoácidos, las microproteínas suelen contener menos de 150, lo que dificulta su detección mediante los métodos estándar de análisis de proteínas. Por lo tanto, en lugar de buscar las microproteínas en sí, los científicos buscan en grandes conjuntos de datos públicos las secuencias de ADN que las componen.

Los científicos han descubierto que ciertos tramos de ADN, llamados pequeños marcos abiertos de lectura (smORF), pueden contener las instrucciones para la síntesis de microproteínas. Los métodos experimentales actuales ya han catalogado miles de smORF, pero estas herramientas siguen siendo laboriosas y costosas. Además, su incapacidad para separar las microproteínas potencialmente funcionales de las no funcionales ha frenado su descubrimiento y caracterización.

Cómo funciona ShortStop

No todos los smORF se traducen en microproteínas biológicamente significativas. Los métodos existentes no pueden distinguir entre smORF generadores de microproteínas funcionales y no funcionales. Esto significa que los científicos deben analizar cada microproteína de forma independiente para determinar su funcionalidad.

Las células expresan una nueva microproteína predicha por ShortStop (verde), con los núcleos celulares teñidos de azul. El patrón sugiere que las microproteínas se localizan en los endosomas, orgánulos responsables de la clasificación y el transporte de la carga celular, o en los lisosomas, orgánulos que recogen y eliminan los desechos celulares.
Las células expresan una nueva microproteína predicha por ShortStop (verde), con los núcleos celulares teñidos de azul. El patrón sugiere que las microproteínas se localizan en los endosomas, orgánulos responsables de la clasificación y el transporte de la carga celular, o en los lisosomas, orgánulos que recogen y eliminan los desechos celulares.
Haga clic aquí para una imagen de alta resolución.
Crédito: Instituto Salk

ShortStop modifica radicalmente este flujo de trabajo, optimizando el descubrimiento de smORFs al clasificar las microproteínas en categorías funcionales y no funcionales. La clave de la clasificación de dos clases de ShortStop reside en su entrenamiento como sistema de aprendizaje automático. Su entrenamiento se basa en un conjunto de datos de control negativo de smORFs aleatorios generados por computadora. ShortStop compara los smORFs encontrados con estos señuelos para determinar rápidamente si un nuevo smORF es funcional o no.

ShortStop no puede determinar con certeza si un smORF codificará una microproteína biológicamente relevante, pero este sistema de dos clases reduce considerablemente el número de experimentos disponibles. Ahora los investigadores pueden dedicar menos tiempo a revisar manualmente los conjuntos de datos y a fallar en el laboratorio.

Al aplicar ShortStop a un conjunto de datos smORF previamente publicado, los investigadores identificaron el 8 % como probables microproteínas funcionales, priorizándolas para un seguimiento específico. Esto acelera la caracterización de las microproteínas al filtrar secuencias con poca relevancia biológica. ShortStop también pudo identificar microproteínas que otros métodos habían pasado por alto, incluyendo una que se validó al detectarse en células y tejidos humanos.

“Lo que hace que ShortStop sea especialmente potente es que funciona con tipos de datos comunes, como los conjuntos de datos de secuenciación de ARN, que muchos laboratorios ya utilizan”, afirma el primer autor, Brendan Miller, investigador postdoctoral en el laboratorio de Saghatelian. “Esto significa que ahora podemos buscar microproteínas en tejidos sanos y enfermos a gran escala, lo que revelará nuevos conocimientos sobre la biología humana y abrirá nuevas vías para el diagnóstico y el tratamiento de enfermedades como el cáncer y el Alzheimer”.

ShortStop detecta una microproteína asociada con el cáncer de pulmón

Los investigadores ya han utilizado ShortStop para identificar una microproteína con expresión positiva en tumores de cáncer de pulmón. Analizaron datos genéticos de tumores pulmonares humanos y tejido normal adyacente para crear una lista de posibles smORF funcionales. Entre los smORF que ShortStop encontró, uno destacó: se expresó con mayor intensidad en el tejido tumoral que en el tejido normal, lo que sugiere que podría servir como biomarcador o microproteína funcional para el cáncer de pulmón.

La identificación de esta microproteína relacionada con el cáncer de pulmón demuestra el valor de ShortStop y el aprendizaje automático para priorizar candidatos para futuras investigaciones y desarrollos terapéuticos.

“Ya existe una gran cantidad de datos que ahora podemos procesar con ShortStop para encontrar nuevas microproteínas asociadas con la salud y la enfermedad, desde el Alzheimer hasta la obesidad y más allá”, afirma Saghatelian. “Mi equipo es muy bueno desarrollando métodos, y con los datos de otros profesores de Salk, podemos integrarlos y acelerar la investigación científica”.

Otros autores incluyen a Eduardo Vieira de Souza, Victor Pai, Joan Vaughan, Calvin Lau y Jolene Diedrich de Salk, así como Hosung Kim de la UC Los Ángeles.

El trabajo fue apoyado por los Institutos Nacionales de Salud (P30CA014195, R01GM102491) y la Fundación de Investigación Médica Clayton.

DOI: 10.1186/s44330-025-00037-4

INFORMACIÓN DE LA PUBLICACIÓN

REVISTA

Métodos BMC

TÍTULO

ShortStop: un marco de aprendizaje automático para el descubrimiento de microproteínas

AUTORES

Brendan Miller, Eduardo Vieira de Souza, Victor J. Pai, Hosung Kim, Joan M. Vaughan, Calvin J. Lau, Jolene K. Diedrich, Alan Saghatelian

Áreas de investigación

Para más información

Oficina de Comunicaciones
Tel: (858) 453-4100
prensa@salk.edu

El Instituto Salk de Estudios Biológicos:

El Instituto Salk es un instituto de investigación independiente y sin fines de lucro fundado en 1960 por Jonas Salk, creador de la primera vacuna segura y eficaz contra la polio. Su misión es impulsar una investigación fundamental, colaborativa y arriesgada que aborde los desafíos más urgentes de la sociedad, como el cáncer, el Alzheimer y la vulnerabilidad agrícola. Esta ciencia fundamental sustenta todos los esfuerzos translacionales, generando conocimientos que facilitan el desarrollo de nuevos medicamentos e innovaciones en todo el mundo.