Июль 31, 2025
Исследователи Института Солка запускают ShortStop — платформу машинного обучения, которая исследует неучтенные участки ДНК в поисках микропротеинов, которые могут играть роль в развитии заболеваний.
Исследователи Института Солка запускают ShortStop — платформу машинного обучения, которая исследует неучтенные участки ДНК в поисках микропротеинов, которые могут играть роль в развитии заболеваний.
ЛА-ХОЙЯ — Белки поддерживают жизнь в привычном нам виде, выполняя множество важных структурных и функциональных функций в организме. Однако эти крупные молекулы отбрасывают тень на более мелкий подкласс белков, называемых микропротеинами. Микропротеины затерялись в 99% ДНК, считающихся «некодирующими», скрываясь в обширных, тёмных областях неизученного генетического кода. Но, несмотря на свой небольшой размер и неуловимость, их влияние может быть столь же значительным, как и влияние более крупных белков.

Ученые Института Солка изучают таинственную тёмную сторону генома в поисках микропротеинов. С помощью нового инструмента ShortStop исследователи могут анализировать генетические базы данных и выявлять участки ДНК в геноме, которые, вероятно, кодируют микропротеины. Важно отметить, что ShortStop также предсказывает, какие микропротеины с наибольшей вероятностью биологически значимы, экономя время и деньги на поиск микропротеинов, связанных со здоровьем и болезнями.
ShortStop проливает новый свет на существующие наборы данных, выделяя микропротеины, которые ранее было невозможно обнаружить. Более того, команда Солка уже использовала этот инструмент для анализа набора данных о раке лёгких, чтобы найти 210 совершенно новых кандидатов на микропротеины (включая один выдающийся проверенный микропротеин), которые могут стать эффективными терапевтическими мишенями в будущем.
Выводы были опубликованы в Методы BMC июля 31, 2025.
«Большинство белков в нашем организме хорошо известны, но недавние открытия показывают, что мы упускаем из виду тысячи небольших, скрытых белков, называемых микропротеинами, которые кодируются неучтенными участками нашего генома», — говорит старший автор. Алан Сагателян, профессор и заведующий кафедрой им. доктора Фредерика Паульсена в Университете Солка. «Долгое время учёные изучали только те области ДНК, которые кодируют крупные белки, и игнорировали остальное как „мусорную ДНК“, но теперь мы узнаём, что эти другие области на самом деле очень важны, и производимые ими микропротеины могут играть решающую роль в регуляции здоровья и регуляции заболеваний».
Подробнее о микропротеинах
Обнаружение и каталогизация микропротеинов затруднены, главным образом, из-за их размера. По сравнению со стандартными белками, длина которых может варьироваться от сотен до тысяч аминокислот, микропротеины обычно содержат менее 150 аминокислот, что затрудняет их обнаружение стандартными методами анализа белков. Поэтому вместо поиска самих микропротеинов учёные просматривают обширные общедоступные наборы данных в поисках последовательностей ДНК, из которых они состоят.
Ученые выяснили, что определенные участки ДНК, называемые малыми открытыми рамками считывания (мОРС), могут содержать инструкции для синтеза микропротеинов. Современные экспериментальные методы уже каталогизировали тысячи мОРС, но эти инструменты остаются трудоемкими и дорогостоящими. Более того, их неспособность отделить потенциально функциональные микропротеины от нефункциональных затормозила их открытие и характеристику.
Как работает ShortStop
Не все smORF транслируются в биологически значимые микропротеины. Существующие методы не позволяют отличить функциональные и нефункциональные smORF, генерирующие микропротеины. Это означает, что учёным приходится независимо тестировать каждый микропротеин, чтобы определить его функциональность.

ShortStop радикально меняет этот рабочий процесс, оптимизируя обнаружение smORF путём сортировки микробелков на функциональные и нефункциональные категории. Ключ к двухклассовой сортировке ShortStop заключается в принципе обучения системы машинного обучения. Обучение основано на отрицательном контрольном наборе данных, состоящем из случайных smORF, сгенерированных компьютером. ShortStop сравнивает найденные smORF с этими ложными, чтобы быстро определить, является ли новая smORF функциональной или нефункциональной.
ShortStop не может однозначно сказать, будет ли smORF кодировать биологически значимый микропротеин, но эта двухклассовая система значительно сужает круг экспериментальных исследований. Теперь исследователи могут тратить меньше времени на ручную сортировку наборов данных и ошибки в лабораторных условиях.
Применив ShortStop к ранее опубликованному набору данных smORF, исследователи идентифицировали 8% из них как вероятно функциональные микробелки, отдав им приоритет для целевого наблюдения. Это ускоряет характеризацию микробелков, отфильтровывая последовательности, которые вряд ли имеют биологическую значимость. ShortStop также позволяет идентифицировать микробелки, которые не были обнаружены другими методами, в том числе методом, подтвержденным обнаружением в клетках и тканях человека.
«Особую эффективность ShortStop обеспечивает возможность работы с распространёнными типами данных, такими как наборы данных секвенирования РНК, которые уже используются во многих лабораториях», — говорит первый автор Брендан Миллер, научный сотрудник лаборатории Сагателяна, получивший докторскую степень. «Это означает, что теперь мы можем масштабно искать микропротеины в здоровых и поражённых тканях, что позволит по-новому взглянуть на биологию человека и открыть новые пути диагностики и лечения таких заболеваний, как рак и болезнь Альцгеймера».
ShortStop обнаруживает микропротеин, связанный с раком легких
Исследователи уже использовали ShortStop для идентификации микробелка, экспрессия которого была повышена в опухолях лёгкого. Они проанализировали генетические данные опухолей лёгких человека и прилегающих нормальных тканей, чтобы составить список потенциальных функциональных smORF. Среди smORF, обнаруженных ShortStop, одна выделялась: она экспрессировалась в опухолевой ткани сильнее, чем в нормальной, что позволяет предположить, что она может служить биомаркером или функциональным микробелком рака лёгкого.
Идентификация этого микробелка, связанного с раком легких, демонстрирует ценность ShortStop и машинного обучения для определения приоритетных кандидатов для будущих исследований и терапевтических разработок.
«Уже накоплено огромное количество данных, которые мы теперь можем обработать с помощью ShortStop, чтобы найти новые микробелки, связанные со здоровьем и заболеваниями, от болезни Альцгеймера до ожирения и не только», — говорит Сагателян. «Моя команда действительно хороша в разработке методов, и, используя данные других преподавателей Солка, мы можем интегрировать эти методы и ускорить научные исследования».
Среди других авторов — Эдуардо Виейра де Соуза, Виктор Пай, Джоан Воган, Кэлвин Лау и Джолин Дидрих из Salk, а также Хосунг Ким из Калифорнийского университета в Лос-Анджелесе.
Работа была поддержана Национальными институтами здравоохранения (P30CA014195, R01GM102491) и Медицинским исследовательским фондом Клейтона.
DOI: 10.1186/s44330-025-00037-4
ЖУРНАЛ
Методы BMC
АВТОРЫ
Брендан Миллер, Эдуардо Виейра де Соуза, Виктор Дж. Пай, Хосунг Ким, Джоан М. Вон, Кэлвин Дж. Лау, Джолин К. Дидрих, Алан Сагателян
Управление связи
Тел: (858) 453-4100
press@salk.edu
Институт Салка — это независимый некоммерческий исследовательский институт, основанный в 1960 году Джонасом Салком, разработчиком первой безопасной и эффективной вакцины против полиомиелита. Миссия Института — проводить фундаментальные, совместные, рискованные исследования, направленные на решение наиболее актуальных проблем общества, включая рак, болезнь Альцгеймера и уязвимость сельского хозяйства. Эта фундаментальная наука лежит в основе всех усилий по внедрению результатов исследований в практику, генерируя знания, которые позволяют создавать новые лекарства и инновации во всем мире.