31年2025月XNUMX日
ソーク研究所の研究者らが、疾患に関与する可能性のある微小タンパク質を探すために、見落とされがちなDNA領域を探索する機械学習フレームワーク「ショートストップ」を発表した。
ソーク研究所の研究者らが、疾患に関与する可能性のある微小タンパク質を探すために、見落とされがちなDNA領域を探索する機械学習フレームワーク「ショートストップ」を発表した。
ラホヤ発—タンパク質は私たちの生命を支え、体全体で多くの重要な構造的・機能的役割を果たしています。しかし、これらの巨大分子は、マイクロタンパク質と呼ばれるより小さなサブクラスのタンパク質に長い影を落としてきました。マイクロタンパク質は、DNAの99%が「非コード」として無視され、未解明の遺伝暗号の広大で暗い領域に埋もれています。しかし、小さくてとらえどころがないにもかかわらず、その影響力はより大きなタンパク質に匹敵するほど大きい可能性があります。

ソーク研究所の科学者たちは現在、マイクロタンパク質の探索を通してゲノムの謎めいたダークサイドを探求しています。新ツールShortStopを用いることで、研究者は遺伝子データベースを精査し、マイクロタンパク質をコードしている可能性のあるゲノム上のDNA領域を特定することができます。さらに重要なのは、ShortStopはどのマイクロタンパク質が生物学的に最も関連性が高いかを予測することで、健康や疾患に関わるマイクロタンパク質の探索にかかる時間と費用を節約できる点です。
ShortStopは既存のデータセットに新たな光を当て、これまで発見不可能だったマイクロタンパク質にスポットライトを当てます。実際、ソーク研究所の研究チームは既にこのツールを用いて肺がんのデータセットを解析し、将来の治療標的となる可能性のある全く新しいマイクロタンパク質候補を210種類発見しました。その中には、検証済みのマイクロタンパク質がXNUMX種類含まれており、将来的に優れた治療標的となる可能性を秘めています。
調査結果はに掲載されました BMCメソッド 7月の31、2025。
「私たちの体のタンパク質のほとんどはよく知られていますが、最近の発見は、ゲノムの見落とされた領域にコード化された、ミクロタンパク質と呼ばれる何千もの小さな隠れたタンパク質が見逃されていたことを示唆しています」と上級著者は述べています。 アラン・サガテリアンソーク研究所のフレデリック・ポールセン教授兼Dr.フレデリック・ポールセン教授は次のように述べています。「長い間、科学者は大きなタンパク質をコードするDNA領域のみを研究し、残りの領域は『ジャンクDNA』として無視してきました。しかし、現在では、これらの領域も実は非常に重要であり、そこで生成される微小タンパク質が健康と疾患の制御において重要な役割を果たす可能性があることが分かってきています。」
マイクロタンパク質について
マイクロタンパク質の検出とカタログ化は、主にそのサイズのために困難です。数百から数千のアミノ酸からなる標準的なタンパク質と比較すると、マイクロタンパク質は通常150個未満のアミノ酸しか含まないため、標準的なタンパク質分析法では検出が困難です。そのため、科学者はマイクロタンパク質自体を探すのではなく、それらを構成するDNA配列を探すために、公開されている大規模なデータセットを検索します。
科学者たちは、小さなオープンリーディングフレーム(smORF)と呼ばれる特定のDNA配列に、マイクロタンパク質を合成するための指示が含まれていることを明らかにしました。既存の実験手法では既に数千ものsmORFがカタログ化されていますが、これらのツールは依然として時間と費用がかかります。さらに、潜在的に機能するマイクロタンパク質と機能しないマイクロタンパク質を区別できないため、それらの発見と特性評価は停滞しています。
ショートストップの仕組み
すべてのsmORFが生物学的に意味のあるマイクロタンパク質に変換されるわけではありません。既存の手法では、機能的なマイクロタンパク質を生成するsmORFと機能しないマイクロタンパク質を生成するsmORFを区別することができません。つまり、科学者は各マイクロタンパク質を個別に検査し、それが機能的かどうかを判断する必要があります。

ShortStopはこのワークフローを根本的に変革し、マイクロタンパク質を機能的と非機能的のカテゴリーに分類することで、smORFの発見を最適化します。ShortStopの2クラス分類の鍵となるのは、機械学習システムとしてどのようにトレーニングされているかです。トレーニングには、コンピューターで生成されたランダムなsmORFからなるネガティブコントロールデータセットが用いられます。ShortStopは、発見されたsmORFをこれらのデコイと比較することで、新しいsmORFが機能的か非機能的かを迅速に判断します。
ShortStopは、smORFが生物学的に関連するマイクロタンパク質をコードするかどうかを明確に判断することはできませんが、この2クラスシステムにより、実験プールを大幅に絞り込むことができます。これにより、研究者はデータセットを手作業で選別し、実験で失敗してしまう時間を短縮できます。
研究者らは、以前に公開されたsmORFデータセットにShortStopを適用した結果、8%のマイクロタンパク質が機能的である可能性が高く、標的追跡の優先順位が付けられました。これにより、生物学的関連性が低い配列が除外され、マイクロタンパク質の特性評価が加速されます。ShortStopは、他の手法では見落とされていたマイクロタンパク質も特定することができ、その中にはヒト細胞や組織で検出されたことで有効性が検証されたタンパク質も含まれています。
「ShortStopの特に強力な点は、多くの研究室で既に使用されているRNAシーケンシングデータセットのような一般的なデータタイプに対応していることです」と、サガテリアン研究室のポスドク研究員であり、筆頭著者のブレンダン・ミラー氏は述べています。「これにより、健常組織と病変組織の両方にわたってマイクロタンパク質を大規模に探索できるようになり、ヒト生物学への新たな知見が得られ、がんやアルツハイマー病などの疾患の診断と治療に新たな道が拓かれるでしょう。」
ショートストップが肺がんに関連する微小タンパク質を発見
研究者らは既にShortStopを用いて、肺がん腫瘍で発現が上昇しているマイクロタンパク質を特定しています。彼らはヒト肺腫瘍と隣接する正常組織の遺伝子データを解析し、機能的smORF(sm-ORF)の候補となる可能性のあるリストを作成しました。ShortStopが発見したsmORFの中には、腫瘍組織で正常組織よりも多く発現しているものがあり、肺がんのバイオマーカーまたは機能的マイクロタンパク質として機能する可能性を示唆しています。
この肺がん関連のマイクロタンパク質の特定は、将来の研究と治療法の開発の候補を優先順位付けするための ShortStop と機械学習の価値を実証しています。
「すでに膨大なデータが存在するので、ShortStopを使って処理することで、アルツハイマー病から肥満、そしてそれ以上の疾患に至るまで、健康と疾患に関連する新たなマイクロタンパク質を発見することができます」とサガテリアン氏は語る。「私のチームは手法構築に非常に長けており、ソーク研究所の他の教員のデータと組み合わせることで、これらの手法を統合し、科学研究を加速させることができます。」
他の著者には、ソーク研究所のEduardo Vieira de Souza、Victor Pai、Joan Vaughan、Calvin Lau、Jolene Diedrich、およびカリフォルニア大学ロサンゼルス校のHosung Kimが含まれます。
この研究は、国立衛生研究所 (P30CA014195、R01GM102491) およびクレイトン医療研究財団の支援を受けて行われました。
DOI: 10.1186/s44330-025-00037-4
ジャーナル
BMCメソッド
作者
ブレンダン・ミラー、エドゥアルド・ヴィエイラ・デ・ソウザ、ビクター・J・パイ、ホソン・キム、ジョアン・M・ヴォーン、カルビン・J・ラウ、ジョリーン・K・ディードリッヒ、アラン・サガテリアン
通信局
電話:(858)453-4100
press@salk.edu
ソーク研究所は、1960年に世界初の安全かつ効果的なポリオワクチンを開発したジョナス・ソーク博士によって設立された、独立した非営利研究機関です。研究所の使命は、がん、アルツハイマー病、農業のレジリエンス(回復力)といった社会が直面する最も差し迫った課題に対処するため、基礎的かつ協調的でリスクを伴う研究を推進することです。この基礎科学はあらゆるトランスレーショナル・リサーチの基盤となり、世界中の新薬やイノベーションを可能にする知見を生み出しています。