2018 年 9 月 19 日
強化学習を応用して人工知能への方向性を定める新しい研究
強化学習を応用して人工知能への方向性を定める新しい研究
【ラホヤ】「鷲のように飛ぶ」という言葉は有名な歌の一部だが、一部の科学者にとっては頭を悩ませる言葉かもしれない。 特に、ワシ、ハヤブサ、タカなどの空を飛ぶ鳥は、丘や峡谷、山の頂上を軽々と超えて高く昇っていきます。 科学者たちは、暖かい空気の上昇流が鳥の飛行を助けることを認識していますが、鳥がどのようにして熱プルームを見つけて移動するのかはわかっていません。
それを解明するために、ソーク研究所とカリフォルニア大学サンディエゴ校の研究者らは強化学習を利用して、グライダーが大気温度を自律的に航行し、高さ 700 メートル、つまり 2,300 フィート近くまで上昇できるように訓練しました。 斬新な研究結果、19月XNUMX日号に掲載 自然では、鳥が上昇するための実行可能な生物学的手がかりとして、垂直方向の風加速とロール方向のトルクの役割を強調しています。 この研究結果は、自律飛行車両、つまり無人航空機 (UAV) の開発に直接適用できるナビゲーション戦略も提供します。
「この論文は、人工知能、つまり絶えず変化する気温の中で鳥のように自律的に飛行する方法への重要な一歩です。 エキスパートのパフォーマンスを達成するために比較的少ない学習しか必要としないことに驚きました」と教授は言います。 テレンス・セノフスキー、ソークの計算神経生物学研究所の所長であり、論文の著者のXNUMX人です。

強化学習は、行動心理学にヒントを得た機械学習の分野で、エージェントは実行されたアクションとその結果に基づいて環境内でどのように行動するかを学習します。 カリフォルニア大学サンディエゴ校物理学科のマッシモ・ベルガッソラ教授と博士課程候補者のゴータム・レディ氏によると、これは環境の合図に応じて行われる一連の意思決定として効果的な航行戦略を特定するための適切な枠組みを提供するという。
「私たちは、フィールド実験、数値シミュレーション、大気の乱気流により不可避的に存在する測定時の騒音の推定を通じて、学習した飛行方針の妥当性を確立します」とベルガッソラ氏は説明しました。 「これは、フィールドでのナビゲーション課題の学習の新しい例であり、そこでの学習は、多数の物理的影響と予測不可能な自然環境によって深刻な課題にさらされています。」
ソーク研究所、カリフォルニア大学サンディエゴ生物科学部門、イタリアのトリエステにあるアブドゥス・サラム国際理論物理学センターが共同で実施したこの研究では、研究チームは翼幅XNUMXメートルのグライダーにフライトコントローラーを装備した。 このデバイスにより、バンク角とピッチを正確に制御することで、自律飛行ポリシーを機内で実装できるようになりました。 航行戦略は、探索的行動戦略を使用して現場で数日間にわたって収集されたグライダーの蓄積された経験のみから決定されました。 この戦略は、研究の過程で開発された新しい搭載手法に依存し、グライダーの局所的な垂直風加速度と、航行の合図として機能するロール方向のトルクを正確に推定しました。
科学者らの方法論には、垂直風加速度、グライダーの翼を横切る垂直風速勾配の推定、学習モジュールの設計、フィールドでのサーマル戦略の学習、フィールドでの学習したポリシーのパフォーマンスのテスト、およびフィールドでのパフォーマンスのテストが含まれていました。シミュレーションでの翼幅の違いや、大気の乱気流による勾配センシングのノイズの推定。
Sejnowski 氏は、「以前のシミュレーション作業を現実世界のグライダーにうまく適用できたので、これらの結果は重要です。」と付け加えました。
この研究は、サイモンズ財団助成金 340106 によって資金提供されました。
このリリースは、カリフォルニア大学サンディエゴ校から提供された資料に基づいています。
ジャーナル
自然
TITLE
作者
ゴータム・レディ、ジェローム・ウォン・ン、アントニオ・セラーニ、テレンス・J・セジノフスキー、マッシモ・ベルガッソーラ
通信局
電話:(858)453-4100
press@salk.edu
ソーク研究所は、1960年に世界初の安全かつ効果的なポリオワクチンを開発したジョナス・ソーク博士によって設立された、独立した非営利研究機関です。研究所の使命は、がん、アルツハイマー病、農業の脆弱性といった社会が直面する最も差し迫った課題に対処するため、基礎的かつ協調的でリスクを伴う研究を推進することです。この基礎科学はあらゆるトランスレーショナルリサーチの基盤となり、世界中の新薬やイノベーションを可能にする知見を生み出しています。