Atropos：LLMの強化学習環境を構築、多様な設定で最適なパフォーマンスを追求

Atroposは、大規模言語モデル（LLM）の強化学習（RL）環境を構築するためのフレームワークです。Nous Researchによって開発され、多様な環境下でLLMの軌跡を収集・評価できるよう設計されています。ギリシャ神話の運命の女神「Atropos」の名を冠し、運命を切り開くように、LLMの潜在能力を最大限に引き出すことを目指します。この記事では、Atroposの概要、主要な機能、具体的な活用事例、そして今後の展望について解説します。

AtroposがLLMの強化学習研究を加速する理由

Atroposは、柔軟性、拡張性、そして標準化されたプラットフォームとして、LLMベースの強化学習研究を加速させることを目的としています。

柔軟性: 多様な環境タイプを同時に管理し、異種混合なマルチモーダル学習をサポートします。
拡張性: 環境インスタンスをローカルまたは分散リソース上で簡単にスケールさせ、中央サービスにロールアウトを提供できます。
標準化: 標準的な学習インターフェースを提供し、コードを大幅に変更することなく、さまざまな強化学習アルゴリズムやフレームワークを試すことができます。

![NousResearch](https://camo.githubusercontent.com/c1ee46b09844425c71ac640557a80310a0115be1b0c718bf02b4ff28171a34da/68747470733a2f2f696d672e736869656c64732e696f2f62616467652f4e6f757352657365617263682e636f6d2d77686974653f7374796c653d666f722d7468652d6261646765266c6f676f3d646174613a696d6167652f706e673b6261736536342c6956424f5277304b47676f414141414e5355684555674141414351414141416c4341594141414171584573394141414149474e49556b304141486f6d41414341684141412b6741414149446f414142314d414141366d41414144715941414158634a7936555477414141414a6345685a637741414669554142596c41556c534a50414141414147596b74485241442f415038412f36433970354d414141416c64455659644752686447553659334a6c5958526c414449774d6a55744d4451744d6a6c554d5455364e4449364d6a63724d4441364d444155744d7267414141414a5852465748526b5958526c4f6d31765a476c6d655141794d4449314c5441304c544935564445314f6a51794f6a49334b7a41774f6a41775a656c795841414141436830525668305a4746305a5470306157316c63335268625841414d6a41794e5330774e4330794f5651784e546f304d6a6f794e7973774d446f774d444c3855344d414141684a535242564668487A56685A544A5658454234524E784242774258697771496f376a754B6f72a6a46e315161564B7255524f4c526b784B6a4B4b4e4974576b4A725975736359586f75564e724361304c4f3562417267485546785271494a4146524151554a6270664d50392f39364c46375276664d6e4a2f5a667a6e2f4f646d572f6d7a4c6e7469496c74526b34574837624445774c786358466b622b2f5037567268306574772b68545831395074625731394f6e544a33336d354f5245586270306b577348616d696f4a2b5976477839396e6a78355175765772644e376b3943564b31646f2b765470754777566a59324e394f464474625171797332f5070787333627443316139656f704b53456576667554534e476a4b43516b4f6b3066767834636e58745a766d715a5944517055755861506273325a596e54595259434c464d5a7263425a57566c6650723061593734506f4b584c6c334b71315a397830654f484f474844334d34505432445636785977523036644e437878456f3862646f30546b6849344e72616a2f71397658485247686f612b4d4b46432f71647062564d4342423363484a794d732b634f5a4d376465706b2f5345374f4469775749497658727a49565656567647336264704d556d724f7a4d322f647570586676362f51735a71506a2f625668494453306c4c654562324433647a63724438776d2b68476d362b764c36656d7069717056642b754d742b44634c647533666a4167514d7365724d5a33326a4e43646d4e4d676930704f5166327235394f2f337936792b696c772f6b34754a436a6f364f7071413764757849506a342b4e4776574c4e71353830655351616d6f714969696430535445454e5433614a4d6e5436624f6e547454546b364f2b57317273457349555a4f553942646c5a32654c4d463170776f514a354f486151414542415251634845774442677967506e3336304a5974577967714b6f71474478394f65586c35394f444241786f386544434a7a6d6a4e6d6a573065504669696f794d7046476a5235506f6a643639652f6446556f365758785034414375644f48456939657256693851564e476e534a43465a527a5531315452773445415356314c333774326c7a79524b53446846455245525646356572696b41684f664e6e30643337743752744276337a377939764b696a4a7333616347434262526b79524c4c345062784753454d6576627357516c48496b39504436716f714b43544a30394b586d6e51536446455874533362313974435065584c3139714f726836395372646c496d397662337036624e6e6c43395771366d706f594c5872366d7973704953452f2b6b2b66506e6b776a664d707439714a67676175447030366338627477344675756f6d43464d4e505270333734396937764d652f794b727654617541384c573841684953456347496f34532b356953566873726965427730617849386650395a35766c7255794a7150486a307972594756792f6636446c627132624f6e36676e414f376a46414f357a636837534d37454f6e6774424654612b2b2f6a78493730575339323764382f53327a342b4977523956466458367741476576546f49514d336d566b534a493065505561764155787141507037382b614e7576484669786336546c316448556b2b306c2b3437333854516c5168764b32424d4134502f3462456c535275704e435a6f62526f3053494b445131566b5134624e6b792f6753577845466748424841503753426c774571347a38724b55714b74525a76367a744251586c342b4277344e5a444731366b4d6d3171516e673743736d76664578724c73656278356379526e5a6d624b387872566861514555776469556537587235392b4439344a7073324f386f7435334b4b79422b706358395351394b482b2f667652727432374b43676f53504d4f6350763262563068516e37756e4c6b6b47566c636b6b747061576e714d75684b746858744b775130463430614e55705441373644745a7a456251425343747a5a4770535a3964594231694a4d506e587146452b644f7055336264724535624b35416d566c355a79596d4d67704b616e383975316266565a59574d6843776c786c382b62753773365343737a3767776350366e6466744a41422b4e66507a302f7a695a4f7a45323363754a466352547379687059554378637570486e7a357072524271456a496c73436441514c47727135652f6575577334653742497967496a7a382f556e57614647694456414467313439657156445347347a546f77344449514d4e774b59574e7365384a756c5A43345241627071437545566c714b44424731545a6f4155634d43526937436767784332506551712b796856554a46526357366d76534d444470783467526c792b614a354e6363534b51414a73664f6a6a3647395741706c45757177484e356a653871514d65326856554c46785556303639597448577a6b794a486b4c6c466a4456674d4b382f4e7a6456373747326f444b7868754b39574c41697249536368723648304e577078613967516771394c5338763047736d746f4b42414e39664c6c7939727265776c75375a315a67627758714a4d7279556961657a5973586f4e59444b51776351594477326b6b464b775253476a743067494b304539412f4f6a4533494e6641306b4a5358522b664d58394272764d436a494178417a6f67786f3767704464386a4d634347493458666f304b466139454637465257564e71544d554d4452425951677a7544674b53533776726f436e534871714b6766704c79346f6e305256536768596d4c326d4f5177755a74626436324837742b2f722b5163484e727072794677545a4279564d4c32424549595277344259735832b683477435455324e7533496877346445753055363745494b344b2f5151774e3736794239796a4f51426f457834775a4932346f5674634139665859762f3672426741767957323575532f4d4e4a47566c536d37513b9426d727750

Atroposの主な機能

Atroposは、LLMの強化学習環境を構築するために、以下のような主要な機能を提供します。

マルチターン＆非同期RL: 複雑なマルチターンおよび非同期インタラクションを効率的にサポートし、環境ステップとポリシー更新を分離します。
推論に依存しない設計: OpenAI、vLLM、SGLangなどの標準的な推論APIと統合されており、LLMプロバイダーやフレームワークを簡単に切り替えることができます。
トレーナーに依存しない設計: 標準化されたトレーニングインターフェースを提供し、主要なコード変更なしに、さまざまな強化学習アルゴリズムやフレームワークを試すことができます。
スケーラブル＆分散型: より多くの環境インスタンスを起動することで、簡単にスケールできます。
多様な環境統合: 多様な環境タイプを同時に管理し、異種混合なマルチモーダル学習をサポートします。

これらの機能を組み合わせることで、研究者はLLMの強化学習におけるさまざまな課題に取り組み、より高度なモデルを開発することができます。

Atroposによる実験結果：領域特化型モデルの作成

Atroposを使用してトレーニングされたモデルによる実験結果として、特定の領域やタスクにおいて大幅な改善が確認されています。

1. Tool Calling環境

モデル: DeepHermes-ToolCalling-Specialist-Atropos (https://huggingface.co/NousResearch/DeepHermes-ToolCalling-Specialist-Atropos)
環境: https://github.com/NousResearch/Atropos/environments/tool_calling_server.py

2. Financial Fundamentals Prediction環境

モデル: DeepHermes-Financial-Fundamentals-Prediction-Specialist-Atropos (https://huggingface.co/NousResearch/DeepHermes-Financial-Fundamentals-Prediction-Specialist-Atropos)
環境: https://github.com/NousResearch/Atropos/environments/fundamental_prediction_environment.py

これらの例は、Atroposが特定のタスクに特化したLLMを効率的にトレーニングできることを示しています。

RLAIF環境による個性的なLLMの生成

強化学習による人工知能フィードバック（RLAIF）環境を使用することで、モデルの個性を変化させ、興味深く、時には奇妙な個性を持つLLMを作成することができます。

DeepHermes Egregore v1 and v2 8B:
- https://huggingface.co/NousResearch/DeepHermes-Egregore-v1-RLAIF-8b-Atropos
- https://huggingface.co/NousResearch/DeepHermes-Egregore-v2-RLAIF-8b-Atropos
DeepHermes Ascension Maze 8B: https://huggingface.co/NousResearch/DeepHermes-AscensionMaze-RLAIF-8b-Atropos
環境: https://github.com/NousResearch/atropos/blob/main/environments/rlaif_server.py

Atroposリポジトリの構成

Atroposリポジトリを理解するための主要なドキュメントは以下の通りです。

Base Environment Class: カスタム環境を作成するためのドキュメント
Environments Overview: 既存の環境に関するドキュメント
Full Environment Config Options: カスタム環境を作成するための構成オプションに関するドキュメント
Example Trainer: トレーニングを開始するための例
Slurm Guide: 分散推論にSlurmとAtroposを使用するためのガイド
Contributing Guide: 貢献者向けのガイドライン
License: MITライセンスの詳細

Atroposのインストールと迅速な開始

Atroposを使用するには、Python 3.10以降の環境を準備し、以下のコマンドでインストールします。

pip install -e .[all] # for everything

開発に参加する場合は、pre-commit hooksをインストールしてください。

最初の環境の作成と実行

Base Class Documentationを確認し、コアコンセプトを理解します。
environments/ディレクトリにある既存の環境を参考にします。
環境ファイルのconfig_initセクションを編集し、実行中のVLLMまたはSGLang推論サーバーを指すように設定します。
環境を実行します。

モデルのトレーニングとデバッグ

トレーニング例のガイドに従って、トレーニングを行います。Atroposは、詳細なロギングとレポート機能を提供し、進捗状況をモニタリングできます。また、ローカル環境でテストおよび理解するためのデバッグツールも提供しています。例えば、view-runコマンドを使用すると、Gradio UIを起動して、環境によって生成されたロールアウトのバッチを検査できます。

今後の展望：Atroposハッカソン

2025年5月18日にサンフランシスコで、LLM強化学習環境の構築と実験に焦点を当てたハッカソンが開催されます。参加者は、この分野の進歩に貢献するための知識やスキルを共有し、協力することができます。詳細は近日公開予定です。Nous ResearchのTwitterアカウント（@NousResearch）をフォローして、最新情報を入手してください。

NousResearch

まとめ：Atroposで LLMの新たな可能性を切り開く

Atroposは、LLMの強化学習研究を加速させるための強力なフレームワークです。その柔軟性、拡張性、標準化されたプラットフォームは、研究者がより高度なモデルを開発し、LLMの新たな可能性を探求するための基盤を提供します。ぜひAtroposを活用し、LLMの未来を切り開いてください。