Atropos: LLMの可能性を最大限に引き出すための強化学習フレームワーク

Atroposは、大規模言語モデル（LLM）の強化学習（RL）環境を構築・評価するためのフレームワークです。ギリシャ神話の運命の女神アトロポスのように、AtroposはLLMを最適な潜在能力へと導きます。主要な機能、使用例、開発への貢献方法を見ていきましょう。

Atroposの特徴：LLM強化学習を加速する

Atroposは、LLMベースのRL研究を加速させるために、柔軟性、スケーラビリティ、標準化されたプラットフォームを提供することを目指しています。以下の重要な機能をご覧ください。

マルチターン&非同期RL: 複雑な、多段階、非同期のインタラクションを効率的にサポートします。
推論に依存しない: 標準的な推論API（OpenAI、vLLM、SGLangなど）と統合されており、LLMプロバイダーとフレームワーク間を簡単に切り替えることが可能です。
トレーナーに依存しない: コードを大幅に変更することなく、さまざまなRLアルゴリズムとフレームワークを試すための標準化されたトレーニングインターフェイスを提供します。
スケーラブル&分散型: より多くの環境インスタンスを（ローカルまたは分散リソース全体で）起動することで簡単にスケールでき、中央サービスにロールアウトを提供します。
多様な環境統合: 異種、マルチモーダルなトレーニングのために、多くの多様な環境タイプを同時に管理します。

実際の成果：モデルの性能向上

Atroposを使用してトレーニングされたモデルによる実験結果をご紹介します。特定のドメインやタスクにおいて、著しい改善が見られています。

ツール呼び出し環境の結果: DeepHermes-ToolCalling-Specialist-Atroposは、ツール呼び出しタスクにおいて優れた成果を達成しました。モデルアーティファクト: https://huggingface.co/NousResearch/DeepHermes-ToolCalling-Specialist-Atropos 使用環境:https://github.com/NousResearch/Atropos/environments/tool_calling_server.py
財務ファンダメンタル予測環境の結果: DeepHermes-Financial-Fundamentals-Prediction-Specialist-Atroposは、財務予測精度を向上させました。モデルアーティファクト: https://huggingface.co/NousResearch/DeepHermes-Financial-Fundamentals-Prediction-Specialist-Atropos 使用環境: https://github.com/NousResearch/Atropos/environments/fundamental_prediction_environment.py
RLAIF実験: RLAIF環境を使用してモデルの個性を変化させることで、興味深く、時には奇妙な性格を持つモデルを作成しました。DeepHermes Egregore v1 & v2 8B、DeepHermes Ascension Maze 8Bなどが挙げられます。使用された環境：https://github.com/NousResearch/atropos/blob/main/environments/rlaif_server.py

Atroposで出来ること：詳細な環境と使い方の手順

Atroposを使用することで、様々なタスクに対応したLLMを作成し、強化学習を通じて洗練されたモデルを構築できます。 ![NousResearch.com](https://camo.githubusercontent.com/c1ee46b09844425c71ac640557a80310a0115be1b0c718bf02b4ff28171a34da/68747470733a2f2f696d672e736869656c64732e696f2f6261646765f4e6f757352657365617263682e636f6d2d77686974653f7374796c653d666f722d7468652d6261646765266c6f676f3d646174613a696d6167652f706e673b6261736536342c6956424f5277304b47676f414141414e5355684555674141414351414141416c4341594141414171584573394141414149474e49556b304141486f6d41414341684141412b67414149446f414142314d414141366d41414144715941414158634a7936555477414141414a6345685a63774141466955414142596c41556c534a50414141414147596b74485241442f415038412f36433970354d414141416c64455659644752686447553659334a6c5958526c414449774d6a55744d4451744d6a6c554d5455364e4449364d6a63724d4441364d444155744d7267414141414a5852465748526b5958526c4f6d31765a476c6d655141794d4449314c5441304c544935564445314f6a51794f6a49334b7a41774f6a41775a656c7958414141436830525668305a4746305a5470306157316c633352686258414d6a41794e5330774e4330794f5651784e546f304d6a6f794e7973774d446f774d444c3855344d414141684a53555242564668487a56685a544a5658454234524e784242774258697771496f376a754b6f72a06a466e315161564b7255524f4c526b784b6a4b4b4e4974576b4a725975736359586f75564e724361304c4f3562417267485546785271494a4146524151554a6270664d50392f39364c46375276664d6e4a2f5a667a6e2f4f646d572f6d7a4c6e746949696c74526b34574837624445774c786358466b622b2f5037567268306574772b68545831395074625731394f6e544a33336d354f5245586270306b577348616d696f4a2b5976477839396e6a78355175765772644e376b3943564b31646f2b765470754777566a59324e394f46447462517179732f5070787333627443316139656f704b53456576667554534e476a4b43516b4f6b3066767834636e58745a766d715a5944517055755861506273325a596e54595259434c464d5a7263425a57566c6650723061593734506f4b584c6c344b71315a397830654f484f474844334d34505432445636785977523036644e437878456f3862646f30546b6849344e72616a2f71397658485247686f612b4d4b46432f71647062564d4342423363484a794d732b634f5a4d376465706b2f5345374f4469775749497658727a49565656567647336264704d556d724f7a4d322f647570586676362f51735a71506a2f625668494453306c4c654562324433647a63724438776d2b68476d362b764c36656d7069717056642b754d742b44634c647533666a4167514d7365724d5a33326a4e43646d4e4d676930704f5166327235394f2f337936792b696c772f6b34754a436a6f364f7071413764757849506a342b4e4776574c4e71353830655351616d6f714969696430535445455433614a4d6e5436624f6e547454546b364f2b57317273457349555a4f553942646c5a32654c4d463170776f514a354f486851514542415251634845774442677967506e3336304a5974577967714b6f71474478394f65586c35394f444241786f386544434a7a6d6a4e6d6a573065504669696f794d7046476a5235506f6a643639652f6446556f365758785034414375644f484569396572566938351564e476e534a43465a527a5531315452773445415656314c333774326c7a79524b53446846455245525646356572696b41684f664e6e30643337743752744c4276337a377939764b696a4a7333616347434262526b79524c4c545062784753454d6576627357516c48496b39504436716f714b43544a30394b586d6e51536446455874533362313974435065584c3139714f726836395372646c496d397662337036624e6e6c43395771366d706f594c5872366d7973704953452f2b6b2b66506e6b776a664d707439714a67676175447030366338627477344675756f6d43464d4e505270333734396937764d652f794b727654617541384c573841684953456347496f34532b3569566873726965427730617849386650395a35766c7255794a7150486a30797259475679f644c6c627132624f6e36676e414f376a46414f357a636837534d37454f6e6774424654612b2b2f6a78493730575339323764382f53327a342b4977523956466458367741476576546f49514d336d566b534a493065505561764155787141507037382b614e7576484669786336546c316448556b2b306c2b3437333854516c5168764b32424d4134502f3462456c535275704e435a6f62526f3053494b445131566b5134624e6b79f7357845466748424841503753426c774571347a38724b55714b74525a76367a744251586c342b4277344e5a444731366b4d6d3171516e673743736d76664578724c73656278356379526e5a6d624b387872566861514555776469556537587235392b4439347073324f386f7433534b4b79422b706358395351394b482b2fff6737677635272733224b436763504d4f6350763262563068516e37756c6b6b47566c6b6b747061576e714d75684b746858744b775130463430614e55705441373644745a7a456251425343747a5a4770535a3964594231694a4d506e587146452b644f7055336264724535624b354164566c355a79596d4d67704b616e383975316266565af578](https://camo.githubusercontent.com/dc0e80b3b5fb2320c01d3b6a6111f59897e11f1a9513994f28e0b749b97014b5/68747470733a2f2f696d672e736869656c64732e696f2f6261646765f404e6f757352657365617263682d626c61636b3f7374796c653d666f722d7468652d6261646765266c6f676f3d58266c6f676f436f6c6f723d7768697465 "NousResearch Twitter")

主要ドキュメント

ベース環境クラス: カスタム環境の作成に関するドキュメント。[Base Environment Class - Documentation for creating custom environments](Base Environment Class - Documentation for creating custom environments)
環境概要: 既存の環境に関するドキュメント。[Environments Overview - Documentation for existing environments](Environments Overview - Documentation for existing environments)
完全な環境設定オプション: カスタム環境の作成に関するドキュメント。[Full Environment Config Options - Documentation for creating custom environments](Full Environment Config Options - Documentation for creating custom environments)
例トレーナー: トレーニングの開始。[Example Trainer - Getting started with training](Example Trainer - Getting started with training)
Slurmガイド: 分散推論のためにAtroposをSlurmで使用するためのガイド。[Slurm Guide - Guide for using Atropos with Slurm for distributed inference](Slurm Guide - Guide for using Atropos with Slurm for distributed inference)
貢献ガイド: 貢献者向けのガイドライン。[Contributing Guide - Guidelines for contributors](Contributing Guide - Guidelines for contributors)
ライセンス: MITライセンスの詳細。[License - MIT license details](License - MIT license details)

インストール

Python 3.10 （またはそれ以降）環境を準備し、簡単にpipをインストールします。

pip install atropos

リポジトリの開発や環境の使用を検討している場合は：

pip install -e . # 使用する場合
pip install -e .[dev] # 開発の場合
pip install -e .[examples] # 例を実行する場合
pip install -e .[all] # すべての場合

重要な注意点：リポジトリにコミットする場合は、pre-commit hooksをインストールしてください。

クイックスタートガイド

最初の環境を作成:
- ベース環境クラスのドキュメントを確認して、中心となるコンセプトを理解してください。
- 環境のディレクトリにある既存の環境を確認してください。
例の環境の実行:
- VLLMまたはSGLang推論サーバーの実行を指すように、使用する環境ファイルのconfig_initセクションを編集します（たとえば、GSM8K環境で）。グループサイズなど、他の設定変更も行います。
- 次のコマンドを実行します。
```
run-api & python environments/gsm8k_server.py serve \
--slurm false
```
(オプション)APIのクエリ:
- APIを照会し、ロールアウトを開始する場合は、トレーナーを使用せずに、APIドキュメントを参照して、このAPIが公開するREST APIインターフェイスを調べてください。トレーナーを使用する場合は、手順4に進みます。
モデルのトレーニング:
- トレーニングの例ガイドに従って、詳細な手順を確認します。
- 組み込みのロギングおよびレポートシステムを通じて進捗状況を監視します。
  - 完了長
  - 評価精度
  - 完全なロールアウトとスコア
複数の環境を同時に使用でき、すべてを同じサーバーに向けることができます。環境には、詳細なロギングとレポートのサポートが付属しており、実行は完了長、eval精度、完全なロールアウトとスコアなどを追跡します。

デバッグツール

trajectory-handler は、環境開発者が完全な分散インフラストラクチャを必要とせずにローカルで環境をテストおよび理解するのに役立ついくつかのデバッグツールを提供します。

柔軟なモデルプロバイダーのサポート: Atropos は、OpenAI API 標準に準拠するあらゆるモデルプロバイダーをネイティブでサポートします。プロバイダーのベースURLとAPIキーを提供するだけで、Atropos はそのモデルとシームレスに統合して、ローカルで環境をテストまたは実行できます。
API と選択した環境を起動した後（例： run-api & python environments/gsm8k_server.py serve）、それらを表示してすばやく確認したり、オフラインでトレーニングするためのデータセットを準備したりできます。
- Run の表示 (view-run): GradioUIを起動して、環境実行によって生成されたロールアウトのバッチを検査します。これは、インタラクションとデータフローを視覚的にデバッグするのに役立ちます。
- オフラインデータ生成: atropos-sft-gen および atropos-dpo-gen を使用して、環境からロールアウトを収集し、教師あり微調整（SFT）または直接好み最適化（DPO）に適した形式に変換します。

今後のAtropos LLM RL環境ハッカソン

2025年5月18日にサンフランシスコで開催される、LLM RL環境の構築と実験に焦点を当てたエキサイティングなハッカソンにご参加ください。対面式イベントでは、LLM強化学習の分野の進歩に関心のある研究者と開発者が集まります。詳細は近日公開予定です。更新情報については、Twitter @NousResearchをフォローしてください。

貢献方法とライセンス

AtroposはオープンソースAIコミュニティによって構築されており、素晴らしい貢献者に依存しています。コードの書式設定、テストなどの詳細については、投稿ガイドを参照してください。コードの振る舞いに従ってください。Atroposは、MITライセンスを使用しています。詳細については、こちらhttps://www.github.com/NousResearch/AtroposのLICENSEファイルを参照してください。

citation

このライブラリがあなたの仕事に役立つと思われる場合は、このリポジトリを次のように引用できます。

@misc{atropos,
 title = {{Atropos - An Async First Environment Rollout Controller}},
 author = {Dakota Mahan, Roger Jin, Teknium, Shannon Sands, Artem Yatsenko, Jai Suphavadeeprasit, Karan Malhotra, Chen Guang, Joe Li},
 url = {https://www.github.com/NousResearch/Atropos},
 month = {4},
 year = {2025},
 version = {0.1},
}