- Serverless RL: 強化学習を使用してモデルを追加トレーニングし、新しい動作を学習させることで、マルチターンのエージェント型タスクを実行する際の信頼性、速度、コストを改善します。Serverless RL では、RL ワークフローを推論フェーズとトレーニング フェーズに分割し、それらを複数のジョブにまたがって多重化することで、GPU 使用率を高め、トレーニング時間とコストを削減します。
- Serverless SFT: 厳選されたデータセットに対する教師あり学習でモデルをファインチューニングします。SFT は、蒸留、出力スタイルや形式の学習、または RL を適用する前のモデルのウォームアップに使用します。
- 音声エージェント
- ディープリサーチ アシスタント
- オンプレミス モデル
- コンテンツ マーケティング分析エージェント
なぜ Serverless Training なのですか?
- トレーニングコストの削減: 多数のユーザーで共有インフラストラクチャーを多重利用し、ジョブごとの設定プロセスを省略し、トレーニングしていない間は GPU コストを 0 までスケールダウンできるため、Serverless Training はトレーニングコストを大幅に削減します。
- トレーニング時間の短縮: 推論リクエストを複数の GPU に分散し、必要なときにトレーニング用インフラストラクチャーを即座にプロビジョニングすることで、Serverless Training はトレーニングジョブを高速化し、より迅速に反復できるようにします。
- 自動デプロイ: Serverless Training は、トレーニングしたすべてのチェックポイントを自動的にデプロイするため、ホスティング用インフラストラクチャーを手動で設定する必要がありません。ローカル、ステージング、本番の各環境で、トレーニング済みモデルにすぐアクセスしてテストできます。
Serverless Training における W&B サービスの利用方法
- Inference: モデルを実行するため
- Models: LoRA アダプターのトレーニング中のパフォーマンス メトリクスをトラッキングするため
- Artifacts: LoRA アダプターを保存し、バージョン管理するため
- Weave (optional): トレーニング ループの各ステップでモデルがどのように応答するかについての可観測性を得るため