- 蒸留: より大規模で高性能なモデルの知識を、より小型で高速なモデルに移すこと。
- 出力スタイルと形式の学習: 特定のレスポンス形式、トーン、または構造に従うようモデルをトレーニングすること。
- RL 前のウォームアップ: 強化学習を適用してさらに改善する前に、教師ありのサンプルでモデルを事前トレーニングすること。
なぜ Serverless SFT なのか
- トレーニングコストの削減: 多数のユーザーで共有インフラストラクチャーを多重利用し、各ジョブの設定プロセスを省略し、トレーニングしていない間は GPU コストを 0 までスケールダウンできるため、Serverless SFT はトレーニングコストを削減します。
- トレーニング時間の短縮: 必要なときにトレーニング用インフラストラクチャーを即座にプロビジョニングすることで、Serverless SFT はトレーニングジョブを高速化し、より素早く反復できるようにします。
- 自動デプロイ: Serverless SFT は、トレーニングしたすべてのチェックポイントを自動的にデプロイするため、ホスティング用インフラストラクチャーを手動で設定する必要がありません。トレーニング済みモデルには、ローカル、ステージング、本番の各環境からすぐにアクセスしてテストできます。
Serverless SFT における W&B サービスの利用方法
- Inference: モデルを実行するため。
- Models: LoRA アダプターのトレーニング中にパフォーマンス メトリクスをトラッキングするため。
- Artifacts: LoRA アダプターを保存し、バージョン管理するため。
- Weave (オプション) : トレーニング ループの各ステップでモデルがどのように応答するかを観測するため。
Serverless SFT は現在パブリック プレビューです。プレビュー期間中、W&B が課金するのは Inference の利用量とアーティファクト ストレージのみです。プレビュー期間中、アダプターのトレーニングには課金されません。