Serverless SFT - Weights & Biases Documentation

Serverless SFT を使用すると、厳選されたデータセットに対する教師あり学習で LLM をファインチューニングできます。Serverless SFT はパブリックプレビューです。W&B は、トレーニング用インフラストラクチャー (CoreWeave 上) をプロビジョニングし、環境を柔軟に設定できるようにします。必要に応じて自動的にスケールするマネージドトレーニングクラスターに、すぐにアクセスできます。 Serverless SFT は、次のようなタスクに最適です。

蒸留: より大規模で高性能なモデルの知識を、より小型で高速なモデルに移すこと。
出力スタイルと形式の学習: 特定のレスポンス形式、トーン、または構造に従うようモデルをトレーニングすること。
RL 前のウォームアップ: 強化学習を適用してさらに改善する前に、教師ありのサンプルでモデルを事前トレーニングすること。

Serverless SFT は、特定のタスク向けにモデルを特化させるために、低ランクアダプター (LoRA アダプター) をトレーニングします。W&B は、トレーニングした LoRA アダプターをアカウント内のアーティファクトとして自動的に保存します。バックアップ用に、ローカルまたはサードパーティにも保存できます。Serverless Inference は、Serverless SFT を通じてトレーニングしたモデルも自動的にホストします。 Serverless SFT でモデルのトレーニングを開始するには、ART の Serverless SFT ドキュメントを参照してください。

なぜ Serverless SFT なのか

教師ありファインチューニング (SFT) は、厳選された入力と出力の例からモデルが学習するトレーニング手法です。W&B の Serverless SFT には、次のような利点があります。

トレーニングコストの削減: 多数のユーザーで共有インフラストラクチャーを多重利用し、各ジョブの設定プロセスを省略し、トレーニングしていない間は GPU コストを 0 までスケールダウンできるため、Serverless SFT はトレーニングコストを削減します。
トレーニング時間の短縮: 必要なときにトレーニング用インフラストラクチャーを即座にプロビジョニングすることで、Serverless SFT はトレーニングジョブを高速化し、より素早く反復できるようにします。
自動デプロイ: Serverless SFT は、トレーニングしたすべてのチェックポイントを自動的にデプロイするため、ホスティング用インフラストラクチャーを手動で設定する必要がありません。トレーニング済みモデルには、ローカル、ステージング、本番の各環境からすぐにアクセスしてテストできます。

Serverless SFT における W&B サービスの利用方法

Serverless SFT は、以下の W&B コンポーネントを組み合わせて動作します。

Inference: モデルを実行するため。
Models: LoRA アダプターのトレーニング中にパフォーマンスメトリクスをトラッキングするため。
Artifacts: LoRA アダプターを保存し、バージョン管理するため。
Weave (オプション) : トレーニングループの各ステップでモデルがどのように応答するかを観測するため。

Serverless SFT は現在パブリックプレビューです。プレビュー期間中、W&B が課金するのは Inference の利用量とアーティファクトストレージのみです。プレビュー期間中、アダプターのトレーニングには課金されません。

​なぜ Serverless SFT なのか

​Serverless SFT における W&B サービスの利用方法

なぜ Serverless SFT なのか

Serverless SFT における W&B サービスの利用方法