- Serverless RL: 강화 학습으로 모델을 포스트 트레이닝하여 여러 턴으로 이루어진 에이전트 작업을 수행할 때 새로운 동작을 학습하고, 신뢰성, 속도, 비용 효율을 개선합니다. Serverless RL은 RL 워크플로를 Inference 단계와 트레이닝 단계로 나누고 이를 여러 작업에 멀티플렉싱해 GPU 사용량을 높이고 트레이닝 시간과 비용을 줄입니다.
- Serverless SFT: 선별된 데이터셋으로 지도 학습을 수행해 모델을 파인튜닝합니다. 증류, 출력 스타일과 형식 학습, 또는 RL을 적용하기 전에 모델을 워밍업하는 용도로 SFT를 사용하세요.
- 음성 에이전트
- 딥 리서치 어시스턴트
- 온프레미스 모델
- 콘텐츠 마케팅 분석 에이전트
왜 Serverless Training인가요?
- 더 낮은 트레이닝 비용: 여러 사용자에게 공유 인프라를 멀티플렉싱하고, 각 작업마다 설정 과정을 생략하며, 실제로 트레이닝하지 않을 때는 GPU 비용을 0까지 낮출 수 있으므로 Serverless Training은 트레이닝 비용을 크게 줄여줍니다.
- 더 빠른 트레이닝 시간: 여러 GPU에 추론 요청을 분산하고, 필요할 때 즉시 트레이닝 인프라를 프로비저닝하므로 Serverless Training은 트레이닝 작업을 더 빠르게 실행하고 반복 주기를 단축할 수 있게 해줍니다.
- 자동 배포: Serverless Training은 트레이닝한 모든 체크포인트를 자동으로 배포하므로 호스팅 인프라를 수동으로 설정할 필요가 없습니다. 로컬, 스테이징 또는 프로덕션 환경에서 트레이닝된 모델에 즉시 액세스하고 테스트할 수 있습니다.
Serverless Training에서 W&B 서비스를 사용하는 방식
- Inference: 모델을 실행하는 데 사용
- Models: LoRA 어댑터 트레이닝 중 성능 메트릭을 추적하는 데 사용
- Artifacts: LoRA 어댑터를 저장하고 버전을 관리하는 데 사용
- Weave (선택): 트레이닝 루프의 각 단계에서 모델이 어떻게 응답하는지 관측성을 확보하는 데 사용