패스트캠퍼스 환급챌린지 34일차 : SFT와 DPO 강의 후기

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

2. 학습 후기 700자 이상 (공백 제외)

SFT (Supervised Fine-Tuning)

DPO (Direct Preference Optimization)

모델이 사용자 선호도를 직접 학습하여 “더 나은” 응답을 생성하도록 만드는 학습 방법
단순히 정답을 학습하는 것이 아니라, 응답 간의 상대적인 비교를 통해 사용자가 선호하는 응답을 학습
학습방식 : Log-Sigmoid Loss 또는 Ranking Loss라는 식을 사용하여 선호되는 응답에 더 높은 점수를 부여하는 방법으로 학습
장점 : 사용자 피드백 반영으로 더 자연스럽고 인간 선호도에 가까운 응답 생성 가능
단점 : 두 개의 답변과 더 좋은 양질의 선호도 데이터 구축에 비용이 많이 들고, 데이터 준비가 복잡함
응용분야 : 대화형 AI에서의 답변의 퀄리티 향상, 콘텐츠 생성, 유해성 감소, 사용자 경험 최적화

SFT vs. DPO

SFT와 DPO의 결합

SFT 적합 상황 (1차 학습)

DPO 적합 상황 (2차 학습)

실제 응용 사례

산업별 적용 사례

고객 지원 시스템
- SFT : 일반적인 고객 질문-답변 쌍으로 학습
- DPO : 친절하고 도움이 되는 응답 스타일 강화
- 결과 : 고객 만족도 63% 증가, 응답 시간 45%단축
의료 상담 보조
- SFT : 의학 지식 및 정확한 진단 관련 내용학습
- DPO : 공감적이고 윤리적인 의료 정보 제공 방식 강화
- 결과 : 정확도 유지하며 환자 경험 개선, 정보 전달력 향상

SFT 데이터셋 구축 요령

목표 : 충분한 양과 다양성을 갖춘 고품질 질문-응답 쌍 수집
권장 사항
- 도메인별 전문가 검증 데이터 확보
- 다양한 난이도와 복잡성을 가진 질문 포함
- 실제 사용자 쿼리 패턴 반영
- 여러 응답 스타일과 같이 포함
피해야 할 사항
- 단일 소스에서만 데이터 수집
- 과도하게 정형화된 응답만 포함
- 특정 주제나 패턴에 편향된 데이터셋
- 검증되지 않은 정보 포함

최적의 학습 전략 수립

순수 SFT 접근법
- 장점 : 빠른 학습, 명확한 평가, 예측 가능한 결과
- 단점: 다양성 부족, 창의적 응답 제한
- 리소스 : 중간 수준 (정답 데이터 구축)
- 최적용도 : 명확한 정답이 있는 태스크 (QA, 요약 등)
순수 DPO 접근법
- 장점 : 자연스러운 응답, 사용자 선호도 반영
- 단점: 데이터 구축 복잡, 학습 불안정성
- 리소스 : 높은 (선호도 쌍 구축)
- 최적용도 : 창의적 콘텐츠, 대화 스타일 개선
통합 접근법 (SFT + DPO)
- 장점 : 균형잡힌 성능, 확장성, 다양성
- 단점 : 복잡한 파이프라인, 더 많은 계산 리소스
- 리소스 : 높음 (단계적 학습)
- 최적용도 : 범용 AI 어시스턴트, 복합 태스크

실무자를 위한 조언

시작단계
- SFT로 기본 기능 구현 후 DPO적용 검토
- 모든 학습 실험 철저히 기록하고 버전 관리
- 초기 단계에서 소규모 파일럿 테스트 진행
확장단계
- 사용자 피드백 수집 메커니즘 구축
- 지속적인 평가 및 모니터링 시스템 마련
- 다양한 도메인에 대한 특화 모델 개발

패스트캠퍼스 환급챌린지 36일차 : vLLM을 활용한 Multi-LoRA Serving 강의 후기 (0)	2025.05.06
패스트캠퍼스 환급챌린지 35일차 : 페이지드 어텐션과 vLLM 강의 후기 (1)	2025.05.05
패스트캠퍼스 환급챌린지 33일차 : 양자화와 QLoRA 튜닝 강의 후기 (0)	2025.05.03
패스트캠퍼스 환급챌린지 32일차 : LoRA 튜닝 강의 후기 (0)	2025.05.02
패스트캠퍼스 환급챌린지 31일차 : 사전학습과 파인튜닝 강의 후기 (1)	2025.05.01

Inderight Investments