본문 바로가기

스타트업 투자/데이터 + 테크

패스트캠퍼스 환급챌린지 34일차 : SFT와 DPO 강의 후기

by Sungwook Choi 2025. 5. 4.

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

 

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

 

 

2. 학습 후기 700자 이상 (공백 제외)

SFT (Supervised Fine-Tuning)

  • 지도 학습 (Supervised Learning) 방식을 기반으로 모델을 미세조정하는 방법
  • 주어진 입력(프롬프트)에 대한 정답 또는 모범 응답을 학습시켜 모델이 특정 작업에서 향상된 성능을 발휘하도록 만듬
  • 학습방식 : 모델 출력과 학습에 사용하는 정답 간 차이 최소화
  • 장점 : 특정 Task에서의 빠른 성능 향상, 구조화된 데이터로 안정적인 학습 가능
  • 단점 : 데이터에 과도하게 의존할 수 있으며, 편향된 데이터는 성능 제한 초래
  • 응용 분야 : 문서 요약, 코드 완성, 질의응답 등 명확한 정답이 있는 태스크

DPO (Direct Preference Optimization)

  • 모델이 사용자 선호도를 직접 학습하여 “더 나은” 응답을 생성하도록 만드는 학습 방법
  • 단순히 정답을 학습하는 것이 아니라, 응답 간의 상대적인 비교를 통해 사용자가 선호하는 응답을 학습
  • 학습방식 : Log-Sigmoid Loss 또는 Ranking Loss라는 식을 사용하여 선호되는 응답에 더 높은 점수를 부여하는 방법으로 학습
  • 장점 : 사용자 피드백 반영으로 더 자연스럽고 인간 선호도에 가까운 응답 생성 가능
  • 단점 : 두 개의 답변과 더 좋은 양질의 선호도 데이터 구축에 비용이 많이 들고, 데이터 준비가 복잡함
  • 응용분야 : 대화형 AI에서의 답변의 퀄리티 향상, 콘텐츠 생성, 유해성 감소, 사용자 경험 최적화

SFT vs. DPO

  • 정답학습 vs 사용자 선호도 학습
  • Prompt-Response 페어 vs. Prompt-Response + 선호도 비교
  • Cross-Entropy Loss vs. Log-Sigmoid Loss (Ranking Loss)
  • 데이터 의존적 vs. 사용자 선호도 중심
  • 초기 학습 단계 vs. SFT 이후 개선 단계

SFT와 DPO의 결합

  • SFT로 학습을 한 후에 만족스럽지 않은 부분을 더 좋은 답변 데이터를 구축하여 DPO로 추가학습을 하는 경우들이 많음
  • 즉, 다시말해 1차로 SFT 학습 후 잘 개선되지 않을 부분을 DPO로 학습하여 바로 잡는 경우

SFT 적합 상황 (1차 학습)

  • 새로운 태스크에 대한 초기학습
  • 구조화된 데이터가 풍부하게 있는 경우
  • 정확한 응답이 중요한 전문 분야 (의학, 법률 등)

DPO 적합 상황 (2차 학습)

  • 대화의 자연스러움과 같이 답변의 퀄리티를 높여야 하는 경우
  • 유해 콘텐츠 감소나 윤리적 응답 강화가 필요한 경우
  • 사용자 만족도 향상이 중요한 서비스

실제 응용 사례

  1. 기초 모델 선택 : 응용 사례에 맞는 기본 LLM 선택 (예: GPT, LLama, Mistral)
  2. SFT 적용 : 대화 데이터로 기본 응답 패턴 훈련 (10K-50K 고품질 대화 쌍 활용)
  3. DPO 적용 : 사용자 선호도 기반 응답 개선 (2K-5K 선호도 쌍으로 최적화)
  4. 반복적 개선 : 실제 사용자 피드백을 통한 모델 지속 개선

산업별 적용 사례

  • 고객 지원 시스템
    • SFT : 일반적인 고객 질문-답변 쌍으로 학습
    • DPO : 친절하고 도움이 되는 응답 스타일 강화
    • 결과 : 고객 만족도 63% 증가, 응답 시간 45%단축
  • 의료 상담 보조
    • SFT : 의학 지식 및 정확한 진단 관련 내용학습
    • DPO : 공감적이고 윤리적인 의료 정보 제공 방식 강화
    • 결과 : 정확도 유지하며 환자 경험 개선, 정보 전달력 향상

SFT 데이터셋 구축 요령

  • 목표 : 충분한 양과 다양성을 갖춘 고품질 질문-응답 쌍 수집
  • 권장 사항
    • 도메인별 전문가 검증 데이터 확보
    • 다양한 난이도와 복잡성을 가진 질문 포함
    • 실제 사용자 쿼리 패턴 반영
    • 여러 응답 스타일과 같이 포함
  • 피해야 할 사항
    • 단일 소스에서만 데이터 수집
    • 과도하게 정형화된 응답만 포함
    • 특정 주제나 패턴에 편향된 데이터셋
    • 검증되지 않은 정보 포함

최적의 학습 전략 수립

  • 순수 SFT 접근법
    • 장점 : 빠른 학습, 명확한 평가, 예측 가능한 결과
    • 단점: 다양성 부족, 창의적 응답 제한
    • 리소스 : 중간 수준 (정답 데이터 구축)
    • 최적용도 : 명확한 정답이 있는 태스크 (QA, 요약 등)
  • 순수 DPO 접근법
    • 장점 : 자연스러운 응답, 사용자 선호도 반영
    • 단점: 데이터 구축 복잡, 학습 불안정성
    • 리소스 : 높은 (선호도 쌍 구축)
    • 최적용도 : 창의적 콘텐츠, 대화 스타일 개선
  • 통합 접근법 (SFT + DPO)
    • 장점 : 균형잡힌 성능, 확장성, 다양성
    • 단점 : 복잡한 파이프라인, 더 많은 계산 리소스
    • 리소스 : 높음 (단계적 학습)
    • 최적용도 : 범용 AI 어시스턴트, 복합 태스크

실무자를 위한 조언

  • 시작단계
    • SFT로 기본 기능 구현 후 DPO적용 검토
    • 모든 학습 실험 철저히 기록하고 버전 관리
    • 초기 단계에서 소규모 파일럿 테스트 진행
  • 확장단계
    • 사용자 피드백 수집 메커니즘 구축
    • 지속적인 평가 및 모니터링 시스템 마련
    • 다양한 도메인에 대한 특화 모델 개발

url : https://abit.ly/lisbva

댓글