본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장
② 오늘자 날짜, 공부 종료 시각 포함 사진 1장
③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장
④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)
2. 학습 후기 700자 이상 (공백 제외)
SFT (Supervised Fine-Tuning)
- 지도 학습 (Supervised Learning) 방식을 기반으로 모델을 미세조정하는 방법
- 주어진 입력(프롬프트)에 대한 정답 또는 모범 응답을 학습시켜 모델이 특정 작업에서 향상된 성능을 발휘하도록 만듬
- 학습방식 : 모델 출력과 학습에 사용하는 정답 간 차이 최소화
- 장점 : 특정 Task에서의 빠른 성능 향상, 구조화된 데이터로 안정적인 학습 가능
- 단점 : 데이터에 과도하게 의존할 수 있으며, 편향된 데이터는 성능 제한 초래
- 응용 분야 : 문서 요약, 코드 완성, 질의응답 등 명확한 정답이 있는 태스크
DPO (Direct Preference Optimization)
- 모델이 사용자 선호도를 직접 학습하여 “더 나은” 응답을 생성하도록 만드는 학습 방법
- 단순히 정답을 학습하는 것이 아니라, 응답 간의 상대적인 비교를 통해 사용자가 선호하는 응답을 학습
- 학습방식 : Log-Sigmoid Loss 또는 Ranking Loss라는 식을 사용하여 선호되는 응답에 더 높은 점수를 부여하는 방법으로 학습
- 장점 : 사용자 피드백 반영으로 더 자연스럽고 인간 선호도에 가까운 응답 생성 가능
- 단점 : 두 개의 답변과 더 좋은 양질의 선호도 데이터 구축에 비용이 많이 들고, 데이터 준비가 복잡함
- 응용분야 : 대화형 AI에서의 답변의 퀄리티 향상, 콘텐츠 생성, 유해성 감소, 사용자 경험 최적화
SFT vs. DPO
- 정답학습 vs 사용자 선호도 학습
- Prompt-Response 페어 vs. Prompt-Response + 선호도 비교
- Cross-Entropy Loss vs. Log-Sigmoid Loss (Ranking Loss)
- 데이터 의존적 vs. 사용자 선호도 중심
- 초기 학습 단계 vs. SFT 이후 개선 단계
SFT와 DPO의 결합
- SFT로 학습을 한 후에 만족스럽지 않은 부분을 더 좋은 답변 데이터를 구축하여 DPO로 추가학습을 하는 경우들이 많음
- 즉, 다시말해 1차로 SFT 학습 후 잘 개선되지 않을 부분을 DPO로 학습하여 바로 잡는 경우
SFT 적합 상황 (1차 학습)
- 새로운 태스크에 대한 초기학습
- 구조화된 데이터가 풍부하게 있는 경우
- 정확한 응답이 중요한 전문 분야 (의학, 법률 등)
DPO 적합 상황 (2차 학습)
- 대화의 자연스러움과 같이 답변의 퀄리티를 높여야 하는 경우
- 유해 콘텐츠 감소나 윤리적 응답 강화가 필요한 경우
- 사용자 만족도 향상이 중요한 서비스
실제 응용 사례
- 기초 모델 선택 : 응용 사례에 맞는 기본 LLM 선택 (예: GPT, LLama, Mistral)
- SFT 적용 : 대화 데이터로 기본 응답 패턴 훈련 (10K-50K 고품질 대화 쌍 활용)
- DPO 적용 : 사용자 선호도 기반 응답 개선 (2K-5K 선호도 쌍으로 최적화)
- 반복적 개선 : 실제 사용자 피드백을 통한 모델 지속 개선
산업별 적용 사례
- 고객 지원 시스템
- SFT : 일반적인 고객 질문-답변 쌍으로 학습
- DPO : 친절하고 도움이 되는 응답 스타일 강화
- 결과 : 고객 만족도 63% 증가, 응답 시간 45%단축
- 의료 상담 보조
- SFT : 의학 지식 및 정확한 진단 관련 내용학습
- DPO : 공감적이고 윤리적인 의료 정보 제공 방식 강화
- 결과 : 정확도 유지하며 환자 경험 개선, 정보 전달력 향상
SFT 데이터셋 구축 요령
- 목표 : 충분한 양과 다양성을 갖춘 고품질 질문-응답 쌍 수집
- 권장 사항
- 도메인별 전문가 검증 데이터 확보
- 다양한 난이도와 복잡성을 가진 질문 포함
- 실제 사용자 쿼리 패턴 반영
- 여러 응답 스타일과 같이 포함
- 피해야 할 사항
- 단일 소스에서만 데이터 수집
- 과도하게 정형화된 응답만 포함
- 특정 주제나 패턴에 편향된 데이터셋
- 검증되지 않은 정보 포함
최적의 학습 전략 수립
- 순수 SFT 접근법
- 장점 : 빠른 학습, 명확한 평가, 예측 가능한 결과
- 단점: 다양성 부족, 창의적 응답 제한
- 리소스 : 중간 수준 (정답 데이터 구축)
- 최적용도 : 명확한 정답이 있는 태스크 (QA, 요약 등)
- 순수 DPO 접근법
- 장점 : 자연스러운 응답, 사용자 선호도 반영
- 단점: 데이터 구축 복잡, 학습 불안정성
- 리소스 : 높은 (선호도 쌍 구축)
- 최적용도 : 창의적 콘텐츠, 대화 스타일 개선
- 통합 접근법 (SFT + DPO)
- 장점 : 균형잡힌 성능, 확장성, 다양성
- 단점 : 복잡한 파이프라인, 더 많은 계산 리소스
- 리소스 : 높음 (단계적 학습)
- 최적용도 : 범용 AI 어시스턴트, 복합 태스크
실무자를 위한 조언
- 시작단계
- SFT로 기본 기능 구현 후 DPO적용 검토
- 모든 학습 실험 철저히 기록하고 버전 관리
- 초기 단계에서 소규모 파일럿 테스트 진행
- 확장단계
- 사용자 피드백 수집 메커니즘 구축
- 지속적인 평가 및 모니터링 시스템 마련
- 다양한 도메인에 대한 특화 모델 개발
url : https://abit.ly/lisbva
'스타트업 투자 > 데이터 + 테크' 카테고리의 다른 글
패스트캠퍼스 환급챌린지 36일차 : vLLM을 활용한 Multi-LoRA Serving 강의 후기 (0) | 2025.05.06 |
---|---|
패스트캠퍼스 환급챌린지 35일차 : 페이지드 어텐션과 vLLM 강의 후기 (1) | 2025.05.05 |
패스트캠퍼스 환급챌린지 33일차 : 양자화와 QLoRA 튜닝 강의 후기 (0) | 2025.05.03 |
패스트캠퍼스 환급챌린지 32일차 : LoRA 튜닝 강의 후기 (0) | 2025.05.02 |
패스트캠퍼스 환급챌린지 31일차 : 사전학습과 파인튜닝 강의 후기 (1) | 2025.05.01 |
댓글