본문 바로가기

이 게시물은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다

스타트업 투자/데이터 + 테크

패스트캠퍼스 환급챌린지 31일차 : 사전학습과 파인튜닝 강의 후기

by Sungwook Choi 2025. 5. 1.

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

 

 

2. 학습 후기 700자 이상 (공백 제외)

사전학습 (pre-training)

  • 정의 : 대규모 텍스트 데이터로 초기에 모델을 학습시키면서 언어 이해 능력을 형성하는 과정
  • 목적
    • 텍스트의 패턴, 구조, 의미를 학습하여 기본적인 언어능력 획득
    • 다양한 다운스트림 태스크에 활용할 수 있는 범용적 언어 지식 습득
  • 특징
    • 레이블이 없는 방대한 데이터 사용 (웹 텍스트, 책, 논문 등)
    • 자기지도학습 방식으로 진행 (별도의 레이블 없이 데이터 자체에서 학습)
    • 대규모 컴퓨팅 자원 필요

파인튜닝 (Fine-tuning)

  • 정의 : 사전 학습된 모델을 특정 작업이나 도메인에 맞게 추가로 조정하는 과정
  • 목적
    • 구체적인 태스크(번역, 요약, 질의응답 등)에 최적화
    • 특정 도메인(의료, 법률, 금융 등)에 특화된 성능 향상
  • 특징
    • 상대적으로 적은 양의 레이블된 데이터 사용 (수천~수만 예시)
    • (사전 학습 시에 얻은) 원본 모델의 지식을 어느 정도 유지하면서 새로운 능력 추가
    • 계산 비용이 사전 학습보다 적음 (수 시간~수일 학습 가능)

사전학습- 자기지도학습 (Self-supervised Learning)

  • 정의 : (주로 사전 학습에서 사용되는 방식) 데이터 자체에서 레이블을 스스로 정의하여 별도의 인간 레이블 없이 학습하는 방식
  • 목적
    • 대량의 레이블되지 않은 데이터 활용 가능
    • 인간의 수작업 레이블링 불필요
  • 특징
    • LLM의 사전 학습은 대부분 자기지도학습 방식 사용
    • 대표적인 자기 지도 학습 방법은 ‘다음 단어 예측’을 사용
    • 예: GPT, LLaMa, Qwen 등 대부분의 현대 LLM은 다음 단어 예측을 통한 자기지도학습으로 사전학습

사전학습- 자기지도학습 (Self-supervised Learning) - 다음 단어 예측

  • 정의 : 주어진 문맥(이전 단어들)을 바탕으로 다음 등장 단어를 예측하는 학습방법. LLM 사전 학습에서 주로 사용됨
  • 목적
    • 자연어의 순차적 특성을 활용하여 레이블링 되지 않은 데이터에서 ‘다음 단어’ 그 자체를 레이블로 삼아서 학습
    • 방대한 텍스트 데이터가 입력되면, 비유하면 마치 ‘독서’를 하듯이 이전 문맥을 바탕으로 다음 단어를 맞추는 학습을 진행함

자기지도학습 (Self-supervised Learning) 과 다음 단어 예측

  • 자기지도학습 : 레이블 없이 스스로 학습하는 전반적인 방법론
    • 비유 : ‘선생님 없이 스스로 공부하는 방식’
  • 다음 단어 예측 : 자기지도학습의 구체적인 구현 방식 중 하나
    • 비유 : ‘빈칸 채우기 문제를 풀면서 공부하는 구체적인 방법’
  • LLM을 만들 때 가장 처음 지식을 주입하는 단계인 사전학습은 자기지도학습 방법으로서 다음단어 예측을 사용
    • LLM 비유 : ‘수조 개의 빈칸 채우기 문제를 풀어 언어를 마스터한 학생’

사전학습을 보통 설명할 때 : 몇 토큰 학습되었나?

  • 측정단위 : 토근(Token) - 단어나 부분 단어의 조각
  • 규모 : 최신 모델은 조(Trillion) 단위의 토큰으로 학습
  • LLaMA 3: 약 15T(15조) 토큰 (LLaMA2 대비 7배 증가)

사전 학습: 데이터의 다양성

  • 주제 다양성: 다양한 주제, 형식, 언어의 텍스트 포함
  • 다국어 데이터 : LLaMA3은 5%이상을 30개 이상의 비영어권 데이터로 구성
  • 데이터 소스 : 웹텍스트, 책, 논문, 코드 등 포함

파인튜닝

  • 풀 파인튜닝 : 모델의 모든 파라미터를 업데이트하는 방식
  • 파라미터 효율적 파인튜닝 (PEFT) :일부 파라미터만 업데이트하여 효율성을 높이는 방법

url : https://abit.ly/lisbva

댓글