패스트캠퍼스 환급챌린지 31일차 : 사전학습과 파인튜닝 강의 후기

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

2. 학습 후기 700자 이상 (공백 제외)

사전학습 (pre-training)

정의 : 대규모 텍스트 데이터로 초기에 모델을 학습시키면서 언어 이해 능력을 형성하는 과정
목적
- 텍스트의 패턴, 구조, 의미를 학습하여 기본적인 언어능력 획득
- 다양한 다운스트림 태스크에 활용할 수 있는 범용적 언어 지식 습득
특징
- 레이블이 없는 방대한 데이터 사용 (웹 텍스트, 책, 논문 등)
- 자기지도학습 방식으로 진행 (별도의 레이블 없이 데이터 자체에서 학습)
- 대규모 컴퓨팅 자원 필요

파인튜닝 (Fine-tuning)

정의 : 사전 학습된 모델을 특정 작업이나 도메인에 맞게 추가로 조정하는 과정
목적
- 구체적인 태스크(번역, 요약, 질의응답 등)에 최적화
- 특정 도메인(의료, 법률, 금융 등)에 특화된 성능 향상
특징
- 상대적으로 적은 양의 레이블된 데이터 사용 (수천~수만 예시)
- (사전 학습 시에 얻은) 원본 모델의 지식을 어느 정도 유지하면서 새로운 능력 추가
- 계산 비용이 사전 학습보다 적음 (수 시간~수일 학습 가능)

사전학습- 자기지도학습 (Self-supervised Learning)

정의 : (주로 사전 학습에서 사용되는 방식) 데이터 자체에서 레이블을 스스로 정의하여 별도의 인간 레이블 없이 학습하는 방식
목적
- 대량의 레이블되지 않은 데이터 활용 가능
- 인간의 수작업 레이블링 불필요
특징
- LLM의 사전 학습은 대부분 자기지도학습 방식 사용
- 대표적인 자기 지도 학습 방법은 ‘다음 단어 예측’을 사용
- 예: GPT, LLaMa, Qwen 등 대부분의 현대 LLM은 다음 단어 예측을 통한 자기지도학습으로 사전학습

사전학습- 자기지도학습 (Self-supervised Learning) - 다음 단어 예측

정의 : 주어진 문맥(이전 단어들)을 바탕으로 다음 등장 단어를 예측하는 학습방법. LLM 사전 학습에서 주로 사용됨
목적
- 자연어의 순차적 특성을 활용하여 레이블링 되지 않은 데이터에서 ‘다음 단어’ 그 자체를 레이블로 삼아서 학습
- 방대한 텍스트 데이터가 입력되면, 비유하면 마치 ‘독서’를 하듯이 이전 문맥을 바탕으로 다음 단어를 맞추는 학습을 진행함

자기지도학습 (Self-supervised Learning) 과 다음 단어 예측

자기지도학습 : 레이블 없이 스스로 학습하는 전반적인 방법론
- 비유 : ‘선생님 없이 스스로 공부하는 방식’
다음 단어 예측 : 자기지도학습의 구체적인 구현 방식 중 하나
- 비유 : ‘빈칸 채우기 문제를 풀면서 공부하는 구체적인 방법’
LLM을 만들 때 가장 처음 지식을 주입하는 단계인 사전학습은 자기지도학습 방법으로서 다음단어 예측을 사용
- LLM 비유 : ‘수조 개의 빈칸 채우기 문제를 풀어 언어를 마스터한 학생’

사전학습을 보통 설명할 때 : 몇 토큰 학습되었나?

사전 학습: 데이터의 다양성

파인튜닝

패스트캠퍼스 환급챌린지 33일차 : 양자화와 QLoRA 튜닝 강의 후기 (0)	2025.05.03
패스트캠퍼스 환급챌린지 32일차 : LoRA 튜닝 강의 후기 (0)	2025.05.02
패스트캠퍼스 환급챌린지 30일차 : 인공지능에서의 학습이란 강의 후기 (0)	2025.04.30
패스트캠퍼스 환급챌린지 29일차 : No Answer 데이터 생성하기 강의 후기 (0)	2025.04.29
패스트캠퍼스 환급챌린지 28일차 : 다수의 문서를 인용하는 데이터 만들기 강의 후기 (1)	2025.04.28

Inderight Investments