본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

2. 학습 후기 700자 이상 (공백 제외)
트랜스포머의 셀프 어텐션 (Self-attention)
- 입력문장을 트랜스포머에 넣으면, 입력문장에 있는 모든 단어는 자기자신과 주변에 있는 모든 단어와 유사도를 계산함
- 실제로 연관이 있는 단어들은 유사도가 높게 나오게 최적화를 하면서, 결국에 각 단어와의 연관관계를 찾을 수 있는 메커니즘
- e.g. 구글의 ‘The animal didn’t cross the street because it was too tired’ 예시에서 ‘it’이 뜻하는 단어를 찾는 과정
트랜스포머의 다양한 모델 분화
- Encoder only 모델 : BERT
- Decoder only 모델 : GPT
BERT (Bidirectional Encoder Representations from Transformers)
- 트랜스포머는 기본적으로 층을 쌓는데, 구글의 BERT는 인코더만 쌓아놓고 학습함
- 학습방식은 Masked Language Model
- 12층 버전과 24층 버전 두개를 발표. 당연히 24층 버전이 성능이 좋음
BERT의 사전학습과 파인튜닝
- 굉장히 방대한 데이터를 미리 학습을 한 Pre-training (사전학습)을 함
- Pre-trained된 범용 모델을 만들어서, 풀고싶은 문제에 맞게 추가학습을 할 수 있음 (Fine-tuning)
- LLM 개념이 나오기전에 Pre-training, Fine-tuning 의 표현이 이미 쓰이고 있었음
- 실제로 SKT가 BERT 로직을 가지고, 한국어모델인 KoBERT를 만들었었음. 이를 가지고 다양한 문제에 파인튜닝해서 사용할 수 있었음
- BERT는 자연어 이해에 강한 트랜스 인코더로 만들어져 있어, 생성형 모델처럼 ‘다음 단어’를 예측하는데 강하지 않음.
- BERT는 자연어 이해는 뛰어난 성능을 가지고 있지만, ‘생성’문제를 푸는 데는 적합하지 않음
BERT의 사전 학습 방법 #1 - Masked Language Model
- 빈칸 채우기 문제와 유사함
- 중간에 빈칸[MASK]을 만들어 놓고, 양쪽의 문맥을 읽고, 빈칸을 맞추는 방식의 학습
- 특정단어를 랜덤으로 바꿨을 수도 있고, 아닐 수도 있는 조건을 걸고, 원래 어떤 단어인지 맞추어야하는 훈련
BERT의 사전 학습 방법 #2 - Next Sentence Prediction
- 두개의 문장을 주고, 이어지는 문장인지 맞추는 훈련
- Masked 훈련보다 중요도 비중이 낮은 훈련이지만, BERT의 성능을 높였던 훈련이었음
- 문장을 구분하는 [SEP] 라는 토큰을 사용해서, 실제 이어지는 문장인지 아닌지를 문장의 맨 앞에 [CLS]라는 토큰을 입력해 학습. 마지막 출력층의 문장의 맨 앞에서 이어지는 문장인지 아닌지 1또는 0으로 정해두고 결정
url : https://abit.ly/lisbva
'스타트업 투자 > 데이터 + 테크' 카테고리의 다른 글
패스트캠퍼스 환급챌린지 6일차 : 프롬프트 엔지니어링 (0) | 2025.04.06 |
---|---|
패스트캠퍼스 환급챌린지 5일차 : 인코더와 디코더가 문제를 푸는 방식 (1) | 2025.04.05 |
패스트캠퍼스 환급챌린지 4일차 : BART & T5 (0) | 2025.04.04 |
패스트캠퍼스 환급챌린지 3일차 : BERT & GPT (0) | 2025.04.03 |
패스트캠퍼스 환급챌린지 1일차 : LLM 기초지식 (0) | 2025.04.01 |
댓글