본문 바로가기

스타트업 투자/데이터 + 테크

패스트캠퍼스 환급챌린지 2일차 : BERT

by Sungwook Choi 2025. 4. 2.

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

2. 학습 후기 700자 이상 (공백 제외)

트랜스포머의 셀프 어텐션 (Self-attention)

  • 입력문장을 트랜스포머에 넣으면, 입력문장에 있는 모든 단어는 자기자신과 주변에 있는 모든 단어와 유사도를 계산함
  • 실제로 연관이 있는 단어들은 유사도가 높게 나오게 최적화를 하면서, 결국에 각 단어와의 연관관계를 찾을 수 있는 메커니즘
    • e.g. 구글의 ‘The animal didn’t cross the street because it was too tired’ 예시에서 ‘it’이 뜻하는 단어를 찾는 과정

트랜스포머의 다양한 모델 분화

  • Encoder only 모델 : BERT
  • Decoder only 모델 : GPT

BERT (Bidirectional Encoder Representations from Transformers)

  • 트랜스포머는 기본적으로 층을 쌓는데, 구글의 BERT는 인코더만 쌓아놓고 학습함
  • 학습방식은 Masked Language Model
  • 12층 버전과 24층 버전 두개를 발표. 당연히 24층 버전이 성능이 좋음

BERT의 사전학습과 파인튜닝

  • 굉장히 방대한 데이터를 미리 학습을 한 Pre-training (사전학습)을 함
  • Pre-trained된 범용 모델을 만들어서, 풀고싶은 문제에 맞게 추가학습을 할 수 있음 (Fine-tuning)
    • LLM 개념이 나오기전에 Pre-training, Fine-tuning 의 표현이 이미 쓰이고 있었음
    • 실제로 SKT가 BERT 로직을 가지고, 한국어모델인 KoBERT를 만들었었음. 이를 가지고 다양한 문제에 파인튜닝해서 사용할 수 있었음
  • BERT는 자연어 이해에 강한 트랜스 인코더로 만들어져 있어, 생성형 모델처럼 ‘다음 단어’를 예측하는데 강하지 않음.
    • BERT는 자연어 이해는 뛰어난 성능을 가지고 있지만, ‘생성’문제를 푸는 데는 적합하지 않음

BERT의 사전 학습 방법 #1 - Masked Language Model

  • 빈칸 채우기 문제와 유사함
    • 중간에 빈칸[MASK]을 만들어 놓고, 양쪽의 문맥을 읽고, 빈칸을 맞추는 방식의 학습
    • 특정단어를 랜덤으로 바꿨을 수도 있고, 아닐 수도 있는 조건을 걸고, 원래 어떤 단어인지 맞추어야하는 훈련

BERT의 사전 학습 방법 #2 - Next Sentence Prediction

  • 두개의 문장을 주고, 이어지는 문장인지 맞추는 훈련
    • Masked 훈련보다 중요도 비중이 낮은 훈련이지만, BERT의 성능을 높였던 훈련이었음
    • 문장을 구분하는 [SEP] 라는 토큰을 사용해서, 실제 이어지는 문장인지 아닌지를 문장의 맨 앞에 [CLS]라는 토큰을 입력해 학습. 마지막 출력층의 문장의 맨 앞에서 이어지는 문장인지 아닌지 1또는 0으로 정해두고 결정

url : https://abit.ly/lisbva