본문 바로가기

스타트업 투자/데이터 + 테크

패스트캠퍼스 환급챌린지 3일차 : BERT & GPT

by Sungwook Choi 2025. 4. 3.

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

2. 학습 후기 700자 이상 (공백 제외)

BERT는 생성에 맞지 않음

  • 자연어 ‘이해’에 강한 트랜스포머 인코더로 만들어짐
  • ‘생성’은 디코더에 어울림. 따라서, 글쓰기와 같은 ‘생성’ 문제를 푸는 것에는 적합하지 않음

BERT로 풀 수 있는 문제 #1 - 분류

  • 텍스트를 이해하는 능력에서는 GPT보다 뛰어남
  • 생성을 하지 않아도 풀 수 있는 문제로 텍스트 ‘분류’ 문제가 있음
  • 문서가 주어지면 주어진 카테고리로 분류하는 문제

BERT로 풀 수 있는 문제 #2 - 추출

  • 예를들어, 주어진 텍스트로부터 사람 이름, 장소 이름을 추출하는 문제
    • 입력: 홍길동은 주말이면 투썸 플레이스에서 일을 하고는 한다.
    • 출력 : 홍길동(사람)은 주말이면 투썸 플레이스 (장소)에서 일을 하고는 한다.

BERT로 풀 수 있는 문제 #3 - 임베딩 (Embedding)

  • 임베딩 : 텍스트의 의미를 수치화하여 벡터화 하는 것
  • 앞으로 배울 RAG에 응용될 수 있고, 실제로 많은 RAG를 위한 임베딩이 BERT를 기반으로 사용함
  • e.g. ‘선생님’이란 단어와 ‘교사’라는 단어는 각각 임베딩 후 벡터로 변화하면, 두 벡터 간의 유사도가 높게 나오게 된다. 이는 임베딩이 텍스트의 의미를 수치화한다는 특징

OpenAI의 GPT

  • GPT는 언어 모델
  • GPT는 트랜스포머 디코더를 기반으로 만들어진 모델
  • 이전 단어들로부터 다음 단어를 예측하는 언어모델

BERT vs. GPT

  • BERT는 가운데 단어를 빈 칸 채우기 문제를 푸는 것처럼 학습
  • GPT는 이전 단어들로부터 다음 단어를 예측하도록 pre-trained된 GPT

GPT의 발전

  • GPT-1,2,3는 아키텍처 면에서는 큰 차이가 없음
    • 즉, 트랜스포머에서 디코더만 떼어 학습한 아키텍처
  • 모델의 층과 파라미터의 개수, 입력 토큰 개수가 1,2,3을 거쳐 압도적으로 많아지고 있음
  • 층에 파라미터가 올려져 있기 떄문에, 층이 늘어나면, 일반적으로 파라미터가 개수가 늘어남
  • 트랜스포머 아키텍처는 보통, 층과 파라미터의 개수가 늘어나면, 비례적으로 성능이 좋아짐

GPT 구조의 모델이 풀 수 있는 문제들

  • BERT와 달리 생성 가능한 GPT는 풀 수 있는 문제의 범위가 BERT에 비해 훨씬 많음
  • 요즘의 LLM을 생각하면, 웬만한것은 다 풀 수 있다고 보면 됨
  • BERT가 풀 수 있는 것은 GPT가 다 풀 수 있다고 보면 됨
    • 하지만, 동일한 파라미터, 리소스 가정시 BERT는 분류, 추출, 임베딩에서 뛰어나다고 보면 됨
    • 분류, 추출, 임베딩 시 작은 모델을 써야하는 환경이라면 BERT를 쓰는게 유리

url : https://abit.ly/lisbva

댓글