본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장
② 오늘자 날짜, 공부 종료 시각 포함 사진 1장
③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장
④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)
2. 학습 후기 700자 이상 (공백 제외)
BERT는 생성에 맞지 않음
- 자연어 ‘이해’에 강한 트랜스포머 인코더로 만들어짐
- ‘생성’은 디코더에 어울림. 따라서, 글쓰기와 같은 ‘생성’ 문제를 푸는 것에는 적합하지 않음
BERT로 풀 수 있는 문제 #1 - 분류
- 텍스트를 이해하는 능력에서는 GPT보다 뛰어남
- 생성을 하지 않아도 풀 수 있는 문제로 텍스트 ‘분류’ 문제가 있음
- 문서가 주어지면 주어진 카테고리로 분류하는 문제
BERT로 풀 수 있는 문제 #2 - 추출
- 예를들어, 주어진 텍스트로부터 사람 이름, 장소 이름을 추출하는 문제
- 입력: 홍길동은 주말이면 투썸 플레이스에서 일을 하고는 한다.
- 출력 : 홍길동(사람)은 주말이면 투썸 플레이스 (장소)에서 일을 하고는 한다.
BERT로 풀 수 있는 문제 #3 - 임베딩 (Embedding)
- 임베딩 : 텍스트의 의미를 수치화하여 벡터화 하는 것
- 앞으로 배울 RAG에 응용될 수 있고, 실제로 많은 RAG를 위한 임베딩이 BERT를 기반으로 사용함
- e.g. ‘선생님’이란 단어와 ‘교사’라는 단어는 각각 임베딩 후 벡터로 변화하면, 두 벡터 간의 유사도가 높게 나오게 된다. 이는 임베딩이 텍스트의 의미를 수치화한다는 특징
OpenAI의 GPT
- GPT는 언어 모델
- GPT는 트랜스포머 디코더를 기반으로 만들어진 모델
- 이전 단어들로부터 다음 단어를 예측하는 언어모델
BERT vs. GPT
- BERT는 가운데 단어를 빈 칸 채우기 문제를 푸는 것처럼 학습
- GPT는 이전 단어들로부터 다음 단어를 예측하도록 pre-trained된 GPT
GPT의 발전
- GPT-1,2,3는 아키텍처 면에서는 큰 차이가 없음
- 즉, 트랜스포머에서 디코더만 떼어 학습한 아키텍처
- 모델의 층과 파라미터의 개수, 입력 토큰 개수가 1,2,3을 거쳐 압도적으로 많아지고 있음
- 층에 파라미터가 올려져 있기 떄문에, 층이 늘어나면, 일반적으로 파라미터가 개수가 늘어남
- 트랜스포머 아키텍처는 보통, 층과 파라미터의 개수가 늘어나면, 비례적으로 성능이 좋아짐
GPT 구조의 모델이 풀 수 있는 문제들
- BERT와 달리 생성 가능한 GPT는 풀 수 있는 문제의 범위가 BERT에 비해 훨씬 많음
- 요즘의 LLM을 생각하면, 웬만한것은 다 풀 수 있다고 보면 됨
- BERT가 풀 수 있는 것은 GPT가 다 풀 수 있다고 보면 됨
- 하지만, 동일한 파라미터, 리소스 가정시 BERT는 분류, 추출, 임베딩에서 뛰어나다고 보면 됨
- 분류, 추출, 임베딩 시 작은 모델을 써야하는 환경이라면 BERT를 쓰는게 유리
url : https://abit.ly/lisbva
'스타트업 투자 > 데이터 + 테크' 카테고리의 다른 글
패스트캠퍼스 환급챌린지 5일차 : 인코더와 디코더가 문제를 푸는 방식 (0) | 2025.04.05 |
---|---|
패스트캠퍼스 환급챌린지 4일차 : BART & T5 (0) | 2025.04.04 |
패스트캠퍼스 환급챌린지 2일차 : BERT (0) | 2025.04.02 |
패스트캠퍼스 환급챌린지 1일차 : LLM 기초지식 (0) | 2025.04.01 |
댓글