본문 바로가기

스타트업 투자/데이터 + 테크

패스트캠퍼스 환급챌린지 4일차 : BART & T5

by Sungwook Choi 2025. 4. 4.

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

2. 학습 후기 700자 이상 (공백 제외)

인코더-디코더 구조 모델

  • 인코더, 디코더 이점을 모두 살려서 pre-training한 BART와 T5

BART (Bidirectional Auto-Regressive Transformer)

  • 인코더 -> 양쪽 문맥으로부터 중간단어 예측 -> BERT -> Natural Language Understanding에 강함
  • 디코더 -> 이전 단어들로부터 다음단어 예측 -> GPT -> Natural Language Generation에 강함
  • 기존의 트랜스포머는 인코더-디코더가 합쳐져 있는 구조
  • 이해와 생성 모두 뛰어난 인코더-디코더 구조 자체를 다시 활용

BART의 Pre-training 방법

  • 트랜스포머 인코더-디코더를 모두 사용하여 Pre-training
  • 입력문장에 노이즈 추가 (Masking)
  • 인코더로부터 정보를 받아 디코더에서 원래 문장을 복원
  • 인코더-디코더 구조는 입, 출력 구조가 달라도 되는 구조이기 떄문에, 입력 단어를 가리는 행위인 마스킹 (Masking)을 훨씬 유연하게 가능
    • BERT는 토큰 2개를 가려도 2개를 가렸다는 것이 보여진 채로 문제를 품
    • BART는 토큰 n개를 가리고 몇 개를 가렸는지는 말해주지 않고 문제를 풀게 함

T5 (Text-To-Text Transfer Transformer)

  • BART와 함께 인코더-디코더 구조에서 가장 유명한 모델
  • LLM이 지금처럼 보편화 되기 전에 사용자들이 생성문제에서 가장 많이 사용하던 모델 중 하나
  • 요즘에도 1B 이내에서는 T5는 좋은 선택
    • e.g. 간단한 요약, 키워드 추출, 번역
      실제 T5 문제 해결 사례
  • 배경 : 공장에는 고장 내용에 대해서 설비자들이 작성한 수천, 수만 건의 기록들이 존재함
  • 문제 : 누적된 고장 내용에 대해서 ‘고장 제품’, ‘불량유형’, ‘조치내용’을 전부 추출하여 관리하고자함. 이를 자동화 하고 싶음
  • 한계 : 공장 내부에서 사용해야하지만, 내부에 별도의 GPU가 없고, 클라우드로 돌릴수 있는 인터넷 환경도 아님 (LLM은 현실적으로 불가능, GPT-4 API 불가능), 한시적으로 데이터 반출, 학습한 모델 파일을 내부망에 넣는 것은 가능. 하지만 큰 모델이면 또 용량이슈로 안됨
  • 해결책
    • 데이터 수천건을 반출한 후 GPT-4 API를 이용하여 레이블링
    • 소형 크기의 한국어 T5 파인 튜닝 및 평가 후 공장에 반입
      • 크기가 작으니, 코랩으로 쉽게 파인튜닝이 가능한 수준
    • 학습비용이 거의 들지 않았고, 현재 서비스 중

현재의 LLM은 왜 디코더 Only 모델일까? (거대한 T5가 인기가 없는 이유)

  • 트랜스포머 계열이 모델이 크기가 커질수록 성능이 좋아진다는 특징은 공통된 사항
  • 모델의 크기가 커지고, 이를 사용하려면 두 가지 조건을 만족해야 함
    1. 계산이 효율적
    2. 텍스트 생성이 가능
  • 2번 조건의 경우에 인코더-디코더 계열의 T5로도 충분히 가능하지만, 1번 조건에서 디코더 Only 모델이 훨씬 뛰어남
    • T5와 같은 인코더-디코더 모델은 인코더와 디코더의 연결하는 부분을 담당하는 크로스 어텐션 (Cross Attention)에서 병목이 발생해서 학습이 느려짐
    • 학습 데이터를 학습하는 관점에서도 인코더-디코더로 각각 나눠서 학습하는 것보다, 디코더에 집중해서 학습하는 것이 효율적임

url : https://abit.ly/lisbva