본문 바로가기

이 게시물은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다

스타트업 투자/데이터 + 테크

패스트캠퍼스 환급챌린지 47일차 : 멀티모달 강의 후기

by Sungwook Choi 2025. 5. 17.

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

2. 학습 후기 700자 이상 (공백 제외)

멀티모달

  • 하나의 시스템이나 의사소통에서 두 가지 이상의 서로 다른 데이터 유형 (텍스트, 이미지, 음성, 영상 등)을 동시 사용하는 것
  • 서로 다른 데이터를 하나의 모델로 처리해 공통 임베딩 공간에 맵핑하여 의미적 연관성과 관계를 학습한 모델
  • 각 데이터의 특성을 보존하면서 데이터를 벡터화
  • 의미적으로 정렬하여 서로 다른 데이터 간의 관계를 학습
  • 이를 바탕으로 다양한 데이터를 입력을 받아 작업을 수행할 수 있는 인공지능 모델을 만드는 과정

크로스 모달

  • 텍스트 -> 이미지 (DALLE)
  • 텍스트 -> 비디오 (Sora)
  • 음성 -> 텍스트 (Whisper)
  • 이미지 -> 텍스트 (GPT-4o)
  • 음성 + 이미지 -> 비디오
  • 온도 + 이미지 -> 텍스트
  • 이미지 + 텍스트 -> 음성 or 텍스트
  • 이미지 + 속도정보 -> 이미지

멀티모달 - 이미지를 이해하는 모델

  • Qwen2-VL (알리바바에서 만든 Vision Language모델)

멀티모달 - Qwen2-VL

  • Qwen2-VL-2B
    • 경량, 효율, 온디바이스, 한정된 리소스 사용
  • Qwen2-VL-7B
    • 가성비 모델, OCR, 영상 이해능력 좋음
  • Qwen2-VL-72B
    • 가장 고성능 모델, 복잡도가 높은 작업에 최적화

특징

  • 다양한 해상도와 다양한 입력 크기에 대한 이해
  • 동영상 이해
  • 기기 운영을 위한 에이전트 능력
  • 모바일폰, 로복 등 다양한 기기에 통합
  • 다국어 지원

전체구조

  • Vision Encoder + Text Decoder로 구성
  • Encoder : ViT (Vision Transformer, DFN)
  • Decoder: QwenLM

주요 장점

  • 다양한 해상도의 입력 처리 가능
  • 다중 입력 동시 처리 가능
  • 비디오 등 여러 유형의 시각 데이터 동시 처리

특징

  • Naive Dynamic Resolution
    • 다양한 해상도 이미지를 입력받아 이미지 크기에 따라 자동(동적)으로 시각 토큰으로 변환
    • 2D-RoPE를 도입하여 이미지의 2차원 위치 정보를 효과적으로 캡쳐
    • 인접한 2x2 토큰을 간단한 MLP 레이어를 통해 압축함
  • Multimodal Rotary Position Embedding
    • 전통적인 1D-RoPE와 달리, 멀티모달 입력(텍스트, 이미지, 비디오)의 위치 정보를 시간, 높이, 넓이 세 가지 성분으로 분해하여 인코딩
    • 이미지의 경우, 시간 ID는 고정하고 각 시각 토큰에 대해 개별적인 높이와 넓이에 ID를 부여
    • 비디오의 경우 프레임마다 시간 ID가 증가하며, 이미지와 동일한 방식으로 높이와 넓이 정보를 할당
  • Unified Image and Video Understanding
    • 이미지와 비디오 데이터를 혼합하여 학습함으로써, 두 분야 모두 우수한 이해력을 확보
    • 긴 비디오 처리를 위해 비디오 프레임의 해상도를 동적으로 조절하며, 전체 비디오 토큰 수를 16,384개로 제한해 학습 효율성 유지

학습방법

  1. 1단계 : 비전 트랜스포머(VIT) 전용 학습
  • 학습 대상
    • 대규모 이미지-테그슽 쌍을 활용해 오직 비전 인코더 컴포넌트만 학습
    • 이 과정에서 LLM은 업데이트 하지 않고 고정된 상태로 두어, VIT가 시각-텍스트 관계를 효과적으로 학습하도록 집중
  • 데이터 및 수치
    • 약 6000억개 토큰 데이터 사용
    • LLM은 이 단계에서 업데이트하지 않고 초기화된 상태
    • 비전 인코더가 원래 DFN 논문에서 제시된 VIT구조 사용
  • 핵심 목적
    • LLM과의 정렬기반을 마련
  1. 2단계 : 전체 파라미터 unfreeze 및 종합 학습
  • 학습 대상
    • VIT와 LLM 모두의 파라미터를 unfreeze하여 함께 학습
  • 데이터 및 수치
    • 추가로 약 8000억개 토큰의 이미지 관련 데이터를 사용
    • 혼합 이미지-텍스트 데이터, 시각 질문응답 데이터, 멀티태스킹 데이터 등 포함
  • 핵심 목적
    • 시각과 언어 정보 간의 미세한 상호작용 학습 및 복합 태스크 대응력 강화
  1. 3단계 : LLM 전용 인스트럭션 파인튜닝
  • 학습 대상
    • 최종 단계는 VIT파라미터를 다시 고정(lock)하고
    • 오직 LLM만을 대상으로 인스트럭션 데이터 (e.g. ChatML형식)를 사용해 파인튜닝 진행
  • 데이터
    • ChatML형식의 인스트럭션 데이터
    • 순수 텍스트 대화뿐 아니라, 이미지 질문응답, 문서파싱, 다중이미지 비교, 비디오 이해, 비디오 스트림 대화, 에이전트 기반 상호작용 등 다양한 멀티모달 데이터 포함
  • 핵심 목적
    • 다양한 모달리티(이미지, 텍스트, 비디오 등)를 아우르는 인스트럭션에 대해 LLM이 적절하게 응답할 수 있도록 학습함

url : https://abit.ly/lisbva

댓글