본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장
② 오늘자 날짜, 공부 종료 시각 포함 사진 1장
③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장
④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)
2. 학습 후기 700자 이상 (공백 제외)
멀티모달
- 하나의 시스템이나 의사소통에서 두 가지 이상의 서로 다른 데이터 유형 (텍스트, 이미지, 음성, 영상 등)을 동시 사용하는 것
- 서로 다른 데이터를 하나의 모델로 처리해 공통 임베딩 공간에 맵핑하여 의미적 연관성과 관계를 학습한 모델
- 각 데이터의 특성을 보존하면서 데이터를 벡터화
- 의미적으로 정렬하여 서로 다른 데이터 간의 관계를 학습
- 이를 바탕으로 다양한 데이터를 입력을 받아 작업을 수행할 수 있는 인공지능 모델을 만드는 과정
크로스 모달
- 텍스트 -> 이미지 (DALLE)
- 텍스트 -> 비디오 (Sora)
- 음성 -> 텍스트 (Whisper)
- 이미지 -> 텍스트 (GPT-4o)
- 음성 + 이미지 -> 비디오
- 온도 + 이미지 -> 텍스트
- 이미지 + 텍스트 -> 음성 or 텍스트
- 이미지 + 속도정보 -> 이미지
멀티모달 - 이미지를 이해하는 모델
- Qwen2-VL (알리바바에서 만든 Vision Language모델)
멀티모달 - Qwen2-VL
- Qwen2-VL-2B
- 경량, 효율, 온디바이스, 한정된 리소스 사용
- Qwen2-VL-7B
- 가성비 모델, OCR, 영상 이해능력 좋음
- Qwen2-VL-72B
- 가장 고성능 모델, 복잡도가 높은 작업에 최적화
특징
- 다양한 해상도와 다양한 입력 크기에 대한 이해
- 동영상 이해
- 기기 운영을 위한 에이전트 능력
- 모바일폰, 로복 등 다양한 기기에 통합
- 다국어 지원
전체구조
- Vision Encoder + Text Decoder로 구성
- Encoder : ViT (Vision Transformer, DFN)
- Decoder: QwenLM
주요 장점
- 다양한 해상도의 입력 처리 가능
- 다중 입력 동시 처리 가능
- 비디오 등 여러 유형의 시각 데이터 동시 처리
특징
- Naive Dynamic Resolution
- 다양한 해상도 이미지를 입력받아 이미지 크기에 따라 자동(동적)으로 시각 토큰으로 변환
- 2D-RoPE를 도입하여 이미지의 2차원 위치 정보를 효과적으로 캡쳐
- 인접한 2x2 토큰을 간단한 MLP 레이어를 통해 압축함
- Multimodal Rotary Position Embedding
- 전통적인 1D-RoPE와 달리, 멀티모달 입력(텍스트, 이미지, 비디오)의 위치 정보를 시간, 높이, 넓이 세 가지 성분으로 분해하여 인코딩
- 이미지의 경우, 시간 ID는 고정하고 각 시각 토큰에 대해 개별적인 높이와 넓이에 ID를 부여
- 비디오의 경우 프레임마다 시간 ID가 증가하며, 이미지와 동일한 방식으로 높이와 넓이 정보를 할당
- Unified Image and Video Understanding
- 이미지와 비디오 데이터를 혼합하여 학습함으로써, 두 분야 모두 우수한 이해력을 확보
- 긴 비디오 처리를 위해 비디오 프레임의 해상도를 동적으로 조절하며, 전체 비디오 토큰 수를 16,384개로 제한해 학습 효율성 유지
학습방법
- 1단계 : 비전 트랜스포머(VIT) 전용 학습
- 학습 대상
- 대규모 이미지-테그슽 쌍을 활용해 오직 비전 인코더 컴포넌트만 학습
- 이 과정에서 LLM은 업데이트 하지 않고 고정된 상태로 두어, VIT가 시각-텍스트 관계를 효과적으로 학습하도록 집중
- 데이터 및 수치
- 약 6000억개 토큰 데이터 사용
- LLM은 이 단계에서 업데이트하지 않고 초기화된 상태
- 비전 인코더가 원래 DFN 논문에서 제시된 VIT구조 사용
- 핵심 목적
- LLM과의 정렬기반을 마련
- 2단계 : 전체 파라미터 unfreeze 및 종합 학습
- 학습 대상
- VIT와 LLM 모두의 파라미터를 unfreeze하여 함께 학습
- 데이터 및 수치
- 추가로 약 8000억개 토큰의 이미지 관련 데이터를 사용
- 혼합 이미지-텍스트 데이터, 시각 질문응답 데이터, 멀티태스킹 데이터 등 포함
- 핵심 목적
- 시각과 언어 정보 간의 미세한 상호작용 학습 및 복합 태스크 대응력 강화
- 3단계 : LLM 전용 인스트럭션 파인튜닝
- 학습 대상
- 최종 단계는 VIT파라미터를 다시 고정(lock)하고
- 오직 LLM만을 대상으로 인스트럭션 데이터 (e.g. ChatML형식)를 사용해 파인튜닝 진행
- 데이터
- ChatML형식의 인스트럭션 데이터
- 순수 텍스트 대화뿐 아니라, 이미지 질문응답, 문서파싱, 다중이미지 비교, 비디오 이해, 비디오 스트림 대화, 에이전트 기반 상호작용 등 다양한 멀티모달 데이터 포함
- 핵심 목적
- 다양한 모달리티(이미지, 텍스트, 비디오 등)를 아우르는 인스트럭션에 대해 LLM이 적절하게 응답할 수 있도록 학습함
url : https://abit.ly/lisbva
'스타트업 투자 > 데이터 + 테크' 카테고리의 다른 글
패스트캠퍼스 환급챌린지 48일차 : Qwen2-VL 강의 후기 (0) | 2025.05.18 |
---|---|
패스트캠퍼스 환급챌린지 46일차 : LLM 정량 평가 강의 후기 (0) | 2025.05.16 |
패스트캠퍼스 환급챌린지 45일차 : RAG 파인튜닝 강의 후기 (0) | 2025.05.15 |
패스트캠퍼스 환급챌린지 44일차 : 모델 호출 강의 후기 (0) | 2025.05.14 |
패스트캠퍼스 환급챌린지 43일차 : 허깅페이스 TRL 파인튜닝 강의 후기 (0) | 2025.05.13 |
댓글