패스트캠퍼스 환급챌린지 47일차 : 멀티모달 강의 후기

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

2. 학습 후기 700자 이상 (공백 제외)

멀티모달

크로스 모달

멀티모달 - 이미지를 이해하는 모델

멀티모달 - Qwen2-VL

특징

전체구조

주요 장점

특징

Naive Dynamic Resolution
- 다양한 해상도 이미지를 입력받아 이미지 크기에 따라 자동(동적)으로 시각 토큰으로 변환
- 2D-RoPE를 도입하여 이미지의 2차원 위치 정보를 효과적으로 캡쳐
- 인접한 2x2 토큰을 간단한 MLP 레이어를 통해 압축함
Multimodal Rotary Position Embedding
- 전통적인 1D-RoPE와 달리, 멀티모달 입력(텍스트, 이미지, 비디오)의 위치 정보를 시간, 높이, 넓이 세 가지 성분으로 분해하여 인코딩
- 이미지의 경우, 시간 ID는 고정하고 각 시각 토큰에 대해 개별적인 높이와 넓이에 ID를 부여
- 비디오의 경우 프레임마다 시간 ID가 증가하며, 이미지와 동일한 방식으로 높이와 넓이 정보를 할당
Unified Image and Video Understanding
- 이미지와 비디오 데이터를 혼합하여 학습함으로써, 두 분야 모두 우수한 이해력을 확보
- 긴 비디오 처리를 위해 비디오 프레임의 해상도를 동적으로 조절하며, 전체 비디오 토큰 수를 16,384개로 제한해 학습 효율성 유지

학습방법

학습 대상
- 대규모 이미지-테그슽 쌍을 활용해 오직 비전 인코더 컴포넌트만 학습
- 이 과정에서 LLM은 업데이트 하지 않고 고정된 상태로 두어, VIT가 시각-텍스트 관계를 효과적으로 학습하도록 집중
데이터 및 수치
- 약 6000억개 토큰 데이터 사용
- LLM은 이 단계에서 업데이트하지 않고 초기화된 상태
- 비전 인코더가 원래 DFN 논문에서 제시된 VIT구조 사용
핵심 목적
- LLM과의 정렬기반을 마련

학습 대상
- VIT와 LLM 모두의 파라미터를 unfreeze하여 함께 학습
데이터 및 수치
- 추가로 약 8000억개 토큰의 이미지 관련 데이터를 사용
- 혼합 이미지-텍스트 데이터, 시각 질문응답 데이터, 멀티태스킹 데이터 등 포함
핵심 목적
- 시각과 언어 정보 간의 미세한 상호작용 학습 및 복합 태스크 대응력 강화

학습 대상
- 최종 단계는 VIT파라미터를 다시 고정(lock)하고
- 오직 LLM만을 대상으로 인스트럭션 데이터 (e.g. ChatML형식)를 사용해 파인튜닝 진행
데이터
- ChatML형식의 인스트럭션 데이터
- 순수 텍스트 대화뿐 아니라, 이미지 질문응답, 문서파싱, 다중이미지 비교, 비디오 이해, 비디오 스트림 대화, 에이전트 기반 상호작용 등 다양한 멀티모달 데이터 포함
핵심 목적
- 다양한 모달리티(이미지, 텍스트, 비디오 등)를 아우르는 인스트럭션에 대해 LLM이 적절하게 응답할 수 있도록 학습함

패스트캠퍼스 환급챌린지 48일차 : Qwen2-VL 강의 후기 (0)	2025.05.18
패스트캠퍼스 환급챌린지 46일차 : LLM 정량 평가 강의 후기 (0)	2025.05.16
패스트캠퍼스 환급챌린지 45일차 : RAG 파인튜닝 강의 후기 (0)	2025.05.15
패스트캠퍼스 환급챌린지 44일차 : 모델 호출 강의 후기 (0)	2025.05.14
패스트캠퍼스 환급챌린지 43일차 : 허깅페이스 TRL 파인튜닝 강의 후기 (0)	2025.05.13

Inderight Investments