본문 바로가기

스타트업 투자/데이터 + 테크

패스트캠퍼스 환급챌린지 48일차 : Qwen2-VL 강의 후기

by Sungwook Choi 2025. 5. 18.

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

2. 학습 후기 700자 이상 (공백 제외)

멀티모달 - Qwen2-VL

config.json

  • 모델 구조 (레이어 수, 어텐션 헤드 수 등)나 하이퍼파라미터 설정이 들어있음
  • max_position_embeddings: 32,768 (32k)
  • 모델이 처리할 수 있는 최대 토큰 시퀀스 길이를 결정
  • 예를들어, 텍스트 입력이 이 값을 초과하면 토큰이 잘리거나 오류가 발생할 수 있으므로, 긴 텍스트를 다루는 모델에서 매우 중요한 설정
  • 예) 입력길이 : 32668, 출력길이 : 100 -> 생성이되다가 문장이 짤릴 수 있음

hidden_size: 1536

  • 각 transformer 레이어의 히든 벡터 차원을 의미
  • 모델의 용량과 파라미터 수와 직결되므로, 메모리 사용량과 성능에 큰 영향을 미침
  • 7B모델의 경우, hiden_size가 3584

rope_theta : 1000000

  • RoPE 관련 스케일링 파라미터, 긴 시퀀스에 대해 상대적 위치정보를 어떻게 반영할지 결정
  • rope_theta가 작으면, 시퀀스가 길어질수록 회전 각도가 빠르게 증가해, 일정길이를 넘어서면 모델이 학습하지 못한 극단적인 위치에서 임베딩 표현이 불안정해짐
  • 반면 rope_theta가 크면, 상대적으로 더 긴 시퀀스에서도 임베딩이 급격히 뒤틀리지 않고,학습범위를 넘어서는 위치에서도 어느정도 연속적으로 추론할 수 있음
  • 즉, rope_theta는 회전 각도를 결정짓는 파라미터로, 값이 클수록 같은 위치 차이에 대해 회전 각도 변화가 더 느려지며, 결과적으로 긴 시퀀스에서도 위치 간 거리가 급격히 변하지 않게 됨
  • rope_theta가 클수록 긴 문맥에 대한 일반화 성능이 좋아질 수 있음

generation_config.json

  • 텍스트 생성 (generation)과 관련된 하이퍼파라미터가 들어있음
  • e.g. temperature, top_k, top_p
  • model-00001-of-00002.safetensors
  • 실제 모델의 가중치 (Weights) 파일. 대용량 모델이므로 여러 개의 파트 (분할된 파일)로 저장되며, “.safetensors” 포맷은 보안과 속도 측면에서 개선된 방식

tokenizer.json

  • 토크나이저 관련 정보가 들어있는 파일
  • 텍스트를 토큰 단위로 분할(토큰화)할 것인지, 이를 숫자로 맵핑하는 과정을 담당

chat_template.json

  • 사용자와 모델 간의 대화를 구성할 때 사용할 프롬프트 템플릿이나 시스템 메시지 등의 형식을 정의해둔 파일
  • Instruct 모델 (대화형 모델)에서 프롬프트를 어떻게 구성할 지 보여주며, 실제 응답형식에 영향을 줌
  • 이러한 템플릿을 사용하지 않으면 성능이 떨어지는 현상이 발생될 수 있음

url : https://abit.ly/lisbva

댓글