본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장
② 오늘자 날짜, 공부 종료 시각 포함 사진 1장
③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장
④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)
2. 학습 후기 700자 이상 (공백 제외)
멀티모달 - Qwen2-VL
config.json
- 모델 구조 (레이어 수, 어텐션 헤드 수 등)나 하이퍼파라미터 설정이 들어있음
- max_position_embeddings: 32,768 (32k)
- 모델이 처리할 수 있는 최대 토큰 시퀀스 길이를 결정
- 예를들어, 텍스트 입력이 이 값을 초과하면 토큰이 잘리거나 오류가 발생할 수 있으므로, 긴 텍스트를 다루는 모델에서 매우 중요한 설정
- 예) 입력길이 : 32668, 출력길이 : 100 -> 생성이되다가 문장이 짤릴 수 있음
hidden_size: 1536
- 각 transformer 레이어의 히든 벡터 차원을 의미
- 모델의 용량과 파라미터 수와 직결되므로, 메모리 사용량과 성능에 큰 영향을 미침
- 7B모델의 경우, hiden_size가 3584
rope_theta : 1000000
- RoPE 관련 스케일링 파라미터, 긴 시퀀스에 대해 상대적 위치정보를 어떻게 반영할지 결정
- rope_theta가 작으면, 시퀀스가 길어질수록 회전 각도가 빠르게 증가해, 일정길이를 넘어서면 모델이 학습하지 못한 극단적인 위치에서 임베딩 표현이 불안정해짐
- 반면 rope_theta가 크면, 상대적으로 더 긴 시퀀스에서도 임베딩이 급격히 뒤틀리지 않고,학습범위를 넘어서는 위치에서도 어느정도 연속적으로 추론할 수 있음
- 즉, rope_theta는 회전 각도를 결정짓는 파라미터로, 값이 클수록 같은 위치 차이에 대해 회전 각도 변화가 더 느려지며, 결과적으로 긴 시퀀스에서도 위치 간 거리가 급격히 변하지 않게 됨
- rope_theta가 클수록 긴 문맥에 대한 일반화 성능이 좋아질 수 있음
generation_config.json
- 텍스트 생성 (generation)과 관련된 하이퍼파라미터가 들어있음
- e.g. temperature, top_k, top_p
- model-00001-of-00002.safetensors
- 실제 모델의 가중치 (Weights) 파일. 대용량 모델이므로 여러 개의 파트 (분할된 파일)로 저장되며, “.safetensors” 포맷은 보안과 속도 측면에서 개선된 방식
tokenizer.json
- 토크나이저 관련 정보가 들어있는 파일
- 텍스트를 토큰 단위로 분할(토큰화)할 것인지, 이를 숫자로 맵핑하는 과정을 담당
chat_template.json
- 사용자와 모델 간의 대화를 구성할 때 사용할 프롬프트 템플릿이나 시스템 메시지 등의 형식을 정의해둔 파일
- Instruct 모델 (대화형 모델)에서 프롬프트를 어떻게 구성할 지 보여주며, 실제 응답형식에 영향을 줌
- 이러한 템플릿을 사용하지 않으면 성능이 떨어지는 현상이 발생될 수 있음
url : https://abit.ly/lisbva
'스타트업 투자 > 데이터 + 테크' 카테고리의 다른 글
패스트캠퍼스 환급챌린지 47일차 : 멀티모달 강의 후기 (0) | 2025.05.17 |
---|---|
패스트캠퍼스 환급챌린지 46일차 : LLM 정량 평가 강의 후기 (0) | 2025.05.16 |
패스트캠퍼스 환급챌린지 45일차 : RAG 파인튜닝 강의 후기 (0) | 2025.05.15 |
패스트캠퍼스 환급챌린지 44일차 : 모델 호출 강의 후기 (0) | 2025.05.14 |
패스트캠퍼스 환급챌린지 43일차 : 허깅페이스 TRL 파인튜닝 강의 후기 (0) | 2025.05.13 |
댓글