패스트캠퍼스 환급챌린지 36일차 : vLLM을 활용한 Multi-LoRA Serving 강의 후기

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

2. 학습 후기 700자 이상 (공백 제외)

LoRA의 Merge

LoRA (Low-Rank Adaptation) 튜닝 후에는 어댑터 (추가 학습한 행렬)을 결합(Merge)해야 함
목적 : 학습된 LoRA 어댑터 가중치 (행렬 AxB)를 기본 모델 가중치 (W)에 통합해야만 기존 모델과 달라짐

vLLM의 멀티 로라 서빙

vLLM
- 대규모 언어 모델을 위한 고성능 분산 추론 및 서빙 엔진
- Paged Attention 및 연속 배치 처리로 최적화된 성능 제공
멀티 로라 서빙
- 단일 기본 모델에 여러 어댑터를 동시에 로드
- 요청별로 다른 어댑터 적용 가능
- 동적 어댑터 로딩 및 언로딩 지원
- GPU 메모리 최적화로 다수의 어댑터 효율적 관리

vLLM의 멀티 로라 서빙의 리소스 효율

멀티 로라 서빙이 왜 좋을까? 거대 언어 모델이 1개 있다고 가정
풀 파인 튜닝 : 모델 전체를 학습하여 기존 모델과는 완전히 다른 모델
- -> 학습된 거대 언어 모델 1개
로라 학습 후 병합 : 기존 거대 언어 모델을 학습하지는 않았지만, 학습된 추가 어댑터가 붙어있어 사실상 다른 모델처럼 동작함. 따라서, 특정 문제에 학습한 하나의 모델로서 동작
- -> 학습된 거대 언어 모델 1개
멀티 로라 서빙 : 기존 하나의 거대 언어 모델에 여러 개의 어댑터를 빠르게 교환하면서 호출하여, 각 문제에 맞는 거대언어 모델을 다수 보유한 효과를 낼 수 있음. 리소스 효율성이 매우 좋음
- -> 거대언어모델은 1개지만 마치 N개 효과
메모리 사용량 : 단일 기본 모델 + 작은 어뎁터들
스토리지 효율 : 기본 모델 1개 + 어댑터 N개
배포 비용 절감 : 적은 인프라로 다양한 특화 모델 서빙 가능
학습 파라미터 측면의 효율성 : 수백만 개의 어댑터 파라미터 vs. 수식업 개의 전체 모델 파라미터
빠른 태스크 전환 : 어댑터만 교체하여 다른 특화 기능 활성화
동적 서비스 확장 : 새로운 어댑터 추가로 기능 확장 용이
A/B테스트 용이 : 다양한 어댑터 간 성능 비교 쉽게 수행
동시 다중 작업 처리 : 하나의 거대 언어 모델에서 여러 특화 작업 병렬 수행 가능
빠른 개발 주기 : 새로운 기능은 어댑터만 학습하면 됨
배포 간소화 : 기본 모델은 그대로 유지, 어댑터만 업데이트
버전 관리 용이 : 어댑터 단위로 변경 사항 추적 가능
원본 지식 보존 : 기본 모델의 사전 학습된 지식 보존하면서 특화 기능 추가
태스크별 특화 서비스 : 수학, 법류, 의료 등 다양한 분야별 어댑터로 단일 인프라에서 서비스
다국어 지원 : 언어별 어댑터로 다국어 지원 (한국어, 영어, 일본어 등)

url : https://abit.ly/lisbva

저작자표시 동일조건 (새창열림)

'스타트업 투자 > 데이터 + 테크' 카테고리의 다른 글

패스트캠퍼스 환급챌린지 38일차 : 파인 튜닝 강의 후기 (0)	2025.05.08
패스트캠퍼스 환급챌린지 37일차 : 요약 데이터 전처리 강의 후기 (0)	2025.05.07
패스트캠퍼스 환급챌린지 35일차 : 페이지드 어텐션과 vLLM 강의 후기 (1)	2025.05.05
패스트캠퍼스 환급챌린지 34일차 : SFT와 DPO 강의 후기 (0)	2025.05.04
패스트캠퍼스 환급챌린지 33일차 : 양자화와 QLoRA 튜닝 강의 후기 (0)	2025.05.03

Inderight Investments

패스트캠퍼스 환급챌린지 36일차 : vLLM을 활용한 Multi-LoRA Serving 강의 후기

'스타트업 투자 > 데이터 + 테크' 카테고리의 다른 글

댓글

티스토리툴바

패스트캠퍼스 환급챌린지 36일차 : vLLM을 활용한 Multi-LoRA Serving 강의 후기

'스타트업 투자 > 데이터 + 테크' 카테고리의 다른 글

관련글

댓글

티스토리툴바