본문 바로가기

스타트업 투자/데이터 + 테크

패스트캠퍼스 환급챌린지 36일차 : vLLM을 활용한 Multi-LoRA Serving 강의 후기

by Sungwook Choi 2025. 5. 6.

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

2. 학습 후기 700자 이상 (공백 제외)

LoRA의 Merge

  • LoRA (Low-Rank Adaptation) 튜닝 후에는 어댑터 (추가 학습한 행렬)을 결합(Merge)해야 함
  • 목적 : 학습된 LoRA 어댑터 가중치 (행렬 AxB)를 기본 모델 가중치 (W)에 통합해야만 기존 모델과 달라짐

vLLM의 멀티 로라 서빙

  • vLLM
    • 대규모 언어 모델을 위한 고성능 분산 추론 및 서빙 엔진
    • Paged Attention 및 연속 배치 처리로 최적화된 성능 제공
  • 멀티 로라 서빙
    • 단일 기본 모델에 여러 어댑터를 동시에 로드
    • 요청별로 다른 어댑터 적용 가능
    • 동적 어댑터 로딩 및 언로딩 지원
    • GPU 메모리 최적화로 다수의 어댑터 효율적 관리

vLLM의 멀티 로라 서빙의 리소스 효율

  • 멀티 로라 서빙이 왜 좋을까? 거대 언어 모델이 1개 있다고 가정
  • 풀 파인 튜닝 : 모델 전체를 학습하여 기존 모델과는 완전히 다른 모델
    • -> 학습된 거대 언어 모델 1개
  • 로라 학습 후 병합 : 기존 거대 언어 모델을 학습하지는 않았지만, 학습된 추가 어댑터가 붙어있어 사실상 다른 모델처럼 동작함. 따라서, 특정 문제에 학습한 하나의 모델로서 동작
    • -> 학습된 거대 언어 모델 1개
  • 멀티 로라 서빙 : 기존 하나의 거대 언어 모델에 여러 개의 어댑터를 빠르게 교환하면서 호출하여, 각 문제에 맞는 거대언어 모델을 다수 보유한 효과를 낼 수 있음. 리소스 효율성이 매우 좋음
    • -> 거대언어모델은 1개지만 마치 N개 효과
  • 메모리 사용량 : 단일 기본 모델 + 작은 어뎁터들
  • 스토리지 효율 : 기본 모델 1개 + 어댑터 N개
  • 배포 비용 절감 : 적은 인프라로 다양한 특화 모델 서빙 가능
  • 학습 파라미터 측면의 효율성 : 수백만 개의 어댑터 파라미터 vs. 수식업 개의 전체 모델 파라미터
  • 빠른 태스크 전환 : 어댑터만 교체하여 다른 특화 기능 활성화
  • 동적 서비스 확장 : 새로운 어댑터 추가로 기능 확장 용이
  • A/B테스트 용이 : 다양한 어댑터 간 성능 비교 쉽게 수행
  • 동시 다중 작업 처리 : 하나의 거대 언어 모델에서 여러 특화 작업 병렬 수행 가능
  • 빠른 개발 주기 : 새로운 기능은 어댑터만 학습하면 됨
  • 배포 간소화 : 기본 모델은 그대로 유지, 어댑터만 업데이트
  • 버전 관리 용이 : 어댑터 단위로 변경 사항 추적 가능
  • 원본 지식 보존 : 기본 모델의 사전 학습된 지식 보존하면서 특화 기능 추가
  • 태스크별 특화 서비스 : 수학, 법류, 의료 등 다양한 분야별 어댑터로 단일 인프라에서 서비스
  • 다국어 지원 : 언어별 어댑터로 다국어 지원 (한국어, 영어, 일본어 등)

url : https://abit.ly/lisbva

댓글