본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

2. 학습 후기 700자 이상 (공백 제외)
인공지능에서 (지도)학습이란?
- 입력된 데이터를 가지고 모델의 가중치를 잘 업데이트하며, 손실값이 최소화되는 가중치를 찾는 과정
- 데이터 (입력) -> 모델 -> (정답데이터 - 최종출력) = Loss -> 모델튜닝 -> Loss -> 모델튜닝 반복
- Loss function은 대부분 MSE나 Cross entropy
- Loss 가정
- 전체 Loss는 샘플별 Loss의 합과 같다고 가정
- 각 샘플의 Loss를 계산할 때는 신경망의 최종 출력값과 입력값만을 사용하여 계산
- Gradient Descent
- 가중치 업데이트 : Loss가 작아지는 방향으로 가중치를 업데이트
- 학습종료 : 손실 함수의 값이 더 이상 줄어들지 않거나,미리 정해 둔 최대 반복 횟수에 도달했을때 학습이 종료
가중치 업데이트 방법
- 역전파 알고리즘을 사용
- 테일러 확장 (Taylor Expansion) : L(x)가 점 세타에서 충분히 미분가능 하다면 세타에서 다항함수로 표현 하는 것
L(θ + Δθ) ≈ L(θ) + ∇L · Δθ → approximation (테일러 확장)
- ∇L을 구하기 위해 역전파 알고리즘을 사용하여 계산함
L(θ + Δθ) - L(θ) = ΔL = ∇L · Δθ
- ∇L · Δθ가 항상 음수가 되려면, Δθ는 ∇L과 반대 방향(−∇L)이어야 함
→ 왜냐하면, 두 벡터가 반대 방향일 때 그 내적은 음수가 되기 때문
If Δθ = -∇L,
ΔL = ∇L · Δθ
= η∇L · (−∇L)
= −η||∇L||² < 0 (η > 0)
θ : 모델의 파라미터(매개변수)를 나타냄
Δθ : 파라미터 θ의 작은 변화(증분)를 나타냄
∇L : θ에서의 함수의 기울기 의미
ΔL : 함수의 값이 파라미터 변화에 따라 어떻게 변하는지를 나타내는 변화량
η : 가중치 업데이트 시 사용하는 학습률
인공지능에서 (지도)학습이란? - 정리
L(θ + Δθ) = L(θ) + ∇L · Δθ (1차 미분값) + L(θ + Δθ)의 θ에 대한 2차 미분값 + ...
L(θ + Δθ) ≈ L(θ) + ∇L · Δθ
L(θ + Δθ) - L(θ) = ∇L · Δθ = ΔL → ΔL < 0
If Δθ = -η ∇L,
ΔL = ∇L · Δθ = ∇L · (−∇L η) = −η||∇L||²
역전파와 테일러 확장의 결합으로 모델 학습의 원리를 이해할 수 있음
업데이트가 왜 손실 함수를 감소시키는지를 이론적으로 설명하는 배경 도구
- 역전파
- 신경망의 각 가중치에 대해 손실 함수의 기울기를 계산하는 도구
- 테일러 확장
- 역전파로 구한 기울기를 활용하여,가중치의 작은 변화가 손실 함수에 미치는 영향을 근사적으로 분석함
- 이를 통해 업데이트가 손실 함수를 감소시키는 방향으로 진행되는 이유를 이론적으로 설명함
- 미니배치와 확률적 추정
- 실제 학습에서는 전체 데이터를 사용하지 않고, 미니배치 단위로 GRAdient를 계산함
- 미니배치에서 계산된 Gradient는 전체 데이터셋의 정확한 gradient의 추정치 일뿐이며, 노이즈(variance)를 포함함. 이 노이즈 때문에 손실이 감소하기보다는 오히려 일시적으로 증가할 수있음
- 학습률의 영향
- 테일러 확장 기반의 근사는 Δθ가 매우 작을 때 유효
- 만약 학습률이 너무 크면, 한 번의 업데이트에서 파라미터가 너무 크게 이동하게 되고, 이로 인해 테일러 근사조건(즉, 작은변화 가정)이 깨지게 됨
- 모멘텀 영향
- 모멘텀은 경사 하강법에서 단순히 현재 기울기만 사용하는 대신, 이전 업데이트에서의 “관성”을 반영하여, 파라미터를 업데이트 하는 기법
- 모멘텀이 과도하게 작용하면, 이전 업데이트의 영향이 누적되어 한번의 업데이트에서 손실 함수의 최소점을 지나쳐 손실이 일시적으로 증가할 수 있음
- 비선형성과 복잡한 손실 표면
- 신경망의 손실함수는 일반적으로 매우 비선형적이며, 다수의 로컬 미니멈, 새들포인트, 혹은 평탄한 구간을 가짐
- 이런 복잡한 손실 표면에서는 이론적인 기울기 방향으로 이동하더라도, 실제로는 일시적으로 손실이 증가하는 상황이 발생할 수 있음
- 모델의 불안정성 및 추가적인 정규화 기법
- 드롭아웃이나 배치 정규화와 같은 정규화 기법을 사용할 경우, 학습 도중 손실 값이 불안정하게 변화 할 수 있음
- 이러한 기법들은 모델이 과적합되는 것을 방지하기 위해 일부러 손실의 변화 패턴에 변동을 줄 수 있음
url : https://abit.ly/lisbva
'스타트업 투자 > 데이터 + 테크' 카테고리의 다른 글
| 패스트캠퍼스 환급챌린지 32일차 : LoRA 튜닝 강의 후기 (0) | 2025.05.02 |
|---|---|
| 패스트캠퍼스 환급챌린지 31일차 : 사전학습과 파인튜닝 강의 후기 (1) | 2025.05.01 |
| 패스트캠퍼스 환급챌린지 29일차 : No Answer 데이터 생성하기 강의 후기 (0) | 2025.04.29 |
| 패스트캠퍼스 환급챌린지 28일차 : 다수의 문서를 인용하는 데이터 만들기 강의 후기 (1) | 2025.04.28 |
| 패스트캠퍼스 환급챌린지 27일차 : 명사구 질문 생성하기 강의 후기 (0) | 2025.04.27 |
댓글