패스트캠퍼스 환급챌린지 30일차 : 인공지능에서의 학습이란 강의 후기

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

2. 학습 후기 700자 이상 (공백 제외)

인공지능에서 (지도)학습이란?

입력된 데이터를 가지고 모델의 가중치를 잘 업데이트하며, 손실값이 최소화되는 가중치를 찾는 과정
데이터 (입력) -> 모델 -> (정답데이터 - 최종출력) = Loss -> 모델튜닝 -> Loss -> 모델튜닝 반복
Loss function은 대부분 MSE나 Cross entropy
Loss 가정

전체 Loss는 샘플별 Loss의 합과 같다고 가정
각 샘플의 Loss를 계산할 때는 신경망의 최종 출력값과 입력값만을 사용하여 계산

Gradient Descent
- 가중치 업데이트 : Loss가 작아지는 방향으로 가중치를 업데이트
- 학습종료 : 손실 함수의 값이 더 이상 줄어들지 않거나,미리 정해 둔 최대 반복 횟수에 도달했을때 학습이 종료

가중치 업데이트 방법

역전파 알고리즘을 사용
테일러 확장 (Taylor Expansion) : L(x)가 점 세타에서 충분히 미분가능 하다면 세타에서 다항함수로 표현 하는 것

L(θ + Δθ) ≈ L(θ) + ∇L · Δθ → approximation (테일러 확장)

∇L을 구하기 위해 역전파 알고리즘을 사용하여 계산함

L(θ + Δθ) - L(θ) = ΔL = ∇L · Δθ

∇L · Δθ가 항상 음수가 되려면, Δθ는 ∇L과 반대 방향(−∇L)이어야 함
→ 왜냐하면, 두 벡터가 반대 방향일 때 그 내적은 음수가 되기 때문

If Δθ = -∇L,
ΔL = ∇L · Δθ
= η∇L · (−∇L)
= −η||∇L||² < 0 (η > 0)

θ : 모델의 파라미터(매개변수)를 나타냄
Δθ : 파라미터 θ의 작은 변화(증분)를 나타냄
∇L : θ에서의 함수의 기울기 의미
ΔL : 함수의 값이 파라미터 변화에 따라 어떻게 변하는지를 나타내는 변화량
η : 가중치 업데이트 시 사용하는 학습률

인공지능에서 (지도)학습이란? - 정리

L(θ + Δθ) = L(θ) + ∇L · Δθ (1차 미분값) + L(θ + Δθ)의 θ에 대한 2차 미분값 + ...
L(θ + Δθ) ≈ L(θ) + ∇L · Δθ
L(θ + Δθ) - L(θ) = ∇L · Δθ = ΔL → ΔL < 0
If Δθ = -η ∇L,
ΔL = ∇L · Δθ = ∇L · (−∇L η) = −η||∇L||²
역전파와 테일러 확장의 결합으로 모델 학습의 원리를 이해할 수 있음
업데이트가 왜 손실 함수를 감소시키는지를 이론적으로 설명하는 배경 도구

역전파
- 신경망의 각 가중치에 대해 손실 함수의 기울기를 계산하는 도구
테일러 확장
- 역전파로 구한 기울기를 활용하여,가중치의 작은 변화가 손실 함수에 미치는 영향을 근사적으로 분석함
- 이를 통해 업데이트가 손실 함수를 감소시키는 방향으로 진행되는 이유를 이론적으로 설명함

미니배치와 확률적 추정

실제 학습에서는 전체 데이터를 사용하지 않고, 미니배치 단위로 GRAdient를 계산함
미니배치에서 계산된 Gradient는 전체 데이터셋의 정확한 gradient의 추정치 일뿐이며, 노이즈(variance)를 포함함. 이 노이즈 때문에 손실이 감소하기보다는 오히려 일시적으로 증가할 수있음

학습률의 영향

테일러 확장 기반의 근사는 Δθ가 매우 작을 때 유효
만약 학습률이 너무 크면, 한 번의 업데이트에서 파라미터가 너무 크게 이동하게 되고, 이로 인해 테일러 근사조건(즉, 작은변화 가정)이 깨지게 됨

모멘텀 영향

모멘텀은 경사 하강법에서 단순히 현재 기울기만 사용하는 대신, 이전 업데이트에서의 “관성”을 반영하여, 파라미터를 업데이트 하는 기법
모멘텀이 과도하게 작용하면, 이전 업데이트의 영향이 누적되어 한번의 업데이트에서 손실 함수의 최소점을 지나쳐 손실이 일시적으로 증가할 수 있음

비선형성과 복잡한 손실 표면

신경망의 손실함수는 일반적으로 매우 비선형적이며, 다수의 로컬 미니멈, 새들포인트, 혹은 평탄한 구간을 가짐
이런 복잡한 손실 표면에서는 이론적인 기울기 방향으로 이동하더라도, 실제로는 일시적으로 손실이 증가하는 상황이 발생할 수 있음

모델의 불안정성 및 추가적인 정규화 기법

드롭아웃이나 배치 정규화와 같은 정규화 기법을 사용할 경우, 학습 도중 손실 값이 불안정하게 변화 할 수 있음
이러한 기법들은 모델이 과적합되는 것을 방지하기 위해 일부러 손실의 변화 패턴에 변동을 줄 수 있음

url : https://abit.ly/lisbva

저작자표시 동일조건 (새창열림)

'스타트업 투자 > 데이터 + 테크' 카테고리의 다른 글

패스트캠퍼스 환급챌린지 32일차 : LoRA 튜닝 강의 후기 (0)	2025.05.02
패스트캠퍼스 환급챌린지 31일차 : 사전학습과 파인튜닝 강의 후기 (1)	2025.05.01
패스트캠퍼스 환급챌린지 29일차 : No Answer 데이터 생성하기 강의 후기 (0)	2025.04.29
패스트캠퍼스 환급챌린지 28일차 : 다수의 문서를 인용하는 데이터 만들기 강의 후기 (1)	2025.04.28
패스트캠퍼스 환급챌린지 27일차 : 명사구 질문 생성하기 강의 후기 (0)	2025.04.27

Inderight Investments

패스트캠퍼스 환급챌린지 30일차 : 인공지능에서의 학습이란 강의 후기

'스타트업 투자 > 데이터 + 테크' 카테고리의 다른 글

댓글

티스토리툴바

패스트캠퍼스 환급챌린지 30일차 : 인공지능에서의 학습이란 강의 후기

'스타트업 투자 > 데이터 + 테크' 카테고리의 다른 글

관련글

댓글

티스토리툴바