본문 바로가기

스타트업 투자/데이터 + 테크

패스트캠퍼스 환급챌린지 18일차 : 데이터 탐색과 프롬프트 엔지니어링

by Sungwook Choi 2025. 4. 18.

본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.

*_1. 학습 인증샷 4장 이상 포함
*_① 오늘자 날짜, 공부 시작 시각 포함 사진 1장

② 오늘자 날짜, 공부 종료 시각 포함 사진 1장

③ 1개 클립 수강 인증 사진 (강의장 목록 캡쳐, 강의 내용이 담긴 수강화면이 보이지 않도록) 1장

④ 학습 인증샷 1장 이상 (ex. 필기 촬영, 작업물, 등)

2. 학습 후기 700자 이상 (공백 제외)

합성 데이터

  • 합성 데이터란 생성형 AI 기술을 이용하여 만든 인간이 생성하지 않은 데이터
  • 텍스트 데이터의 경우에는 일반적으로 거대 언어 모델을 사용하여 만드는 경우가 많음
  • GPT-4o나 Claude와 같이 고성능이지만, API로만 사용 가능한 모델을 이용
  • 대량의 합성 데이터를 생성하고, 그 데이터로 작은 모델들을 ‘파인튜닝’
  • 파인튜닝해서 우리가 관심있는 문제에 특화된 모델로서 사용할 수 있음

GPT-4o API

  • 파이썬을 이용하여 GPT-4o 호출가능
    • 파이썬 반복문으로 반복작업을 자동화 할 수 있음
  • 이미지를 인식하는 멀티모달 작업도 가능
  • System프롬프트
    • AI가 답변 시 지켜야 할 수칙이나 몰입할 역할
  • User 프롬프트
    • 현재 작성하고 싶은 질문이나 요청

합성 데이터 파이썬 함수 호출 예시 (e.g. 키워드 추출)

  • GPT-4o의 system 프롬프트에 만들어야 하는 데이터의 조건을 적음. 예시를 쓰면 좋음
  • GPT-4o의 user 프롬프트에 ‘입력 데이터’가 들어가면 됨

문제 해결 사례 #1
문제

  • 설비기사가 작성한 수만건의 ‘고장 내용’이 비정형으로 있음
  • ‘고장부품’, ‘불량 유형’, ‘조치 내용’을 적절하게 분류해야함
  • 실시간 자동화 해야함
  • 공장에는 인터넷이 안되고, GPU가 존재하지 않음
    • 인터넷이 없고, GPU가 없으면 실시간 자동화도 힘들고, GPT-4 API나 LLM튜닝도 어려워 보임

해결책

  • 데이터를 오프라인으로 3000건정도 반출
  • ‘고장부품’, ‘불량 유형’, ‘조치 내용’을 처음 두 row 정도만 직접 작성
  • GPT-4에게 파이썬 dictionary 형태로 작성하게 for문으로 반복 호출해서 시킴
  • dictionary 값 파싱해서 dataframe으로 붙임
  • dataframe을 비교적 작은 생성모델 T5 (250M)에 Colab에서 학습시킴
    • 코랩에서 하면 학습 비용마저 무료
  • 학습 데이터 3000건, 테스트 데이터 1000건으로 검증

문제 해결 사례 #2
문제

  • 기업의 뉴스나 사업보고서를 보고 ESG점수를 자동으로 계산하는 LLM
  • ESG에 각 항목에 대해서 1~5점 사이의 점수를 주어야함.
  • 데이터는 없음

해결책

  • LLM을 사용할 예정이므로, 파인튜닝을 진행해야하고 학습데이터를 만들어야 함
  • GPT-4o로 바로 데이터 넣고 점수 내달라고도 할 수 있지만, 그러면 안됨
  • 프롬프트에 작성할 점수 기준은 사람이 직접 작성해야함
  • GPT-4o에게 기준을 줘서, 우리의 기준으로 객관적으로 점수를 측정할 수 있도록 할 것
  • 프롬프트에 전문가 개입해서 1~5점 기준을 작성함
  • 프롬프트에 답변 작성 시 ‘근거’를 작성하고, ESG점수를 작성하도록 답변형식을 강제함
    • COT (chain of thought)효과 노림
  • GPT-4o답변으로 파인튜닝한 LLaMA-3 8B
  • GPT-4o와 거의 비슷하게 답함 -> 모델을 싸게 만들 수 있음

url : https://abit.ly/lisbva

댓글