▪️

실무에서 어떻게 LLM을 활용할 수 있을까 (세미나 정리)

배경

LLM을 현업에서 어떻게 도입할 수 있을까에 대한 궁금증이 있었는데, 관련하여 좋은 세미나가 있어서 내용을 정리했다. 25년 3월 기준으로 1만뷰정도인데, 이렇게 좋은 세미나가 더 널리 알려졌으면 하는 생각이다. 아래의 나온 그림은 발표자료 및 특정 논문을 발췌한 것이며, 텍스트는 해당 자료를 내 생각을 반영해 재편집했다. 세미나 영상을 통해 Domain・Task adapted Pre-training 개념에 대해 학습해보았고 (물론 LLM에 적용해보는건 현실적으로 어렵겠지만), 이 개념을 발전시켜 시간과 비용을 줄이려는 연구들을 지속적으로 살펴볼 예정이다.
[re:COMMIT] 명령어를 이해하는 오픈소스 언어 모델 ‘KoAlpaca’ 개발기 - 이준범 연구원 https://youtu.be/7HbugcCBXwE?feature=shared

세미나 정리

LLM이란
LM (주어진 텍스트 기반으로 다음 텍스트를 확률적으로 예측) → LLM (LM의 파라미터 개수 ↑)
LLM 장점
다양한 분야의 대량의 텍스트 학습 → 긴 텍스트의 맥락 이해 가능 파라미터 개수를 높일수록 맥락 이해 수준 ↑
In-Context Learning (ICL) → 학습없이 예제 입력으로도 높은 성능 (ex) 이 문장이 긍정/부정인지 분류해줘
LLM 활용의 현실적 이슈
인력 : LLM 개발자
데이터 : 충분한 데이터 보유여부
예산 : GPU 컴퓨팅
(출처) [re:COMMIT] 명령어를 이해하는 오픈소스 언어 모델 ‘KoAlpaca’ 개발기 - 이준범 연구원
LLM 활용방안
LLM 선택
1.
클로즈드 LLM - API 서비스 : GPT4o, Gemini 등
[장점] 고성능이며, 사용한 만큼의 비용 부과
[단점] 할당량 이슈, 서비스 유지가 의존적
2.
오픈소스 LLM : Llama - 100B 이내 파라미터
[장점] 어느정도의 성능, 특정 도메인 지식을 추가로 학습 가능
[단점] GPU서빙에 대한 고려
3.
(참고) 작은 PLM : BERT, GPT2 - 1B 이내 파라미터
[장점] 낮은 학습비용(GPU 서빙 가능)
[단점]
낮은 성능(* 특히 텍스트 생성에는 한계), LLM보다 성능이 좋을지 장담할 수 없음
Task별 파인튜닝 데이터 구축 비용, LLM 학습용 텍스트 구축(웹페이지에서 크롤링)보다 어려움
LLM 학습
1.
(학습없음) LLM API 응용 : 쉽게 LLM 활용 가능
입력 글자(토큰 수) 최적화 고려(* 토큰 개수마다 비용 부과)
LLM 파인튜닝 : 양질의 데이터를 기반으로 새로운(추가적인) 지식 입력 가능
2.
클로즈드 LLM API 활용 : 일부 파라미터만 학습되며(효율성↓), API에 종속
3.
오픈소스 LLM 활용 : 보안 및 법률문제 고려 가능
LLM 사전학습 : 매우 높은 학습 비용으로 일반 기업이 고려하기 어려움
Base부터 사전학습
Base 사전학습에 이어서 추가 데이터로 다시 사전학습(Domain・Task adapted Pre-training)
LM 선택 접근법 : 가성비 기준
학습 데이터 가성비
Task Dataset(소) < Domain Dataset(중) < Pretrain Dataset(대)
학습 비용 가성비
Pretrain : 몇억원 수준 (학습 비용 ↑)
Finetune : 몇만원 수준
서빙 비용 가성비
서빙 GPU
(출처) [re:COMMIT] 명령어를 이해하는 오픈소스 언어 모델 ‘KoAlpaca’ 개발기 - 이준범 연구원
서빙 응답수준
즉각적인 응답 : On-premise GPU
지연된 응답 : Serverless GPU (사용하지 않을 때는 거의 무과금)
배치성 응답 : 클라우드 Spot Instances