▪️

실무에서 어떻게 LLM을 활용할 수 있을까 (세미나 정리)

배경

LLM을 현업에서 어떻게 도입할 수 있을까에 대한 궁금증이 있었는데, 관련하여 좋은 세미나가 있어서 내용을 정리했다. 25년 3월 기준으로 1만뷰정도인데, 이렇게 좋은 세미나가 더 널리 알려졌으면 하는 생각이다. 아래의 나온 그림은 발표자료 및 특정 논문을 발췌한 것이며, 텍스트는 해당 자료를 내 생각을 반영해 재편집했다. 세미나 영상을 통해 Domain・Task adapted Pre-training 개념에 대해 학습해보았고 (물론 LLM에 적용해보는건 현실적으로 어렵겠지만), 이 개념을 발전시켜 시간과 비용을 줄이려는 연구들을 지속적으로 살펴볼 예정이다.

•

[re:COMMIT] 명령어를 이해하는 오픈소스 언어 모델 ‘KoAlpaca’ 개발기 - 이준범 연구원
https://youtu.be/7HbugcCBXwE?feature=shared

세미나 정리

•

LLM이란

◦

LM (주어진 텍스트 기반으로 다음 텍스트를 확률적으로 예측) →  LLM (LM의 파라미터 개수 ↑)

•

LLM 장점

◦

다양한 분야의 대량의 텍스트 학습 → 긴 텍스트의 맥락 이해 가능
파라미터 개수를 높일수록 맥락 이해 수준 ↑

◦

In-Context Learning (ICL) → 학습없이 예제 입력으로도 높은 성능 
(ex) 이 문장이 긍정/부정인지 분류해줘 

•

LLM 활용의 현실적 이슈

◦

인력 : LLM 개발자

◦

데이터 : 충분한 데이터 보유여부

◦

예산 : GPU 컴퓨팅

(출처) [re:COMMIT] 명령어를 이해하는 오픈소스 언어 모델 ‘KoAlpaca’ 개발기 - 이준범 연구원

•

LLM 활용방안

◦

LLM 선택

클로즈드 LLM - API 서비스 : GPT4o, Gemini 등 

•

[장점] 고성능이며, 사용한 만큼의 비용 부과

•

[단점] 할당량 이슈, 서비스 유지가 의존적

오픈소스 LLM : Llama - 100B 이내 파라미터 

•

[장점] 어느정도의 성능, 특정 도메인 지식을 추가로 학습 가능

•

[단점] GPU서빙에 대한 고려

(참고) 작은 PLM : BERT, GPT2 - 1B 이내 파라미터

•

[장점] 낮은 학습비용(GPU 서빙 가능)

•

[단점] 

◦

낮은 성능(* 특히 텍스트 생성에는 한계),
LLM보다 성능이 좋을지 장담할 수 없음

◦

Task별 파인튜닝 데이터 구축 비용,
LLM 학습용 텍스트 구축(웹페이지에서 크롤링)보다 어려움

◦

LLM 학습

(학습없음) LLM API 응용 : 쉽게 LLM 활용 가능

•

입력 글자(토큰 수) 최적화 고려(* 토큰 개수마다 비용 부과)

▪

LLM 파인튜닝 : 양질의 데이터를 기반으로 새로운(추가적인) 지식 입력 가능

클로즈드 LLM API 활용 : 일부 파라미터만 학습되며(효율성↓), API에 종속

오픈소스 LLM 활용 : 보안 및 법률문제 고려 가능 

▪

LLM 사전학습 : 매우 높은 학습 비용으로 일반 기업이 고려하기 어려움

•

Base부터 사전학습 

•

Base 사전학습에 이어서 추가 데이터로 다시 사전학습(Domain・Task adapted Pre-training)

•

LM 선택 접근법 : 가성비 기준

◦

학습 데이터 가성비

▪

Task Dataset(소) < Domain Dataset(중) < Pretrain Dataset(대)

◦

학습 비용 가성비

▪

Pretrain : 몇억원 수준 (학습 비용 ↑) 

▪

Finetune : 몇만원 수준

◦

서빙 비용 가성비

▪

서빙 GPU

(출처) [re:COMMIT] 명령어를 이해하는 오픈소스 언어 모델 ‘KoAlpaca’ 개발기 - 이준범 연구원

▪

서빙 응답수준

•

즉각적인 응답 : On-premise GPU

•

지연된 응답 : Serverless GPU (사용하지 않을 때는 거의 무과금)

•

배치성 응답 : 클라우드 Spot Instances