AI연구회
경남ICT협회 AI 연구 모임
아래는 인터넷에서 LLM 미세 조정에 대한 자료를 퍼온 내용입니다. 작성자는 룩셈부르크
옌리 리우 라는 분으로 금융 실무자입니다.
-----------------------
Chat GPT와 같은 대규모 언어 모델(LLM)을 통해 기계는 이전에는 불가능했던 방식으로 인간과 상호 작용할 수 있습니다.
오픈 소스 대규모 언어 모델의 민주화 덕분에 데이터 프라이버시를 보호하고 도메인별 작업을 처리하기 위해 사전 훈련된 LLM 모델을 미세 조정하는 데 대한 관심이 높아지고 있습니다.
우리는 모델 미세 조정과 상황 내 학습의 적용에 대해 논의하는 수많은 게시물을 찾을 수 있습니다 (저는 각각 별개의 기술을 탐구하는 세 개의 기사를 직접😂 작성했습니다).
그러나 기본을 파악하는 것이 중요합니다. 언제 미세 조정을 선택해야 하며, 상황에 맞는 학습이 더 나은 선택은 언제입니까? 프로세스를 어떻게 시작하고 이러한 방법이 더 큰 그림에 어떻게 부합합니까? 쉽게 구현할 수 있는 기술은 무엇입니까?
이 게시물에서는 사전 학습된 모델의 미세 조정 프로세스를 살펴보고, 다양한 미세 조정 방법을 살펴보고, 최신 기술을 비교합니다.
Dall-E 3에서 제공하는 Bingchat을 사용하여 작성자가 생성한 이미지
미세 조정은 범용 모델을 특수 모델로 변환하는 열쇠입니다. 예를 들어, GPT-3가 널리 알려진 ChatGPT로 진화하여 챗봇처럼 행동할 수 있게 된 것입니다.
아래에서는 자체 언어 모델(LLM)을 미세 조정해야 하는 9가지 이유에 대한 개요를 확인할 수 있습니다.
간결하게 유지하기 위해 네 가지 뚜렷한 장점으로 요약해 보겠습니다.
자신만의 LLM을 훈련해야 하는 9가지 이유. 근원
특정 작업에 맞게 대규모 언어 모델을 조정하는 몇 가지 미세 조정 방법이 있습니다.
미세 조정 프로젝트 실행은 여러 주기의 데이터 준비, 교육 및 평가를 포함하는 반복적인 프로세스입니다.
미세 조정 프로젝트의 Iteratvie 프로세스. 근원
학습 및 평가 단계는 각 반복에 대해 유사한 패턴을 따르는 경우가 많지만, 진정한 차이를 만들 수 있는 것은 데이터 준비 단계입니다.
모델을 효과적으로 미세 조정하기 위한 모범 사례에는 고품질의 다양한 실제 데이터를 사용하는 것이 포함됩니다. "Less is More for Alignment" 연구에 따르면 고품질의 소량(~1000개 샘플) 데이터 세트를 만드는 것만으로도 성능이 좋은 모델을 얻을 수 있습니다.
데이터 세트를 만들 때 가장 좋은 방법. 근원
다음을 포함하여 명령 데이터 세트를 만드는 방법에는 여러 가지가 있습니다.
다음은 각 방법을 비교한 것이므로 프로젝트의 고유한 요구 사항과 용이성, 비용, 시간 및 데이터 품질 간의 절충에 따라 올바른 방법을 선택할 수 있습니다.
데이터 세트 생성 방법의 비교. 작성자의 이미지.
또 다른 조언은 미세 조정을 시작할 때 범위를 좁히고 모델을 향상시키기 위한 단일 작업을 선택하는 것입니다. 예를 들어, 코딩, 텍스트 요약, 정보 추출, 텍스트 생성 또는 질문에 대한 답변을 위해 모델을 미세 조정할 수 있습니다.
작업이 명확해지면 해당 작업에 대해 ~ 1000개의 입력 및 출력 쌍으로 구성된 명령 데이터 세트를 준비합니다. 이 데이터로 작은 LLM을 미세 조정하여 데이터 세트를 테스트하고 검증합니다. 이렇게 하면 영향을 이해하는 데 도움이 되며 무료 Google Colab 인스턴스에서 프로세스를 쉽고 빠르게 실행할 수 있습니다.
더 작은 LLM을 미세 조정한 결과가 만족스러우면 자신 있게 확장할 수 있습니다. 작업의 범위와 복잡성에 맞게 더 크고 강력한 언어 모델을 미세 조정하세요.
가장 일반적인 질문 중 하나는 미세 조정을 사용하는 것이 적절한 경우와 모델 사용자 지정에 대한 다른 접근 방식(예: 검색 증강 세대 RAG)에 대한 것입니다.
제 개인적인 생각은 프로토타입을 빠르게 제작해야 할 때나 LLM의 작업 능력을 향상시킬 필요 없이 LLM이 데이터에 대한 질문에 답하기를 원할 때 RAG를 선택하는 것입니다. 또한 RAG는 데이터가 컨텍스트 창 내에 들어갈 수 있는 경우에 적합합니다.
그러나 도메인별 작업에 대한 LLM의 기능을 향상시키는 것이 목표인 경우, 특히 재무, 법률 등과 같은 특정 용어가 데이터에 고유한 경우 RAG가 최선의 선택이 아닐 수 있습니다. 이러한 경우 미세 조정 접근 방식이 더 적합합니다. 모델을 더 잘 제어할 수 있으며 컨텍스트 창의 제한을 초과하는 상당한 데이터 모음으로 모델을 추가로 학습할 수 있습니다.
주요 장단점을 다음 표에 요약했습니다.
명령: 미세 조정 vs. 검색 증강 생성. 작성자의 이미지.
명령 미세 조정은 적절한 양의 맞춤형 데이터 세트를 사용하여 도메인별 작업으로 사전 학습된 모델을 추가로 훈련하는 프로세스입니다.
프로:
죄수:
In-Context Learning 또는 Few Shot Learning은 프롬프트에 작업별 예제를 포함하는 프로세스입니다.
RAG(Retrieval Augmented Generation)는 일종의 컨텍스트 내 학습입니다. 이 기법은 외부 데이터베이스에서 최신 데이터 또는 컨텍스트별 데이터를 가져와 원래 입력 프롬프트와 함께 컨텍스트로 LLM에 전달합니다. 이 기술을 쉽게 구현하여 데이터와 채팅하는 방법에 대한 구체적인 예는 이전 기사를 참조하십시오.
커스텀 LLM 미세 조정에 대한 실용적인 가이드 시리즈에서 다음 3가지 기법을 살펴보았습니다.
실습 방식을 선호하고 코드 및 구현 예시를 살펴보려면 Google Colab 노트북이 포함된 해당 문서를 확인하세요.
이제 이 세 가지 접근 방식을 비교해 보겠습니다. 학생, 데이터 과학 전문가 또는 데이터 기술 분야로 전환하는 사람 등 귀하의 요구에 가장 적합한 교육 기술을 찾을 수 있을 것이라고 확신합니다.
미세 조정 기술의 비교. 작성자의 이미지.
이 블로그에서는 대규모 언어 모델(LLM)을 미세 조정하는 세계와 이와 관련된 방법론을 살펴보았습니다. 또한 다양한 미세 조정 방법과 훈련 기술에 대해서도 논의했습니다.여기서는 RLHF(Reinforcement Learning from Human Feedback) 및 평가 기법을 다루지 않았습니다. 실제로 이것들은 중요하고 복잡한 주제이며 구체적인 예를 통해 포괄적으로 탐색하고 설명할 전용 기사를 작성할 가치가 있습니다.
기업 홍보를 위한 확실한 방법협회 홈페이지에 회사정보를 보강해 보세요.