자료실

PaliGemma, Gemma 2 및 업그레이드된 책임 있는 AI 툴킷 소개

박종영 전문위원(AI연구회 회장) / 데이터링크 주식회사

2024년 6월 28일 · 1,758 ·

Google에서는 혁신을 주도하는 공동 작업과 공개 연구의 힘을 믿으며, 출시 후 몇 달 만에 수 백만 건의 다운로드를 기록하며 커뮤니티에서 Gemma를 받아들인 것을 보게 되어 감사하게 생각합니다.

개발자들이 인도어의 다국어 변형인 Navarasa 에서 온 디바이스 액션 모델인 Octopus v2 에 이르기까지 다양한 프로젝트를 만들었기 때문에 이러한 열광적인 반응은 믿을 수 없을 정도로 고무적이었습니다. AI 솔루션.

이러한 탐구와 창의성의 정신은 강력한 코드 완성 및 생성 기능을 갖춘 Code Gemma 와 효율적인 추론 및 연구 가능성을 제공하는 Recurrent Gemma 개발을 촉진했습니다 .

Gemma는 Gemini 모델을 만드는 데 사용된 것과 동일한 연구 및 기술을 바탕으로 제작된 경량의 최첨단 개방형 모델 제품군입니다. 오늘 우리는 강력한 개방형 VLM(비전 언어 모델)인 PaliGemma를 도입하고 Gemma 2 발표를 통해 가까운 미래를 미리 엿보며 Gemma 제품군을 더욱 확장하게 되어 기쁘게 생각합니다. Responsible Generative AI Toolkit 업데이트를 통해 책임 있는 AI에 대한 우리의 약속은 개발자에게 모델 안전성을 평가하고 유해한 콘텐츠를 필터링하기 위한 새롭고 향상된 도구를 제공합니다.

PaliGemma 소개: 개방형 비전 언어 모델

PaliGemma는 PaLI-3 에서 영감을 받은 강력한 개방형 VLM입니다 . SigLIP 비전 모델 및 Gemma 언어 모델을 포함한 개방형 구성 요소를 기반으로 구축된 PaliGemma는 광범위한 비전 언어 작업에서 동급 최고의 미세 조정 성능을 제공하도록 설계되었습니다. 여기에는 이미지 및 짧은 비디오 캡션, 시각적 질문 답변, 이미지의 텍스트 이해, 객체 감지 및 객체 분할이 포함됩니다.

우리는 다양한 해상도에서 사전 훈련되고 미세 조정된 체크포인트뿐만 아니라 즉각적인 탐색을 위해 혼합 작업에 특별히 조정된 체크포인트도 제공하고 있습니다.

개방형 탐색과 연구를 용이하게 하기 위해 PaliGemma는 다양한 플랫폼과 리소스를 통해 제공됩니다. Kaggle 및 Colab 노트북과 같은 무료 옵션으로 오늘 탐색을 시작하세요. 시각 언어 연구의 경계를 넓히려는 학술 연구자도 Google Cloud 크레딧을 신청하여 작업을 지원할 수 있습니다.

오늘 PaliGemma를 시작하세요. PaliGemma는 GitHub, Hugging Face models , Kaggle, Vertex AI Model Garden , ai.nvidia.com (TensoRT-LLM으로 가속화됨) 에서 찾을 수 있으며 , JAX와 Hugging Face Transformers를 통한 간편한 통합이 가능합니다. (Keras 통합은 곧 제공될 예정입니다.) 이 Hugging Face Space를 통해 모델과 상호 작용할 수도 있습니다 .

작은 모자를 쓴 고양이의 이미지와 4개의 팬케이크 위에 머리가 올려진 모습을 보여주는 PaliGemma를 실행하는 HuggingFace Space의 스크린샷 PaliGemma를 실행하는 HuggingFace Space의 스크린샷

Gemma 2 발표: 차세대 성능 및 효율성

Gemma 2의 출시를 발표하게 되어 기쁩니다. Gemma 2는 차세대 Gemma 모델입니다. Gemma 2는 광범위한 AI 개발자 사용 사례에 맞는 새로운 크기로 출시되며, 획기적인 성능과 효율성을 위해 설계된 완전히 새로운 아키텍처를 특징으로 하며 다음과 같은 이점을 제공합니다.

동급 최고의 성능: Gemma 2는 270억 개의 매개변수를 통해 절반도 안되는 크기로 Llama 3 70B에 필적하는 성능을 제공합니다. 이러한 획기적인 효율성은 개방형 모델 환경에 새로운 표준을 제시합니다.

감소된 배포 비용 : Gemma 2의 효율적인 설계 덕분에 비슷한 모델의 절반도 안 되는 컴퓨팅에 적합합니다. 27B 모델은 NVIDIA의 GPU에서 실행되도록 최적화되었거나 Vertex AI의 단일 TPU 호스트에서 효율적으로 실행될 수 있어 더 광범위한 사용자에게 배포를 더 쉽고 비용 효율적으로 만들어줍니다.

다목적 튜닝 도구 체인: Gemma 2는 개발자에게 다양한 플랫폼 및 도구 생태계 전반에 걸쳐 강력한 튜닝 기능을 제공합니다. Google Cloud 와 같은 클라우드 기반 솔루션부터 Axolotl 과 같은 널리 사용되는 커뮤니티 도구에 이르기까지 Gemma 2의 미세 조정이 그 어느 때보다 쉬워졌습니다. 또한 자체 JAX 및 Keras와 함께 Hugging Face 및 NVIDIA TensorRT-LLM과의 원활한 파트너 통합을 통해 성능을 최적화하고 다양한 하드웨어 구성에 효율적으로 배포할 수 있습니다.

Gemma 사전 훈련된 모델 성능 벤치마크 Gemma 2는 아직 사전 훈련 중입니다. 이 차트는 벤치마크 사전 훈련 지표와 함께 최신 Gemma 2 체크포인트의 성능을 보여줍니다. 출처: Hugging Face Open LLM 리더보드(2024년 4월 22일) 및 Grok 발표 블로그

앞으로 몇 주 안에 Gemma 2가 공식 출시될 예정이니 기대하세요!

책임 있는 생성 AI 툴킷 확장

이러한 이유로 우리는 오픈 소스에서 LLM Comparator를 출시하여 개발자가 보다 강력한 모델 평가를 수행할 수 있도록 Responsible Generative AI Toolkit을 확장하고 있습니다. LLM 비교기는 모델 반응의 품질과 안전성을 평가하기 위해 효과적인 병렬 평가를 수행하는 새로운 대화형 및 시각적 도구입니다. LLM 비교기가 실제로 작동하는 모습을 보려면 Gemma 1.1과 Gemma 1.0을 비교하는 데모를 살펴보세요 .

LLM Comparator에서 나란히 평가를 보여주는 스크린샷

우리는 이 툴킷이 개발자들이 혁신적일 뿐만 아니라 안전하고 책임감 있는 AI 애플리케이션을 만드는 데 도움을 준다는 툴킷의 사명을 더욱 발전시키기를 바랍니다.

Gemma의 개방형 모델 제품군을 계속 확장하면서 최첨단 AI 기술과 책임 있는 개발이 함께하는 협력적 환경을 조성하는 데 전념하고 있습니다. 이러한 새로운 도구로 무엇을 만들 수 있는지, 그리고 함께 어떻게 AI의 미래를 형성할 수 있는지 보고 싶습니다.

(본 내용은 Google for Developers Blog에서 가져온 내용임)

How to Detect Small Objects(작은 물체를 감지하는 방법)

PROMPT 이해를 위한 9가지 Sample PROMPT