학습

멀티모달로 진화하는 언어모델

박종영 전문위원(AI연구회 회장) / 데이터링크 주식회사

2023년 3월 15일 · 2,699 ·

멀티모달로 진화하는 언어모델 < 주간 인공지능 < 포커스 < 기사본문 - AI타임스 (aitimes.com)

요즘 인공지능 가운데 대형언어모델(LLM)의 활약이 두드러지고 있습니다. ‘챗GPT’ 같은 인공지능 챗봇을 비롯해 ‘알파폴드’ 같은 단백질 구조 예측 모델에 이르기까지 다양한 도구를 개발하는 기반으로 활용되고 있습니다.

LLM은 글, 즉 텍스트로 명령해야 작동합니다. 그런데 이런 언어모델이 글만이 아닌 이미지나 소리, 영상도 인식하는 멀티모달형으로 진화하고 있습니다. 마이크로소프트가 지난주 멀티모달형 언어모델 ‘코스모스-1’을 공개했습니다.

언어모델은 입력되는 단어를 토큰(token)이라는 단위로 나눠서 인식합니다. 챗GPT를 개발한 오픈AI의 경우 1토큰은 영어철자 4개 혹은 0.75 단어 길이라고 설명합니다. (1000토큰=750단어)

마이크로소프트는 코스모스-1이 이미지나 오디오 입력을 텍스트처럼 인식할 수 있도록 특수 토큰을 적용하는 방식으로 문제를 해결했습니다. 이 모델은 10시 10분을 가리키는 사진을 보여주고 시간을 물으면 이미지를 파악해 시간이 10시 10분이라고 답합니다.

출처 : AI타임스(https://www.aitimes.com)

CNC 빅데이터 분석(IoT EDA Classification Forecasting)

LLM(Large Lanuage Model)에 대해