오픈토크

"모든 LLM을 컴퓨터 사용 'AI 에이전트'로 내가 만든다!"...MS, 혁신적인 도구 '옴니파서 2' 오픈소스로 공개

박종영 전문위원(AI연구회 회장) / 데이터링크 주식회사

2025년 2월 17일 · 258 ·

"모든 LLM을 컴퓨터 사용 'AI 에이전트'로 내가 만든다!"...MS, 혁신적인 도구 '옴니파서 2' 오픈소스로 공개 < 플랫폼 < AI Tech < 기사본문 - 인공지능신문

"모든 LLM을 컴퓨터 사용 'AI 에이전트'로 내가 만든다!"...MS, 혁신적인 도구 '옴니파서 2' 오픈소스로 공개

UI 이해하고 조작하는 차세대 AI...인간과 컴퓨터 간 상호작용 방식을 근본적으로 변화시킬 것

2025년, 인공지능은 이제 'AI 에이전트'라는 새로운 시대로 접어들고 있다. AI 에이전트는 환경과 상호 작용하고, 데이터를 수집하고, 데이터를 사용하여 사전 결정된 목표를 달성하기 위해 필요한 작업을 스스로 결정해서 사람들이 복잡한 문제를 해결하고 반복적인 작업을 자동화할 수 있도록 돕고 다양한 산업의 기업들은 인텔리전스를 창출하고 전례 없는 생산성을 달성할 수 있다.

이러한 AI 에이전트는 기능과 역량에 최적화된 여러 생성형 AI 모델 시스템을 필요로 한다. 이러한 복잡성은 강력하고 효율적인 엔터프라이즈급 모델의 필요성이 그 어느 때보다 높아졌음을 의미한다.

지난해 10월, 인공지능(AI) 스타트업 앤트로픽(Anthropic)이 인공지능 모델이 컴퓨터를 스스로 사용할 수 있는 혁신적인 기능을 공개했다. "컴퓨터 사용(computer use)" 기능이라고 명명된 이 기능은 개발자들이 사용할 수 있는 퍼블릭 베타 버전으로 제공되며, 클로드 3.5 소네트(Claude 3.5 Sonnet)에 새롭게 추가되었다.

기존의 AI 모델들은 화면을 인식하고 텍스트를 추출하는 수준에 머물렀지만, '컴퓨터 사용' 기능은 AI가 마치 사람처럼 화면을 보고 마우스 커서를 움직여 버튼을 클릭하고 텍스트를 입력하는 등 컴퓨터를 직접 조작할 수 있도록 한다는 점에서 혁신적이다.

화면을 스크린샷으로 캡처하고 이를 AI 모델에 입력하여 화면 상의 객체들을 인식하고 분류하며, 사용자의 지시에 따라 마우스 및 키보드 입력을 생성하여 컴퓨터를 조작한다. 마이크로소프트의 코파일럿 비전(Copilot Vision) 기능과 오픈AI(OpenAI)의 챗GPT(ChatGPT) 데스크톱 앱이 컴퓨터 화면을 인식하여 작업하는 기능을 보여주었지만, 앤트로픽의 기능은 이보다 한 단계 더 나아가 클릭과 작업 수행이 가능한 수준으로 일반에 공개되었다는 점에서 큰 차이가 있다.

또한, 지난달 23일, 오픈AI가 웹 브라우저를 직접 제어하며 특정 작업을 독립적으로 수행할 수 있는 새로운 AI 에이전트, '오퍼레이터(Operator)'를 공개했다. 이 AI 에이젠트는 사람이 하는 것처럼 그래픽 사용자 인터페이스(GUI) 즉, 사람들이 화면에서 보는 버튼, 메뉴 및 텍스트 필드 등과 상호 작용하도록 훈련되었다. 이를 통해 OS 또는 웹별 API를 사용하지 않고도 디지털 작업을 수행할 수 있는 유연성을 제공한다.

여기에, 현지시간 마이크로소프트(Microsoft)가 사용자 인터페이스(UI) 분석을 위한 혁신적인 인공지능(AI) 도구 '옴니파서 2(OmniParser 2)'를 오픈소스로 공식 발표했다. 이 도구는 화면을 분석해 버튼, 아이콘, 메뉴 등의 요소를 정확히 인식하고, 이를 바탕으로 사용자의 명령을 실행할 수 있도록 설계되었다.

기존 AI 모델들이 단순히 화면을 인식하는 수준에 머물렀다면, 옴니파서 2는 화면 속 요소들의 기능과 상호작용 방식을 정확히 이해하는 점에서 차별성을 갖는다.

옴니파서 2는 오픈AI의 최신 인공지능 모델 'GPT-4V(ision)'와 결합해 UI 화면에서 특정 영역을 식별하고 조작할 수 있는 능력을 갖췄다. GPT-4V는 이미지와 텍스트를 동시에 이해하는 멀티모달 AI 모델로, 옴니파서 2는 GPT-4V를 통해 시각 정보를 분석하고 처리하여 UI 요소의 의미와 맥락을 파악한다. '스크린 스팟 프로(Screen Spot Pro-보기)' 벤치마크에서 39.5%의 정확도를 기록하며, 최고 수준의 성능을 입증했으며, 이는 기존 GPT-4V의 성능을 뛰어넘는 결과이다.

다양한 에이전트 설정으로 더 빠르게 실험할 수 있도록, 에이전트를 위한 필수 도구 모음을 통합한 도커화된 Windows 시스템인 OmniTool을 만들었다. 기본적으로 OmniParser를 다양한 최첨단 LLM과 함께 사용할 수 있도록 한다. 오픈AI(4o/o1/o3-mini), 딥시크 R1,큐엔 2.5VL 및 앤트로픽 Sonnet는 화면 이해, 접지, 액션 계획 및 실행 단계를 결합한다. — 스크린 스팟 프로 베치마크

다양한 에이전트 설정으로 더 빠르게 실험할 수 있도록, 에이전트를 위한 필수 도구 모음을 통합한 도커화된 Windows 시스템인 OmniTool을 만들었습니다. 기본적으로 OmniParser를 다양한 최첨단 LLM과 함께 사용할 수 있도록 합니다. OpenAI(4o/o1/o3-mini), DeepSeek(R1), Qwen(2.5VL) 및 Anthropic(Sonnet)은 화면 이해, 접지, 액션 계획 및 실행 단계를 결합합니다.

다양하고 더 빠른 에이전트 설정 실험을 가능하게 하기 위해, MS는 에이전트에게 필요한 필수 도구 모음을 통합한 도커 기반 윈도우 시스템인 '옴니툴(OmniTool)'을 만들었다. 이 새로운 기능이 추가되어 윈도우 11 가상머신(VM) 환경에서도 활용할 수 있게 되었다. 사용자는 옴니툴을 통해 윈도우 애플리케이션의 UI 요소를 분석하고 조작할 수 있다.

옴니툴은 옴니파서 2(깃허브-다운, 허깅페이스-다운)의 기능을 윈도우 환경에서 직접 사용할 수 있도록 지원하는 도구로, 즉시 사용 가능한 옴니파서는 화면 이해, 접지(grounding), 행동 계획 및 실행 단계를 결합하여 다양한 최첨단 LLM과 함께 사용할 수 있도록 지원한다. 이러한 LLM에는 오픈AI 4o/o1/o3-mini, 딥시크 R1(DeepSeek R1), 알리바바의 큐웬 2.5VL, 그리고 앤트로픽 소네트(Anthropic Sonnet)가 포함된다.

옴니파서 2는 단순한 UI 분석을 넘어 사용자의 명령을 해석하고 자동으로 실행하는 기능까지 제공한다. 예를 들어, 사용자가 "항공편 예약해줘"라고 요청하면 옴니파서 2는 해당 명령을 실행하기 위해 필요한 모든 UI 요소를 찾아 조작할 수 있다. 더 나아가 시각 장애인이 음성 명령으로 웹사이트를 이용하거나, 복잡한 소프트웨어 테스트 과정을 자동화하여 개발 효율을 높이는 등 다양한 분야에서 활용될 수 있다.

옴니파서 2는 오픈소스로 공개되어 개발자들이 자유롭게 활용할 수 있도록 지원된다. 모델 가중치는 'AGPL' 및 'MIT' 라이선스를 따르며, 연구자 및 기업들은 이를 기반으로 새로운 기능을 개발하거나 맞춤형 모델을 구축할 수 있다.

전문가들은 옴니파서 2가 인간과 컴퓨터 간 상호작용 방식을 근본적으로 변화시킬 것으로 전망한다. AI가 단순한 조작을 넘어 UI 환경을 이해하고, 사용자의 의도를 파악해 직접 행동을 수행하는 단계에 접어들었기 때문이다. 음성이나 제스처를 통해 컴퓨터를 제어하는 방식이 더욱 보편화될 것이며, 개인 맞춤형 UI 환경 구축도 가능해질 것이다. 향후 옴니파서 2는 다양한 AI 모델과의 연동을 지원하며, 클라우드 및 로컬 환경에서도 손쉽게 적용될 수 있도록 발전할 것으로 보인다.

정한영 기자 hyjung@aitimes.kr

"모든 LLM을 컴퓨터 사용 'AI 에이전트'로 내가 만든다!"...MS, 혁신적인 도구 '옴니파서 2' 오픈소스로 공개 < 플랫폼 < AI Tech < 기사본문 - 인공지능신문

딥시크 "코드·데이터까지 완전 공개...오픈 소스 강화"

local pc에서 deepseek-r1:8b 와 Llama3:8B 테스트