austin-distel-rxpThOwuVgE-unsplash.jpg

AI연구회

경남ICT협회 AI 연구 모임

Voice Chat bot을 위한 OPENAI TTS 테스트

 

아래는 OpenAI가 DEVDAY(23-11-06)에서 발표한 내용을 번역한 자료입니다. 

이번 발표 내용중 TTS API, GPTs기능(사용자 맞춤형 GPTs)을 활용하여 챗봇 테스트한 결과입니다.  

1) GPTs

    엄청납니다. 굉장합니다등의 수식어로도 부족합니다. 주요 핵심내용은 

    - 사용자 데이터 기반의 챗봇이 가능합니다.

    - 챗봇 앱 개발에 Code가 필요없이 간단한 대화로 가능합니다. 

    - 개발 소요시간은 개인따라 다르겠지만 30분안에 뚝딱 만듭니다. 

    - 만든 앱을 공유 가능합니다(12월에 GPTs Store Open예정이라고 합니다)  

 

2) TTS 

    - TTS 모델을 통해 텍스트 음성 변환 기능을 출시했으며, 이 모델은 6가지 자연스러운 음성 중 하나를 사용하여 텍스트를 읽어주는데 한글의 경우는 전혀 손색없습니다. 물론 영어의 경우 원어민은 당연합니다. 한글의 경우 생각했었던 것 보다 깔끔합니다. 

 

(아래는 영어로 질문하고 영어로 얻은 응답)

(아래는 한글로 질문하여 얻은 한글 응답)

   - 첨부파일에 Audio 파일을 올렸으니 한번 들어보시기 바랍니다. 

     (영어, 한글 두가지 입니다)

 

__아래는 DEVDAY 발표내용__으로 참조바랍니다. 

첫 번째 컨퍼런스인 OpenAI DevDay에서 발표된 주요 새로운 기능과 업데이트를 공유하게 되어 기쁩니다. 블로그에서 자세한 내용을 읽거나, 기조 연설 녹화본을 보거나, 새로운 @OpenAIDevs Twitter를 확인할 수 있지만 여기에 간략한 요약이 있습니다.

새로운 GPT-4 터보:

  • 가장 진보된 모델인 GPT-4 Turbo를 발표했습니다. 128K 컨텍스트 창과 2023년 4월까지의 세계 이벤트에 대한 지식을 제공합니다.
  • GPT-4 Turbo의 가격을 상당히 인하했습니다: 입력 토큰은 이제 $0.01/1K , 출력 토큰은 $0.03/1K로 이전 GPT-4 가격에 비해 각각 3배 및 2배 저렴합니다.
  • 단일 메시지에서 여러 함수를 호출하고, JSON 모드를 사용하여 항상 유효한 함수를 반환하고, 올바른 함수 매개 변수를 반환하는 정확도를 개선하는 기능을 포함하여 함수 호출을 개선 했습니다.
  • 모델 출력은 새로운 재현 가능한 출력 베타 기능을 통해 보다 결정적입니다.
  • API에서 gpt-4-1106-preview를 전달하여 GPT-4 Turbo에 액세스할 수 있으며 올해 말에 안정적인 프로덕션 준비 모델 릴리스가 계획되어 있습니다.

업데이트된 GPT-3.5 터보:

  • 새로운 gpt-3.5-turbo-1106은 기본적으로 16K 컨텍스트를 지원하며 4배 더 긴 컨텍스트를 더 저렴한 가격($0.001/1K 입력, $0.002/1K 출력)으로 사용할 수 있습니다. 이 16K 모델의 미세 조정이 가능합니다.
  • 미세 조정된 GPT-3.5는 입력 토큰 가격이 $0.003/1K로 75% 감소하고 출력 토큰 가격이 $0.006/1K로 62% 감소하여 훨씬 저렴합니다.
  • gpt-3.5-turbo-1106 은 향상된 함수 호출 및 재현 가능한 출력으로 GPT-4 Turbo에 합류합니다.

API 마법사:

  • 애플리케이션에서 에이전트와 유사한 환경을 손쉽게 구축할 수 있도록 설계된 새로운 어시스턴트 API의 베타 버전을 소개하게 되어 기쁩니다. 사용 사례는 자연어 기반 데이터 분석 앱, 코딩 도우미, AI 기반 휴가 플래너, 음성 제어 DJ, 스마트 시각적 캔버스 등 다양합니다
  • 이 API를 사용하면 특정 지침을 따르고, 추가 지식을 활용하고, 모델 및 도구와 상호 작용하여 다양한 작업을 수행할 수 있는 특수 목적의 AI 도우미를 만들 수 있습니다.
  • 어시스턴트에는 개발자가 스레드 상태 관리를 OpenAI에 전달하고 컨텍스트 창 제약 조건을 해결할 수 있는 영구 스레드가 있습니다. 또한 코드 인터프리터, 검색 및 함수 호출과 같은 새로운 도구를 사용할 수 있습니다.
  • 당사 플랫폼 인 Playground 를 사용하면 코드를 작성하지 않고도 이 새로운 API를 사용할 수 있습니다.

멀티모달 기능:

  • GPT-4 Turbo는 이제 Chat Completions API에서 시각적 입력을 지원하여 캡션 생성 및 시각적 분석과 같은 사용 사례를 가능하게 합니다. gpt-4-vision-preview 모델을 사용하여 비전 기능에 액세스할 수 있습니다. 이 비전 기능은 올해 말 프리뷰가 출시될 GPT-4 Turbo의 프로덕션 준비 버전에 통합될 예정입니다.
  • DALL· E 3 - 이미지 생성 API를 통해 애플리케이션으로 이미지를 생성합니다.
  • 새로 도입된 TTS 모델을 통해 텍스트 음성 변환 기능을 출시했으며, 이 모델은 6가지 자연스러운 음성 중 하나를 사용하여 텍스트를 읽어줍니다.

ChatGPT의 사용자 지정 가능한 GPT:

  • GPT 라는 새로운 기능을 출시했습니다. GPT는 지침, 데이터 및 기능을 맞춤형 버전의 ChatGPT로 결합합니다. 
  • DALL· E 또는 Advanced Data Analysis, GPT는 개발자 정의 작업도 호출할 수 있습니다. GPT를 사용하면 개발자가 경험의 더 많은 부분을 제어할 수 있습니다. 우리는 의도적으로 플러그인과 액션을 매우 유사하게 설계했으며 기존 플러그인을 액션으로 전환하는 데 몇 분 밖에 걸리지 않습니다. 자세한 내용은 문서를 읽어보세요. .
     

이러한 업데이트가 프로젝트에서 AI를 활용할 수 있는 새로운 길을 여는 데 어떻게 도움이 되는지 알게 되어 기쁩니다.

 

—OpenAI 팀

 

기업 홍보를 위한 확실한 방법
협회 홈페이지에 회사정보를 보강해 보세요.