오픈AI 사람의 목소리를 재현하는 생성AI '보이스엔진(Voice Engine)' 개발

DXformer
DXformer

오픈AI가 개발한 최신 생성 AI 'Voice Engine'은 사용자의 목소리를 놀랍도록 정확하게 재현할 수 있다. 단 15초의 목소리 샘플과 텍스트 입력만으로, 해당 화자의 목소리로 음성을 합성할 수 있으며, 다양한 외국어로의 변환도 지원한다.

이 기술은 2022년 후반부터 개발되어 왔으며, 이미 채팅 GPT에 음성 입출력 기능을 통합하는 등, 합성 음성 기술의 발전을 통해 실제 인간의 목소리를 더욱 리얼하게 재현하는 데 성공했다.

Voice Engine은 아동에게 독서를 들려주기, 기업 제품 소개, 의료 상담, 언어 장애 지원 등 다양한 분야에 활용가능하다. 또한, 사용자의 목소리 톤과 감정까지 재현하며 다언어 지원도 가능하여 폭넓은 적용 범위를 가지고 있다.

Voice Engine  교육 및 지원 서비스를 혁신할 것으로 예상하고 있다 .

Age of Learning 같은 교육 기술 회사는 이 기술을 활용하여 책 읽기 지원을 제공하며, 학생들에게 맞춤화된 실시간 반응을 생성하기 위해 GPT-4와 함께 사용하고 있다. 이를 통해 다양한 청중에게 더 많은 콘텐츠를 제공할 수 있게 되었다.

또한, 크리에이터와 기업은 음성 엔진을 통해 전 세계 더 많은 사람들에게 자신의 목소리로 다가갈 수 있게 되었다. AI 시각적 스토리텔링 플랫폼인 HeyGen은 비디오 콘텐츠 번역에 이 기술을 사용하여 다양한 언어로 화자의 음성을 재현하고, 원어민 악센트를 제공한다. 이러한 기능은 글로벌 시장에 접근하고자 하는 기업에게 매우 유용하다.

원격 환경에서 필수 서비스를 제공하는 데 있어서도 음성 엔진은 중요한 역할을 하고 있다. Dimagi는 지역사회 보건 종사자들이 모유 수유 상담 등 다양한 필수 서비스를 제공할 수 있도록 지원하고 있다. 이 기술을 통해 근로자들은 자신의 모국어나 혼합 언어로 대화형 피드백을 제공할 수 있게 되었다.

AI 대체 의사소통 앱인 Livox는 비언어적 인물을 위한 지원을 제공한다. 음성 엔진을 사용함으로써, 다양한 언어로 로봇적이지 않은 자연스러운 목소리를 제공할 수 있으며, 사용자는 자신을 가장 잘 나타내는 음성을 선택할 수 있다.

마지막으로, 음성 엔진은 언어 장애를 가진 환자들의 목소리 회복에도 기여하고 있다. Lifespan의 Norman Prince Neurosciences Institute에서는 언어 장애가 있는 개인에게 이 기술을 시험적으로 제공하며, 매우 짧은 오디오 샘플을 사용하여 환자의 목소리를 복원할 수 있다.

음성 엔진은 교육, 의료, 비즈니스 등 다양한 분야에서 폭넓은 가능성을 열어가고 있으며, 이를 통해 사람들의 삶의 질을 향상시키고 있다.

그러나, 합성 음성 기술이 범죄에 악용될 수 있다는 우려도 있다. 예를 들어, 미국에서는 조 바이든 대통령의 목소리를 모방한 가짜 전화가 선거에 사용된 사례가 있다. 이에 대응하여, 오픈AI는 기술의 일반 공개를 유보하고, 시험 운용과 함께 철저한 검증 과정을 진행할 예정이다.

오픈AI는 "사람의 목소리를 모방하는 기술은 큰 위험을 수반할 수 있으며, 특히 선거 기간에는 더욱 신중해야 한다"고 언급하며, 정부 및 외부 기업과의 협력을 통해 안전 대책과 사용 상황 모니터링에 적극적으로 나서고 있음을 밝혔다.