2023년 9월 25일 오픈AI가 멀티모달이 가능한 GPT-4V를 출시하면서 달리3(DALL-E 3)를 챗GPT에 통합하였다. 이를 통해 GPT-4는 구글 팜2, 메타 라마2 등 경쟁 LLM과 차이를 벌리면서 한 단계 더 진화했다는 평가를 받고 있다. 특히 음성 기능은 iOS와 Android에서 사용할 수 있으며 아마존의 Alexa나 애플 Siri와 마찬가지로, 유료 사용자의 경우 스마트폰에서 ChatGPT 앱을 실행시키고 말을 걸면 5가지 음성 옵션 중 하나를 선택하여 대화를 나눌 수 있다.
멀티모달 AI(Multimodal AI)는 텍스트, 이미지, 영상, 음성 등 다양한 데이터 모달리티를 함께 고려하여 서로간의 관계성을 학습 및 표현하는 기술로 다양한 콘텐츠 유형 정보를 수신하고 추론할 수 있는 능력을 갖추고 있다. 예를 들어 밤하늘에 오로라가 펼쳐지는 사진을 첨부한 뒤 "이 사진 속의 지역은 어디야?"라고 물어보고 답을 얻을 수 있다.