OpenAI推出新一代AI模型GPT-4o 具有出色的音視頻理解能力

[TechWeb]5月14日消息，根據國外媒體報道，在今天凌晨1點開始的春季更新中，OpenAI公佈了新一代旗艦型號GPT-4o，可以利用語音資訊、視訊和文字進行即時推理。

從OpenAI官網公佈的資訊來看，GPT-4o中的“o”來自“omni”，意為全面、無所不能，朝著更自然的人機交互又邁出了重要一步。

GPT-4o 確實如其名稱中的“omni”一樣強大。它是一個能力更全面的大型語言模型。它連接文字、音訊和圖像，接受文字、音訊和視訊輸入的任意組合併產生文字。音訊和視訊組合輸出。

OpenAI 在其官網透露，GPT-4o 在英文文字和程式碼上的表現與GPT-4 Turbo 相當，但在非英文文字上的能力有了顯著提升，在理解視訊和音訊方面，GPT-4o 有所提升。優於 GPT-4 Turbo 其他目前型號。

OpenAI 在官網上提到，在 GPT-4o 之前，透過語音模式與 ChatGPT 通話時有相當長的延遲，GPT-3.5 和 5 平均為 2.8 秒，GPT-4 為 4 秒。由三個獨立模式組成的語音模式也失去了大量訊息，無法直接確定音調、多個揚聲器或背景噪音，無法產生笑聲、歌唱或表達情感。

但在 GPT-4o 中，OpenAI 在文字、音訊和視訊上訓練了一個新的端到端模型。所有輸入和輸出均由同一神經網路處理。 GPT-4o也是第一個整合文字、音訊和視訊的GPT-4o。視訊模式模型，

能力更全面的GPT-4o也更靈敏，對音頻輸入的最快響應時間為232毫秒，平均響應時間為320毫秒，相當於人類在對話中的反應。

除了更強大、更全面的能力之外，OpenAI也在推動GPT-4o更廣泛的應用。 GPT-4o的文字和圖像功能自推出以來已推送至ChatGPT。 ChatGPT 用戶可以免費使用它。 ChatGPT Plus 用戶的資料限制將是新音訊版本的 5 倍。該模式將在未來幾週內向 ChatGPT 用戶開放。由 ChatGPT Plus 用戶推廣。

OpenAI 的春季更新將於週二凌晨 1 點開始，由技術長 Mira Murati 主持。此外，研發公司CEO薩姆·奧特曼也沒有出現。

不過，沒有出現在直播中的薩姆·奧爾特曼也在社交媒體上宣傳了GPT-4o。他在社群媒體上表示，他們的最新型號 GPT-4o 是他們迄今為止最好的型號。它智慧、快速且自然是多模式的。

Sam Altman 也在社群媒體上提到，GPT-4o 對所有 ChatGPT 用戶都是免費的，而先前的 GPT-4 等級範本僅對按月付費的用戶免費。

值得注意的是，OpenAI在周二凌晨推出了功能更全面的GPT-4o，這勢必會給當地時間週二開始的谷歌I/O 2024開發者大會帶來更大的壓力。推出了大量人工智慧相關產品。（海藍色）

#OpenAI推出新一代AI模型GPT4o #具有出色的音視頻理解能力

给这篇文章的作者打赏