OpenAI推出新一代AI模型GPT-4o 具有出色的音視頻理解能力

[TechWeb]5月14日消息,根據國外媒體報道,在今天凌晨1點開始的春季更新中,OpenAI公佈了新一代旗艦型號GPT-4o,可以利用語音資訊、視訊和文字進行即時推理。

從OpenAI官網公佈的資訊來看,GPT-4o中的“o”來自“omni”,意為全面、無所不能,朝著更自然的人機交互又邁出了重要一步。

GPT-4o 確實如其名稱中的“omni”一樣強大。 它是一個能力更全面的大型語言模型。 它連接文字、音訊和圖像,接受文字、音訊和視訊輸入的任意組合併產生文字。 音訊和視訊組合輸出。

OpenAI 在其官網透露,GPT-4o 在英文文字和程式碼上的表現與GPT-4 Turbo 相當,但在非英文文字上的能力有了顯著提升,在理解視訊和音訊方面,GPT-4o 有所提升。 優於 GPT-4 Turbo 其他目前型號。

OpenAI 在官網上提到,在 GPT-4o 之前,透過語音模式與 ChatGPT 通話時有相當長的延遲,GPT-3.5 和 5 平均為 2.8 秒,GPT-4 為 4 秒。 由三個獨立模式組成的語音模式也失去了大量訊息,無法直接確定音調、多個揚聲器或背景噪音,無法產生笑聲、歌唱或表達情感。

但在 GPT-4o 中,OpenAI 在文字、音訊和視訊上訓練了一個新的端到端模型。 所有輸入和輸出均由同一神經網路處理。 GPT-4o也是第一個整合文字、音訊和視訊的GPT-4o。 視訊模式模型,

能力更全面的GPT-4o也更靈敏,對音頻輸入的最快響應時間為232毫秒,平均響應時間為320毫秒,相當於人類在對話中的反應。

除了更強大、更全面的能力之外,OpenAI也在推動GPT-4o更廣泛的應用。 GPT-4o的文字和圖像功能自推出以來已推送至ChatGPT。 ChatGPT 用戶可以免費使用它。 ChatGPT Plus 用戶的資料限制將是新音訊版本的 5 倍。 該模式將在未來幾週內向 ChatGPT 用戶開放。 由 ChatGPT Plus 用戶推廣。

OpenAI 的春季更新將於週二凌晨 1 點開始,由技術長 Mira Murati 主持。 此外,研發公司CEO薩姆·奧特曼也沒有出現。

不過,沒有出現在直播中的薩姆·奧爾特曼也在社交媒體上宣傳了GPT-4o。 他在社群媒體上表示,他們的最新型號 GPT-4o 是他們迄今為止最好的型號。 它智慧、快速且自然是多模式的。

Sam Altman 也在社群媒體上提到,GPT-4o 對所有 ChatGPT 用戶都是免費的,而先前的 GPT-4 等級範本僅對按月付費的用戶免費。

值得注意的是,OpenAI在周二凌晨推出了功能更全面的GPT-4o,這勢必會給當地時間週二開始的谷歌I/O 2024開發者大會帶來更大的壓力。 推出了大量人工智慧相關產品。 (海藍色)

#OpenAI推出新一代AI模型GPT4o #具有出色的音視頻理解能力

本文来自网络,不代表海外中文網立场,转载请注明出处:https://www.yaozhongkao.com/9963.html
返回顶部