您的位置 首页 業界

亞馬遜雲端技術陳小健:創新AI時代企業成功關鍵的三大數據能力

[TechWeb]5月7日消息,“每個公司都可以使用相同的基礎模型,但企業可以利用自己的數據構建通用智能應用程序,具有真正的商業價值,這將是成功的公司。” 大模型已經火爆兩年多了,…

[TechWeb]5月7日消息,“每個公司都可以使用相同的基礎模型,但企業可以利用自己的數據構建通用智能應用程序,具有真正的商業價值,這將是成功的公司。”

大模型已經火爆兩年多了,從GPT3到GPT4,從Llama 2到Llama 3,從Claude 2到Claude 3……全世界基礎大模型的能力都在不斷刷新著新的記錄。

但當企業部署大型模型應用時,該如何發揮自己的獨特優勢?

亞馬遜中國雲端技術產品部總經理陳小健表示:「企業需要的是通用的人工智慧應用程序,能夠理解業務和用戶,建立這樣的應用程式需要從數據開始。數據是這個時代商業成功的關鍵創新人工智慧。

在成熟的人工智慧時代,數據的重要性表現為:底層模型基於大規模高品質數據集,人工智慧創造的顯著優勢來自企業專有數據和通用數據產生的大量新數據。需要及時有效地管理和使用。

因此,陳曉建認為,企業建構通用AI應用需要三個關鍵的資料能力:

1.能夠利用現有資料支援微調或預訓練模型

從原始資料集到基礎模型訓練需要解決三個主要問題。

首先,你需要找到一個合適的儲存地點來儲存大量資料。 創意人工智慧的基本模型誕生於大規模、高品質的資料集。 如果一本書以500KB算,目前500T參數的模型有332億本書,相當於每個人有4本書;

其次,將原始資料清洗並處理成高品質的資料集。 在資料清洗方面,企業面臨繁重的資料清洗和處理任務。 以公開收集的2TB英語數據集為例,經過清洗、去重後變成1.2TB的數據,然後分成約3000億個token。

最後,管理整個組織的資料發現組合。 企業面臨的資料治理挑戰包括:難以找到跨帳戶和跨區域的資料、難以管理資料存取控制和容易出錯、資料分析師沒有足夠的存取權限並缺乏使用相應工具的技能以及使用者沒有簡單的資料。 協作環境中的資料管理隱藏在許多不同的工具中。

2. 能夠將商業數據與模型快速結合,創造獨特價值

基礎模型本身存在一定的局限性,例如缺乏垂直領域的專業知識、缺乏時效性、產生錯覺問題等誤報、以及用戶敏感資料的隱私合規風險等。

檢索增強生成 (RAG) 技術通常被認為是將企業資料與底層模型結合的主要方法之一。 它將資料轉換為向量並將其儲存在向量資料庫中,從而轉換語義相關性。 向量來執行內容相關性計算。

透過RAG,企業可以將自身的知識庫、資料庫等與廣義AI模型結合,在生成過程中即時檢索和使用企業內部的相關數據,從而提高生成結果的準確性、一致性和資訊含量。的數據。 此方法較簡單,適用場景包括知識的時效性、控制的錯覺、使用者隱私資料的保護、公司本身領域的知識知識等

3. 高效處理新數據並促進合成人工智慧應用快速開發的能力

對於一般的人工智慧應用來說,頻繁調用底層模型會導致成本增加和響應延遲。 與先前的資料庫呼叫通常需要毫秒甚至微秒的回應時間相比,基本模型的每次呼叫通常只需要幾秒鐘。 此外,每次呼叫基本模型都會增加開銷。

許多公司報告稱,最終用戶遇到的大多數問題都是相似的,甚至反覆出現。 因此,先前的問題和答案產生的新資料可以儲存在快取中,這樣當遇到類似的問題時,可以直接透過快取給出答案,而不需要呼叫模型。 這樣不僅可以減少模型呼叫還可以節省。 費用。

陳曉健強調:「亞馬遜雲技術在資料庫建構方面的三大核心能力涵蓋了從基礎模型訓練到通用AI應用構建的重要場景,可以幫助企業輕鬆處理海量多模態數據,提升底層建模能力。作為全球雲端運算領導者和創辦人,亞馬遜雲端技術正在幫助不同行業各種規模的企業建立強大的資料庫,並將資料的獨特價值賦予底層模型和通用公式,同時確保資料和營運安全,促進企業業務成長的應用程式。

#亞馬遜雲端技術陳小健創新AI時代企業成功關鍵的三大數據能力

本文来自网络,不代表海外中文網立场,转载请注明出处:https://www.yaozhongkao.com/8301.html

作者: 海外中文网

为您推荐

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: 2244198@gmail.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部