掃碼下載
BTC $69,130.86 +7.23%
ETH $2,070.62 +11.40%
BNB $631.78 +7.19%
XRP $1.42 -4.56%
SOL $81.67 -4.53%
TRX $0.2795 -0.47%
DOGE $0.0974 -3.83%
ADA $0.2735 -4.22%
BCH $514.91 +6.55%
LINK $8.64 -2.97%
HYPE $28.98 -1.81%
AAVE $122.61 -3.42%
SUI $0.9138 -6.63%
XLM $0.1605 -4.62%
ZEC $260.31 -8.86%
BTC $69,130.86 +7.23%
ETH $2,070.62 +11.40%
BNB $631.78 +7.19%
XRP $1.42 -4.56%
SOL $81.67 -4.53%
TRX $0.2795 -0.47%
DOGE $0.0974 -3.83%
ADA $0.2735 -4.22%
BCH $514.91 +6.55%
LINK $8.64 -2.97%
HYPE $28.98 -1.81%
AAVE $122.61 -3.42%
SUI $0.9138 -6.63%
XLM $0.1605 -4.62%
ZEC $260.31 -8.86%

OpenAI 發布更新:實現實時跨音頻、視覺和文本推理

2024-10-02 20:01:31
收藏

ChainCatcher 消息,据 Cointelegraph 報導,OpenAI 在 10 月對其模型進行了四項更新,幫助其 AI 模型更好地進行對話並提高圖像識別能力。第一項重大更新是實時 API,它允許開發人員使用單個提示創建人工智能生成的語音應用程序,實現類似於 ChatGPT 高級語音模式的自然對話。以前開發人員必須將多個模型"拼接在一起"才能創建這些體驗。音頻輸入通常需要在接收響應之前完全上傳和處理,這意味著語音相互對話等實時應用程序的延遲較高。借助 Realtime API 的流媒體功能,開發人員現在可以實現即時、自然的互動,就像語音助手一樣。該 API 運行在 2024 年 5 月發布的 GPT-4 上,可以實時跨音頻、視覺和文本進行推理。

另一項更新包括為開發人員提供的微調工具,使他們能夠改進從圖像和文本輸入生成的人工智能響應。基於圖像的微調器使人工智能能夠更好地理解圖像,從而增強視覺搜索和物體檢測能力。該過程包括來自人類的反饋,他們提供了好的和壞的反應例子進行訓練。

除了語音和視覺更新之外,OpenAI 還推出了"模型蒸餾"和"提示緩存",允許較小的模型向較大的模型學習,並通過重用已處理的文本來減少開發成本和時間。據路透社報導,OpenAI 預計明年收入將增至 116 億美元,高於 2024 年預計的 37 億美元。

app_icon
ChainCatcher 與創新者共建Web3世界