掃碼下載
BTC $60,700.09 -0.89%
ETH $1,554.28 -2.68%
BNB $574.48 -0.07%
XRP $1.08 -2.63%
SOL $61.66 -4.28%
TRX $0.3225 +0.03%
DOGE $0.0808 -1.55%
ADA $0.1568 -3.43%
BCH $213.93 -2.27%
LINK $7.32 -1.32%
HYPE $56.37 -4.59%
AAVE $60.02 -3.40%
SUI $0.7057 +0.06%
XLM $0.2036 +2.19%
ZEC $351.19 -2.61%
BTC $60,700.09 -0.89%
ETH $1,554.28 -2.68%
BNB $574.48 -0.07%
XRP $1.08 -2.63%
SOL $61.66 -4.28%
TRX $0.3225 +0.03%
DOGE $0.0808 -1.55%
ADA $0.1568 -3.43%
BCH $213.93 -2.27%
LINK $7.32 -1.32%
HYPE $56.37 -4.59%
AAVE $60.02 -3.40%
SUI $0.7057 +0.06%
XLM $0.2036 +2.19%
ZEC $351.19 -2.61%

DeepSeek 推出 NSA,用於超快速的長上下文訓練和推理

2025-02-18 16:37:45
收藏

ChainCatcher 消息,据金十報導,DeepSeek 推出 NSA。

DeepSeek 稱,NSA 是一種與硬體一致且本機可訓練的稀疏注意力機制,用於超快速的長上下文訓練和推理。通過針對現代硬體的優化設計,NSA 加快了推理速度,同時降低了預訓練成本,而不會影響性能。

在一般基準測試、長上下文任務和基於指令的推理上,它的表現與完全注意力模型相當甚至更好。

關聯標籤
關聯標籤
app_icon
ChainCatcher 與創新者共建Web3世界