掃碼下載
BTC $68,185.42 +3.43%
ETH $1,996.45 +2.93%
BNB $634.15 +2.86%
XRP $1.42 -4.56%
SOL $81.67 -4.53%
TRX $0.2795 -0.47%
DOGE $0.0974 -3.83%
ADA $0.2735 -4.22%
BCH $446.65 +1.20%
LINK $8.64 -2.97%
HYPE $28.98 -1.81%
AAVE $122.61 -3.42%
SUI $0.9138 -6.63%
XLM $0.1605 -4.62%
ZEC $260.31 -8.86%
BTC $68,185.42 +3.43%
ETH $1,996.45 +2.93%
BNB $634.15 +2.86%
XRP $1.42 -4.56%
SOL $81.67 -4.53%
TRX $0.2795 -0.47%
DOGE $0.0974 -3.83%
ADA $0.2735 -4.22%
BCH $446.65 +1.20%
LINK $8.64 -2.97%
HYPE $28.98 -1.81%
AAVE $122.61 -3.42%
SUI $0.9138 -6.63%
XLM $0.1605 -4.62%
ZEC $260.31 -8.86%

DeepSeek 推出 NSA,用於超快速的長上下文訓練和推理

2025-02-18 16:37:45
收藏

ChainCatcher 消息,据金十報導,DeepSeek 推出 NSA。

DeepSeek 稱,NSA 是一種與硬體一致且本機可訓練的稀疏注意力機制,用於超快速的長上下文訓練和推理。通過針對現代硬體的優化設計,NSA 加快了推理速度,同時降低了預訓練成本,而不會影響性能。

在一般基準測試、長上下文任務和基於指令的推理上,它的表現與完全注意力模型相當甚至更好。

關聯標籤
關聯標籤
app_icon
ChainCatcher 與創新者共建Web3世界