QR 코드를 스캔하여 다운로드하세요.
BTC $70,221.66 +2.03%
ETH $2,130.77 +2.35%
BNB $637.91 +1.34%
XRP $1.42 -4.56%
SOL $81.67 -4.53%
TRX $0.2795 -0.47%
DOGE $0.0974 -3.83%
ADA $0.2735 -4.22%
BCH $477.88 +1.98%
LINK $8.64 -2.97%
HYPE $28.98 -1.81%
AAVE $122.61 -3.42%
SUI $0.9531 +3.02%
XLM $0.1605 -4.62%
ZEC $260.31 -8.86%
BTC $70,221.66 +2.03%
ETH $2,130.77 +2.35%
BNB $637.91 +1.34%
XRP $1.42 -4.56%
SOL $81.67 -4.53%
TRX $0.2795 -0.47%
DOGE $0.0974 -3.83%
ADA $0.2735 -4.22%
BCH $477.88 +1.98%
LINK $8.64 -2.97%
HYPE $28.98 -1.81%
AAVE $122.61 -3.42%
SUI $0.9531 +3.02%
XLM $0.1605 -4.62%
ZEC $260.31 -8.86%

DeepSeek는 초고속 긴 문맥 훈련 및 추론을 위한 NSA를 출시했습니다

2025-02-18 16:37:45
수집

ChainCatcher 메시지에 따르면, 금십 보도에 의하면 DeepSeek가 NSA를 출시했습니다.

DeepSeek는 NSA가 하드웨어와 일치하며 본래 훈련 가능한 희소 주의 메커니즘으로, 초고속의 긴 컨텍스트 훈련 및 추론을 위해 설계되었다고 말했습니다. 현대 하드웨어에 대한 최적화 설계를 통해 NSA는 추론 속도를 높이고, 사전 훈련 비용을 낮추면서 성능에는 영향을 미치지 않습니다.

일반 벤치마크 테스트, 긴 컨텍스트 작업 및 지시 기반 추론에서, 그것의 성능은 완전 주의 모델과 동등하거나 더 나은 것으로 나타났습니다.

관련 태그
관련 태그
app_icon
ChainCatcher Building the Web3 world with innovations.