QR 코드를 스캔하여 다운로드하세요.
BTC $60,930.74 -2.57%
ETH $1,577.59 -8.93%
BNB $576.50 -3.35%
XRP $1.10 -3.36%
SOL $63.79 -5.67%
TRX $0.3204 -1.95%
DOGE $0.0818 -5.46%
ADA $0.1570 -5.30%
BCH $213.01 -12.19%
LINK $7.38 -5.51%
HYPE $59.86 -6.30%
AAVE $61.11 -11.78%
SUI $0.6986 -5.66%
XLM $0.1969 -0.07%
ZEC $379.26 -7.17%
BTC $60,930.74 -2.57%
ETH $1,577.59 -8.93%
BNB $576.50 -3.35%
XRP $1.10 -3.36%
SOL $63.79 -5.67%
TRX $0.3204 -1.95%
DOGE $0.0818 -5.46%
ADA $0.1570 -5.30%
BCH $213.01 -12.19%
LINK $7.38 -5.51%
HYPE $59.86 -6.30%
AAVE $61.11 -11.78%
SUI $0.6986 -5.66%
XLM $0.1969 -0.07%
ZEC $379.26 -7.17%

DeepSeek는 초고속 긴 문맥 훈련 및 추론을 위한 NSA를 출시했습니다

2025-02-18 16:37:45
수집

ChainCatcher 메시지에 따르면, 금십 보도에 의하면 DeepSeek가 NSA를 출시했습니다.

DeepSeek는 NSA가 하드웨어와 일치하며 본래 훈련 가능한 희소 주의 메커니즘으로, 초고속의 긴 컨텍스트 훈련 및 추론을 위해 설계되었다고 말했습니다. 현대 하드웨어에 대한 최적화 설계를 통해 NSA는 추론 속도를 높이고, 사전 훈련 비용을 낮추면서 성능에는 영향을 미치지 않습니다.

일반 벤치마크 테스트, 긴 컨텍스트 작업 및 지시 기반 추론에서, 그것의 성능은 완전 주의 모델과 동등하거나 더 나은 것으로 나타났습니다.

관련 태그
관련 태그
app_icon
ChainCatcher Building the Web3 world with innovations.