QRコードをスキャンしてダウンロードしてください。
BTC $66,905.49 +0.16%
ETH $2,057.31 -0.04%
BNB $588.69 +0.94%
XRP $1.32 +0.06%
SOL $80.45 +2.07%
TRX $0.3148 -0.12%
DOGE $0.0921 +2.00%
ADA $0.2482 +3.67%
BCH $443.90 +0.19%
LINK $8.69 +0.97%
HYPE $35.86 +2.25%
AAVE $94.82 +0.78%
SUI $0.8760 +1.63%
XLM $0.1635 -0.29%
ZEC $236.13 -1.76%
BTC $66,905.49 +0.16%
ETH $2,057.31 -0.04%
BNB $588.69 +0.94%
XRP $1.32 +0.06%
SOL $80.45 +2.07%
TRX $0.3148 -0.12%
DOGE $0.0921 +2.00%
ADA $0.2482 +3.67%
BCH $443.90 +0.19%
LINK $8.69 +0.97%
HYPE $35.86 +2.25%
AAVE $94.82 +0.78%
SUI $0.8760 +1.63%
XLM $0.1635 -0.29%
ZEC $236.13 -1.76%

DeepSeekは、超高速の長いコンテキストトレーニングと推論のためのNSAを発表しました。

2025-02-18 16:37:45
コレクション

ChainCatcher のメッセージによると、金十の報道で、DeepSeek が NSA を発表しました。

DeepSeek は、NSA がハードウェアと一致し、ネイティブにトレーニング可能なスパースアテンションメカニズムであり、超高速の長いコンテキストのトレーニングと推論に使用されると述べています。現代のハードウェアに最適化された設計により、NSA は推論速度を向上させ、事前トレーニングコストを削減しながら、性能には影響を与えません。

一般的なベンチマークテスト、長いコンテキストタスク、および指示に基づく推論において、そのパフォーマンスは完全なアテンションモデルと同等か、それ以上です。

関連タグ
関連タグ
app_icon
ChainCatcher Building the Web3 world with innovations.