DeepSeekは、超高速の長いコンテキストトレーニングと推論のためのNSAを発表しました。
ChainCatcher のメッセージによると、金十の報道で、DeepSeek が NSA を発表しました。
DeepSeek は、NSA がハードウェアと一致し、ネイティブにトレーニング可能なスパースアテンションメカニズムであり、超高速の長いコンテキストのトレーニングと推論に使用されると述べています。現代のハードウェアに最適化された設計により、NSA は推論速度を向上させ、事前トレーニングコストを削減しながら、性能には影響を与えません。
一般的なベンチマークテスト、長いコンテキストタスク、および指示に基づく推論において、そのパフォーマンスは完全なアテンションモデルと同等か、それ以上です。









