新的Zhiyuan报告编辑:Dinghui [New Zhiyuan简介] Jet-Nemotron是Nvidia的最新小型模型系列(2B/4B
Xin Zhiyuan报告的编辑:Dinghui [新的Zhiyuan简介] Jet-Nemotron是最新的NVIDIA(2B/4B)模型,由所有中国人组成。它的主要变化在于维护后建筑搜索(Postnas)和一个新的线性喷射块模块的提议,从前训练的变压器开始实现了出色的建筑优化。与Qwen3,Gemma3,Llama3.2这样的模型相比,Jet-Nemotron在数学,代码,常识,获取和较长的上下文等测量中具有更高的准确性,并且对H100 GPU中吞吐量的理解最多可达53次。 Nvidia最近真的迷上了“小型模型”。刚才,NVIDIA发布了品牌系列混合模型架构,Jet-Nemotron。论文地址:https://arxiv.org/pdf/2508.15884项目地址:https://github.com/nvlabs/jet-nemotronjet-nemotron series in Jet-nemotron-2b和Jet-Nemotron-4B可用。 NVIDIA说,喷气新脱发系列“小型模型”的性能是YOND当前的最新开源源,即Qwen3,Qwen2.5,Gemma3和Llama3.2等整个语言模型。同时,效率的显着提高,H100 GPU中的吞吐量高达53.6倍。在右上角的雷达图中,您会发现喷气通知是一个简单的六边形战士。 Jet-Nemotron-4B模型几乎充满了六个尺寸的MMLU-PRO,数学,检索,常识,代码和长。在预填充和解码阶段,更多的JET-Nemotron-2b比QWEN 3-1.7B具有很大的优势,并且背景日益增加。在一个单词中,在相同的硬件和审查设置下,喷气新的杂种在较长的上下文场景中实现了吞吐量(解码可能会改善的50倍)中的数量级。同时,通常的含义/数学/代码/获取/长上下文的准确率增加而不是降低。与传统的全部注意小型模型相比,它是快速准确的。看起来nVidia已经在小型模型的小型模型领域设置了视图。上周,他们刚刚发布了仅9B的Nvidia Nemotron Nano 2模型。在复杂的inderence基准上,准确性比Qwen3-8b具有可比性或更好,并且吞吐量高达6倍。如今,较小的喷气系列已启动,尺寸降低了2B和4B型号。核心创新喷气新杂种有两个重大创新。再次在神经架构搜索后,Postnas),这是一个很棒的探索和过程培训架构,适用于任意训练的预训练的变压器模型; JetBlock是一种新的线性注意模块,其性能明显优于Mamba2(例如MAMBA2)。 PostNAS:训练后的体系结构探索和适应与以前的培训方法不同,以探索新的模型体系结构。这些帖子是根据预先训练的变压器模型来构建的。同时,它支持了对专家的灵活探索n块设计,大大降低了开发新语言模型体系结构的成本和风险。 Postnas首先确定整个注意力层的最佳位置,然后寻找改进的块设计。 PostNAS从预先训练的全面注意模型开始,并冻结到MLP。然后,薄薄的搜索是备用良好注意块的设计:首先确定关注整个层的最佳位置,然后选择最合适的线性注意力块或采用新的线性关注块,最后寻找最佳的超参数体系结构。将帖子应用于基线模型后,在所有基准测试中都可以实现准确性的显着提高。在预先训练的变压器模型中,并非所有注意力层都伴随着相同的作用。 Postnas宣布了对预训练的变压器模型的重要关注。 KV缓存尺寸是影响长上下文和LON的最关键因素G-代吞吐量。 Postnas硬件发现可以发现一些保持类似一代的体系结构,同时具有更多的杂物参数并达到更高的精度。 JetBlock:具有SOTA精度的新的线性注意模块引入了JetBlock:一种新型的线性注意模块,结合了动态发展,以搜索硬件体系结构,以增强线性注意力,从而在维持训练和通过过去的设计中倾斜时实现了显着的准确性改进。与JetBlock相比,MAMBA2块与下面完全相同的培训数据和培训方案进行了认真的比较。 JET-NEMOTRON-2B和JET-NEMOTRON-4B性能已达到或超过基本语言模型(例如QWEN3)在综合基准上的准确性。同时,跑步速度明显高21次和47倍,分别比qwen3-1.7b基础快47倍。参考:https://arxiv.org/pdf/2508.15884v1https://x.com/hancai_hm/status/1960000017235902722
特别声明:上面的内容(包括照片或视频(如果有))已由“ NetEase”自助媒体平台的用户上传和发布。该平台仅提供信息存储服务。
注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供信息服务。