Wild Depseek很受欢迎,官方版本的速度,重量开源
发布时间:2025-07-06 12:20
在官方DePseek R2到达之前,我们领导了一个“野生”变体,其速度较低,性能低于R1。在过去的两天中,一种称为“ DeepSeek R1T2”的模型变得流行了!该模型比R1-0528快200%,比R1快20%。除了速度的最大优势外,它在GPQA钻石(专家级别的推理推理)和AIME 24(数学推理参考点)中都超过了R1,但未达到R1-0528。在技​​术层面,开发了专家会议技术(AOE),并集成了三个主要模型:DeepSeek的V3,R1和R1-0528。当然,该模型也是开源的,它可以按照MIT协议打开覆盖面的重量。面部地址:https://huggingface.co/tngtech/deepseak-tng-r1t2-chimeraafter附加理解,发现DepSeek R1T2是由德国德国德国德国咨询公司TNG推出的。 Modelor Complete称为“ DeepSeek-Tng R1T2 Chimera”(以下是C,CAlled R1T2)。除了上面在智能水平和产出效率之间提到的完美平衡外,与公司的第一个模型R1T Chimera相比,该模型还显着提高了智能,从而实现了创新同步令牌的一致性。不仅如此,即使没有系统消息,该模型也可以稳定执行,并提供自然的对话和互动体验。在评论部分中,我错误地认为该模型来自Speedseek官员,并且也采用了相同的路线。给您的模型多种名称。请勿使用主系列的下一代版本号。越来越多的人意识到,该模型“找到了智力与输出令牌的长度和速度的提高之间的最佳平衡”,并且对现实世界中模型的性能充满了期望。型号详细信息一般说明拥抱面本主页上的R1T2是基于DepSeek R的AOE Chimera型号1-0528,R1和V3-0324型号。该模型是一种大规模的语言模型,它使用具有671B参数量表的TransSeek-MoE Trans结构。 R1T2是该公司于4月26日推出的第一代模型R1T Chimera的第一次迭代。与使用双基本型号(V3-0324 + R1)的第一代体系结构相比,这次已将其更新为3memas融合体系结构,并添加了新的基础。 R1-0528型号。该模型是使用AOE构建的,并使用高精度直接大脑版本实现了技术。这种精确的融合不仅提供了全面的改进,而且还可以完全解决第一代R1代币的一致性中的缺陷。该小组表示,与其他模型相比,R1T2具有以下优点和缺点:DeepSeekr1:与R1T2相比,预计它将是R1的理想选择。两者几乎都是通用的,R1T2提高了性能和直接替换。与R1-0528:R1T相比与您不需要达到最高智能0528的最高水平相比,2通常建议使用R1T:R1T2,除非R1T的特定个性是最佳选择,否则通常建议使用。与DeepSeek v3-0324:V3相比,如果您对智力的关注不多,可以选择V3。但是,如果您需要推理能力,则R1T2是您的第一个选择。另外,R1T2限制反映在R1-0528中,但在高级参考测试中大于R1T2。在通过SpeechMap.ai(由XLR8HARDER提供)评估后,R1T2响应革兰am系统(保留)显着高于R1T,Pero低于R1-0528。功能调用与当下不兼容。在此阶段不建议使用基于R1的模型(可以修复后续版本)的密集呼叫场景。参考测试更改:开发版本已从AIME24+MT银行更改为AIMA24/25+GPQA-DIAMOND CLASSIFIFICAT离子系统以及新系统中R1和R1T第一代的差异远远超过了先前已发布的数据的差异。它也越来越大。最后,有关R1T2的重要AOE技术,请参见以下文章:文档标题:专家组装:具有新兴和适应性行为的Chimera LLM变体的线性时间构建纸质地址:https://arxiv.org/pdf/pdf/2506.14794参考链接: https://x.com/tngtech/status/1940531045432283412