稀疏 - Search News

News

23h

一夜颠覆Sora神话，H200单卡5秒出片，全华人团队开源AI引爆视频圈

基于FastVideo架构，FastWan2.1-1.3B在单张H200上，去噪时间仅1秒，5秒内生成了480p的5秒视频。在一张RTX 4090上，则耗时21秒生成一个视频，去噪时间2.8秒。

腾讯网2d

攻克GRPO奖励稀疏难题！华为提出强化学习框架GHPO，增强推理模型训练稳定性

研究团队提出了GHPO，能够提升强化学习效率。对于给定问题和真实答案，GHPO 首先生成一组个独立响应，随后通过奖励模型评估对应的二元奖励 ...

6don MSN

ACL 2025最佳论文揭秘：DeepSeek原生稀疏注意力机制引知乎热议

在ACL ...

DeepSeek NSA技术夺冠ACL：稀疏注意力**AI新突破**引爆开发者热议

DeepSeek在ACL2025上凭借其原生稀疏注意力（NSA）机制摘得最佳论文桂冠，这一AI新突破引发了行业内的广泛关注。这项研究成果不仅在学术界掀起了对稀疏注意力技术的新一轮热潮，也点燃了知乎平台AI开发者的讨论热情。本文将深入解读NSA机制 ...

腾讯网4d

PLADIS：三星研究院用稀疏注意力机制让AI画图更懂你说的话

现在，三星研究院的团队提出了一个巧妙的解决方案，叫做PLADIS。他们的思路就像是调整服务员的"注意力分配机制"——不需要重新培训，也不需要额外的确认步骤，只需要让AI在理解你的文字描述时变得更加"专注"和"挑剔"。

雷锋网3y

在Scaling Transformers用稀疏性就足够了！“有了这样的 ...

导语：本文研究了模型中所有层级的稀疏变量，并提出了-Scaling Transformers。大型模型在许多任务上都产生了令人印象深刻的结果，但是训练和微调的 ...

新浪网4mon

清华稀疏Attention，无需训练加速一切模型！|清华大学 ...

实现通用的，无需训练的稀疏 Attenion 有哪些挑战？挑战 1 通用性：Attention 虽然具备稀疏性质，但是其稀疏形状在不同的模型甚至同一模型的不同层 ...

3don MSN

GPT-OSS模型参数大曝光，OpenAI或推116亿稀疏参数MoE架构，AI领域迎新变革

近期，网络上出现了关于OpenAI可能推出名为“GPT-OSS”的开源模型系列的消息，这一消息迅速引起了业界的广泛关注。据传，GPT-OSS系列模型的参数规模涵盖20亿至120亿不等，采用了前沿的MoE（专家混合）架构，并融入了长上下文扩展及高效的注 ...

雷锋网10y

二、稀疏动量：一种训练稀疏网络的有效方法 - 雷峰网

使用稀疏动量训练的一些稀疏网络，其性能与权重仅为 5%的密集网络训练结果相一致。是什么使这5%的权重如此有效，以至于它取得的效果与权重为 ...

刚刚，北大DeepSeek斩获ACL 2025最佳论文！全网首发一作演讲，稀疏注意力是终局

【新智元导读】 ...

生物通3d

基于注意力稀疏路由机制增强多任务学习的智能糖尿 ...

这篇综述提出了一种基于编码器-解码器结构和增强多任务学习（MTL）模型的智能糖尿病早期识别方法。通过多层自注意力机制自动提取特征表示，结合专家模块增强和稀疏路由（SR）机制，将每个专家视为弱分类器并利用dropout减少网络参数，动态分配样本至最优专家网络，在TIANCHI和NHANES数据集上 ...

Some results have been hidden because they may be inaccessible to you

Show inaccessible results