News

基于FastVideo架构,FastWan2.1-1.3B在单张H200上,去噪时间仅1秒,5秒内生成了480p的5秒视频。 在一张RTX 4090上,则耗时21秒生成一个视频,去噪时间2.8秒。
研究团队提出了GHPO,能够提升强化学习效率。对于给定问题和真实答案 ,GHPO 首先生成一组个独立响应,随后通过奖励模型评估对应的二元奖励 ...
DeepSeek在ACL2025上凭借其 原生稀疏注意力(NSA)机制摘得最佳论文桂冠,这一AI新突破 引发了行业内的广泛关注。这项研究成果不仅在学术界掀起了对稀疏注意力技术的新一轮热潮,也点燃了知乎平台AI开发者的讨论热情。本文将深入解读NSA机制 ...
现在,三星研究院的团队提出了一个巧妙的解决方案,叫做PLADIS。他们的思路就像是调整服务员的"注意力分配机制"——不需要重新培训,也不需要额外的确认步骤,只需要让AI在理解你的文字描述时变得更加"专注"和"挑剔"。
导语:本文研究了模型中所有层级的稀疏变量,并提出了-Scaling Transformers。 大型模型在许多任务上都产生了令人印象深刻的结果,但是训练和微调的 ...
实现通用的,无需训练的稀疏 Attenion 有哪些挑战? 挑战 1 通用性:Attention 虽然具备稀疏性质,但是其稀疏形状在不同的模型甚至同一模型的不同层 ...
近期,网络上出现了关于OpenAI可能推出名为“GPT-OSS”的开源模型系列的消息,这一消息迅速引起了业界的广泛关注。据传,GPT-OSS系列模型的参数规模涵盖20亿至120亿不等,采用了前沿的MoE(专家混合)架构,并融入了长上下文扩展及高效的注 ...
使用稀疏动量训练的一些稀疏网络,其性能与权重仅为 5%的密集网络训练结果相一致。 是什么使这5%的权重如此有效,以至于它取得的效果与权重为 ...
这篇综述提出了一种基于编码器-解码器结构和增强多任务学习(MTL)模型的智能糖尿病早期识别方法。通过多层自注意力机制自动提取特征表示,结合专家模块增强和稀疏路由(SR)机制,将每个专家视为弱分类器并利用dropout减少网络参数,动态分配样本至最优专家网络,在TIANCHI和NHANES数据集上 ...