News
研究团队提出了GHPO,能够提升强化学习效率。对于给定问题和真实答案 ,GHPO 首先生成一组个独立响应,随后通过奖励模型评估对应的二元奖励 ...
【新智元导读】AI视频生成进入了秒生极速时代!UCSD等机构发布的FastWan系模型,在一张H200上,实现了5秒即生视频。稀疏蒸馏,让去噪时间大减,刷新SOTA。 在一张RTX 4090上,则耗时21秒生成一个视频,去噪时间2.8秒。
1d
科技行者 on MSN港科大团队:动态掩码稀疏注意力提升大模型效率
研究团队提出的动态掩码稀疏注意力(Dynamic Mask Attention,简称DMA)就像给学生配了一副能够自动调节的智能眼镜。这副眼镜不仅能根据文章内容的重要程度自动调焦,还能让学生的不同"大脑区域"(多头注意力机制中的不同头)专注于不同类型的信息。更重要的是,这副眼镜是可以学习和训练的——随着学生阅读越来越多的文章,眼镜会变得越来越聪明,越来越知道什么时候该关注什么。
DeepSeek在ACL2025上凭借其 原生稀疏注意力(NSA)机制摘得最佳论文桂冠,这一AI新突破 引发了行业内的广泛关注。这项研究成果不仅在学术界掀起了对稀疏注意力技术的新一轮热潮,也点燃了知乎平台AI开发者的讨论热情。本文将深入解读NSA机制 ...
在ACL ...
在刚刚举办的计算语言学和自然语言处理领域的顶级国际会议 ACL 上,由 DeepSeek 创始人梁文锋亲自署名的论文从 8000 ...
实现通用的,无需训练的稀疏 Attenion 有哪些挑战? 挑战 1 通用性:Attention 虽然具备稀疏性质,但是其稀疏形状在不同的模型甚至同一模型的不同层 ...
近期,网络上出现了关于OpenAI可能推出名为“GPT-OSS”的开源模型系列的消息,这一消息迅速引起了业界的广泛关注。据传,GPT-OSS系列模型的参数规模涵盖20亿至120亿不等,采用了前沿的MoE(专家混合)架构,并融入了长上下文扩展及高效的注 ...
导语:本文研究了模型中所有层级的稀疏变量,并提出了-Scaling Transformers。 大型模型在许多任务上都产生了令人印象深刻的结果,但是训练和微调的 ...
使用稀疏动量训练的一些稀疏网络,其性能与权重仅为 5%的密集网络训练结果相一致。 是什么使这5%的权重如此有效,以至于它取得的效果与权重为 ...
这篇综述提出了一种基于编码器-解码器结构和增强多任务学习(MTL)模型的智能糖尿病早期识别方法。通过多层自注意力机制自动提取特征表示,结合专家模块增强和稀疏路由(SR)机制,将每个专家视为弱分类器并利用dropout减少网络参数,动态分配样本至最优专家网络,在TIANCHI和NHANES数据集上 ...
本文针对毫米波混合MIMO系统中信道估计的实时性与精度平衡难题,提出了一种融合稀疏增强惩罚(SEP)的快速块最小均方(SEP-FBCLMS)算法。研究通过引入基于log-sum函数的SEP机制,有效规避了传统l0-norm近似方法的多参数调谐问题,在保证计算效率的同时显著提升稀疏信道估计精度。仿真结果表明 ...
Some results have been hidden because they may be inaccessible to you
Show inaccessible results