tech-news

AI 每日资讯 — 2026-05-25

AI 每日资讯 — 2026-05-25 🔥 HuggingFace 每日论文 1. Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving Jiahao Wang, Bo Sun, Yijing Bai 本文针对自动驾驶系统（ADS）训练与验证中高质量、多样化传感器数据稀缺的问题，提出Sensor2Sensor框架，实现从野外单目行车记录仪视频到高保真多模态车载传感器日志（含多视角图像与LiDAR点云）的跨形态生成转换。为解决真实配对数据缺失难题，作者创新性地利用4D高斯溅射（4DGS）对真实AV日志进行4D重建与虚拟视角渲染，合成配对训练样本；进而设计基于扩散模型的生成架构完成逆向转换。实验表明，生成数据在几何一致性、语义保真度与物理合理性方面显著优于基线方法，并成功将互联网及实采dashcam视频转化为可用于ADS闭环测试与模型微调的多模态仿真数据，有效拓展了外部数据源的利用边界。 PDF · arXiv | ❤️ 24 2. Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention Ali Hatamizadeh, Yejin Choi, Jan Kautz 本文提出Gated DeltaNet-2，旨在解决线性注意力中记忆编辑的耦合问题：传统方法（如KDA和Gated DeltaNet）使用单一标量门控同时控制“擦除”旧键内容与“写入”新值内容，易导致语义混淆。该模型引入通道级独立门控机制——擦除门 $b_t$ 与写入门 $w_t$，解耦二者操作，并统一整合自适应遗忘与通道级衰减。理论层面推导出快速权重更新视角、支持通道衰减的分块WY算法及门控感知的反向传播，兼顾训练并行性与推理效率。在1.3B参数规模、100B FineWeb-Edu数据上训练后，Gated DeltaNet-2在语言建模、常识推理与长程依赖任务中全面超越Mamba-2、Gated DeltaNet、KDA及Mamba-3变体。 🏛️ Yejin Choi, Jan Kautz | PDF · arXiv · 代码 | ❤️ 21 3. Diversed Model Discovery via Structured Table Discovery Zhengyuan Dong, Renée J....

AI 每日资讯 — 2026-05-24

AI 每日资讯 — 2026-05-24 🔥 HuggingFace 每日论文 1. Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving Jiahao Wang, Bo Sun, Yijing Bai 本文提出Sensor2Sensor，一种面向自动驾驶系统的跨形态传感器转换方法，旨在解决真实路测数据规模有限、传感器配置单一与长尾场景覆盖不足，而海量无结构行车记录仪视频又难以直接用于多模态感知模型训练与验证的矛盾。该方法通过4D高斯溅射（4DGS）对真实自动驾驶日志进行重建与虚拟视角渲染，生成配对的“伪行车视频—真多模态传感器”数据；进而基于扩散模型实现从单目行车视频到多视角图像与LiDAR点云的高保真生成。实验表明，生成数据在几何一致性、语义保真度与下游任务可用性方面均达实用水平，显著拓展了外部视觉数据在自动驾驶研发中的应用边界。 PDF · arXiv | ❤️ 22 2. Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention Ali Hatamizadeh, Yejin Choi, Jan Kautz 本文提出Gated DeltaNet-2，旨在解决线性注意力中压缩记忆编辑过程的耦合问题。现有方法（如KDA和Gated DeltaNet）采用标量门控统一控制“擦除”与“写入”，易导致记忆干扰。Gated DeltaNet-2通过引入通道级独立擦除门 $b_t$ 和写入门 $w_t$ 实现二者解耦，并统一了自适应遗忘与通道衰减机制。作者进一步推导出支持通道衰减的块状WY快速权重更新算法及门控感知反向传播，兼顾训练并行性与推理效率。在1.3B参数规模、100B FineWeb-Edu数据上训练后，该模型在语言建模、常识推理与长程依赖任务中全面超越Mamba-2、Gated DeltaNet、KDA及Mamba-3变体。 🏛️ Yejin Choi, Jan Kautz | PDF · arXiv · 代码 | ❤️ 20 3. Diversed Model Discovery via Structured Table Discovery Zhengyuan Dong, Renée J....

AI 每日资讯 — 2026-05-23

AI 每日资讯 — 2026-05-23 🔥 HuggingFace 每日论文 1. Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving Jiahao Wang, Bo Sun, Yijing Bai 本文针对自动驾驶系统（ADS）训练与验证中高质量、多样化传感器数据稀缺的问题，提出Sensor2Sensor框架，实现从野外单目行车记录仪视频到高保真多模态自动驾驶日志（含多视角图像与LiDAR点云）的跨形态传感器转换。为解决无配对数据难题，该方法创新性地利用4D高斯溅射（4DGS）对真实AV日志进行4D重建与虚拟视角渲染，生成合成配对数据；进而基于扩散模型完成逆向生成式转换。实验表明，生成数据在几何一致性、语义保真度与物理合理性方面显著优于现有方法，并成功将互联网及真实dashcam视频转化为可用于ADS训练与测试的多模态格式，有效拓展了外部数据源的应用边界。 PDF · arXiv | ❤️ 20 2. Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention Ali Hatamizadeh, Yejin Choi, Jan Kautz 本文提出Gated DeltaNet-2，旨在解决线性注意力中压缩记忆编辑过程中的关键瓶颈：传统方法（如KDA和Gated DeltaNet）使用单一标量门控同时控制“擦除”与“写入”，易导致语义混淆。该模型引入解耦的通道级擦除门 $b_t$ 和写入门 $w_t$，实现对键空间遗忘与值空间更新的独立调控，并统一了KDA与Gated DeltaNet为特例。进一步，作者推导出融合通道衰减的块状WY快速权重更新算法及门控感知反向传播机制，兼顾训练并行性与推理效率。在1.3B参数规模、100B FineWeb-Edu数据上训练后，Gated DeltaNet-2在语言建模、常识推理与长程依赖任务上全面超越Mamba-2、Gated DeltaNet、KDA及Mamba-3变体。 🏛️ Yejin Choi | PDF · arXiv · 代码 | ❤️ 11 3. Diversed Model Discovery via Structured Table Discovery Zhengyuan Dong, Renée J....

AI 每日资讯 — 2026-05-22

AI 每日资讯 — 2026-05-22 🔥 HuggingFace 每日论文 1. You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories Zhepei Wei, Xinyu Zhu, Wei-Lin Chen 本文揭示了强化学习与可验证奖励（RLVR）训练中大语言模型参数轨迹的低秩几何特性：其权重更新高度集中于一个可线性演化的秩-1子空间。基于此发现，作者提出轻量级方法RELEX，仅需短窗口（如前50步）观测即可通过线性回归外推后续检查点，无需额外可学习参数。在Qwen2.5-Math-1.5B、Qwen3-4B-Base和Qwen3-8B-Base三个模型上，RELEX以仅15%的训练步数即达到或超越完整RLVR性能，在域内与跨域推理基准上均表现优异；更可外推至观测长度的10–20倍（如50步→1000步），持续提升性能。消融实验进一步证实：提升秩数或引入非线性建模均无增益，验证了该方法的极简有效性。 PDF · arXiv · 代码 · 项目 | ❤️ 38 2. Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning Dian Zheng, Manyuan Zhang, Hongyu Li 本文提出Uni-Edit——首个面向统一多模态模型（UMM）调优的智能图像编辑通用任务。针对现有混合多任务训练因任务冲突导致性能折衷的问题，Uni-Edit通过单一任务、单阶段训练与单数据集，同步提升模型的图像理解、生成与编辑能力。作者指出图像编辑天然融合理解与生成需求，并构建首个可扩展的自动化数据合成流程，将VQA数据转化为含嵌套逻辑与问答结构的复杂编辑指令，生成高质量数据集Uni-Edit-148k。在BAGEL和Janus-Pro上的实验表明，仅用Uni-Edit微调即可全面增强三大能力，无需额外模块或辅助训练策略。 PDF · arXiv · 代码 · 项目 | ❤️ 17 3. Mem-π: Adaptive Memory through Learning When and What to Generate Xiaoqiang Wang, Chao Wang, Hadi Nekoei...

AI 每日资讯 — 2026-05-21

AI 每日资讯 — 2026-05-21 🔥 HuggingFace 每日论文 1. MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation Yujie Wei, Yujin Han, Zhekai Chen 本文针对多镜头音视频（MSAV）生成模型缺乏系统、可靠评估方法的问题，提出首个综合性基准MSAVBench及自适应混合评估框架。该基准覆盖视频、音频、镜头、参考四大维度，支持最多15镜头的多样化任务与非现实场景；评估框架引入自适应镜头分割校正、实例级主观评分准则及工具驱动的证据提取机制，显著提升鲁棒性与人类判断一致性（Spearman相关系数达91.5%）。对19个前沿闭源与开源模型的系统评测表明，现有方法在导演级控制与细粒度音视频同步方面仍存在明显短板，而模块化或智能体式生成范式有望弥合开源与闭源模型间的性能差距。 PDF · arXiv | ❤️ 11 2. PixVerve: Advancing Native UHR Image Generation to 100MP with a Large-Scale High-Quality Dataset Haojun Chen, Haoyang He, Chengming Xu 本文针对超高清（UHR）图像生成中高分辨率数据稀缺、建模困难等核心挑战，构建了首个开源百万级像素（≥100MP）文本到图像数据集PixVerve-95K，涵盖95K高质量图像及七维细粒度标注。基于该数据集，作者首次系统性地将多种T2I基础模型原生扩展至100MP分辨率生成，并提出三种高效训练策略。进一步，设计了融合传统指标与多模态大语言模型评估的PixVerve-Bench基准，全面衡量UHR图像的视觉质量与语义一致性。实验验证了方法的有效性，并为未来UHR生成研究提供了重要数据、模型与评估范式支撑。 PDF · arXiv · 代码 · 项目 | ❤️ 8 3. Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding Yuhao Shen, Tianyu Liu, Xinyi Hu...