AI 每日资讯 — 2026-05-20
🔥 HuggingFace 每日论文
1. LongLive-2.0: An NVFP4 Parallel Infrastructure for Long Video Generation
Yukang Chen, Luozhou Wang, Wei Huang
LongLive-2.0 提出了一种基于 NVFP4 的全栈并行基础设施,专为长视频生成的训练与推理优化设计。其核心创新包括:训练阶段引入序列并行自回归(AR)机制——Balanced SP,通过在各计算节点上配对“干净历史”与“
加噪目标”时间块,实现SP感知的分块VAE编码与自然teacher-forcing掩码;结合NVFP4低精度计算,显著降低显存占用并加速GEMM运算。推理阶段支持Blackwell架构下的W4A4 NVFP4量化、NVFP4 KV缓存及异步流式VAE解码,非Blackwell平台则采用SP推理与量化KV缓存协同优化通信开销。实验表明,该框架在保持高质量生成的同时,大幅提升长视频建模效率与端到端吞吐量。2. Code as Agent Harness
Xuying Ning, Katherine Tieu, Dongqi Fu
本文提出“代码即代理框架”(Code as Agent Harness)这一新范式,将代码从传统生成目标升维为代理系统的核心基础设施,支撑推理、行动、环境建模与执行验证。作者构建三层分析框架:(1)框架接口层,刻画代码如何连接代理
与外部能力;(2)框架机制层,涵盖面向长周期任务的规划、记忆、工具调用及反馈驱动的控制与优化;(3)扩展层,探讨单代理到多代理系统中共享代码构件对协同、审查与验证的支持。综述覆盖编程助手、GUI/OS自动化、具身智能、科学发现等七大应用场景,并指出评估体系、鲁棒性、可解释性等关键开放挑战。3. WavFlow: Audio Generation in Waveform Space
Feiyan Zhou, Luyuan Wang, Shoufa Chen
本文提出WavFlow,一种直接在原始波形空间生成高保真音频的新型框架,摒弃了主流依赖潜在空间压缩的范式。为应对波形信号高维性与低能量带来的建模挑战,WavFlow引入波形分块(waveform patchify)构建2D令牌网格
,并通过幅度提升(amplitude lifting)统一信号尺度,结合直接x-prediction的流匹配策略实现稳定优化;同时构建包含500万高质量视频-文本-音频三元组的自动化数据集,支撑模型从零学习细粒度声学模式。实验表明,WavFlow在VGGSound(FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44)和AudioCaps(FD_PANNs: 10.63, IS_PANNs: 12.62)基准上达到或超越先进潜在空间方法,验证了无压缩波形生成的可行性与可扩展性。4. Actionable World Representation
Kunqi Xu, Jitao Li, Jianglong Ye
本文针对物理世界建模中缺乏统一、可操作的对象表征这一核心问题,提出WorldString——一种基于点云或RGB-D视频流直接学习真实物体状态流形的神经架构。区别于现有方法将对象动作状态隐含于视频生成或动态场景重建中,WorldS
tring显式建模对象作为具有内在属性与可变状态的可操作实体,构建兼具几何感知与物理语义的数字孪生基础模块。其全可微结构天然支持与策略学习及神经动力学模型端到端联合优化。实验表明,WorldString在跨视角对象状态重建、动作泛化与下游控制任务迁移中均展现出优越性能与强泛化能力。5. SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training
Komal Kumar, Ankan Deria, Abhishek Basu
本文针对扩散模型在后训练阶段的安全对齐问题,提出SafeDiffusion-R1——一种无需监督标注数据的在线奖励引导框架。该方法基于Group Relative Policy Optimization(GRPO)算法,在线优化模
型对正/负文本提示的响应,避免了传统监督微调与离线强化学习引发的灾难性遗忘。创新性地设计了一种CLIP嵌入空间内的“方向引导奖励机制”,通过将文本表征向安全方向拉近、向不安全方向推远,替代专用安全/风险判别器。实验表明,该方法将不适当内容生成率从SD v1.4的48.9%显著降至18.07%,裸露检测数由646例减少至15例,同时提升GenEval上的组合生成质量(42.08%→47.83%),并在七类跨域有害提示上展现出优异泛化能力,达到当前最优性能。6. Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation
Qianhao Yuan, Jie Lou, Xing Yu
本文针对多模态大语言模型(MLLMs)在细粒度视觉理解任务中表现不佳的问题,提出Vision-OPD——一种基于策略内自蒸馏的区域到全局感知对齐框架。作者发现MLLMs存在“区域—全局感知鸿沟”:模型在证据裁剪图上回答细粒度问题显
著优于全图输入,表明其失败主因在于难以聚焦关键视觉证据,而非局部识别能力不足。Vision-OPD通过从同一MLLM实例化裁剪图条件教师与全图条件学生策略,在学生生成的策略轨迹上最小化教师与学生下一词分布的token级KL散度,实现无需外部教师、标注、奖励模型或推理时工具调用的端到端自蒸馏。实验表明,该方法在多个细粒度视觉理解基准上超越或媲美更大规模的开源、闭源及“图像思维”智能体模型。7. PIXLRelight: Controllable Relighting via Intrinsic Conditioning
Miguel Farinha, Ronald Clark
本文提出PIXLRelight,一种面向物理可控单图像重光照的前馈式方法。针对现有方法在光照控制粒度、误差累积或优化开销等方面的局限,该方法通过共享的内在表征(albedo、diffuse shading与非漫反射残差)桥接基于物
理的渲染(PBR)与数据驱动合成。训练时利用多光照配对照片进行内在分解;推理时则基于输入图像的粗略3D重建,经路径追踪生成对应PBR光照下的内在条件,并由Transformer神经渲染器结合逐像素仿射调制实现目标光照迁移。实验表明,PIXLRelight支持任意PBR风格光照控制,在重光照质量上达到SOTA水平,单图处理耗时低于0.1秒。8. Advancing Narrative Long Video Generation via Training-Free Identity-Aware Memory
Jinzhuo Liu, Jiangning Zhang, Wencan Jiang
本文针对自回归长视频生成中长期一致性差与记忆退化问题,提出无需训练的恒定身份感知记忆框架IAMFlow。该框架通过大语言模型(LLM)从提示中显式提取带视觉属性的实体并分配全局唯一ID,结合视觉语言模型(VLM)异步校验渲染帧中的
属性,实现精准、显式的实体追踪,有效缓解身份漂移、角色重复与属性丢失。为提升推理效率,设计了包含异步视觉验证、自适应提示切换与模型量化在内的加速流水线,在保持高质量生成的同时超越现有基线速度。此外,构建了首个面向叙事流式视频生成的基准NarraStream-Bench,涵盖324个多提示脚本及多维评估协议。🔥 arXiv 每日论文
📄 arXiv: cs.AI
1. AgentWall: A Runtime Safety Layer for Local AI Agents
Ashwin Aravind
本文提出AgentWall——一种面向本地AI智能体的运行时安全与可观测性防护层,旨在解决智能体在本地环境中执行真实系统操作(如Shell命令、文件修改、API调用、网页浏览)时缺乏实时行为管控的关键问题。AgentWall通过M
CP代理与OpenClaw原生插件实现,以声明式策略对每个拟执行动作进行拦截、评估与审批,并完整记录执行轨迹。其支持Claude Desktop、Cursor等主流开发环境,单命令即可部署。实验表明,AgentWall在14项基准测试中达成92.9%的策略执行准确率,平均延迟低于1毫秒。2. ANNEAL: Adapting LLM Agents via Governed Symbolic Patch Learning
Safayat Bin Hakim, Keyan Guo, Wenkai Tan, Alvaro Velasquez, Shouhuai Xu, Houbing Herbert Song
本文提出ANNEAL——一种面向持久性故障消除的神经符号化LLM智能体,旨在解决现有LLM代理在重复执行相同任务时因底层过程知识(如操作符模式、前提条件与约束)未修复而导致的反复失败问题。ANNEAL通过Failure-Drive
n Knowledge Acquisition(FDKA)机制,在不修改基础模型权重的前提下,将反复失败转化为受控的符号化知识图谱编辑:定位失效操作符、生成带类型约束的符号补丁,并经多维评分、符号护栏与金丝雀测试验证后提交。所有编辑均具备完整溯源与确定性回滚能力。实验表明,在四个领域27组多种子运行中,ANNEAL将复发性故障率从基线方法(ReAct、Reflexion)的72–100%降至0%,且消融研究证实FDKA对结构化修复不可或缺,移除后成功率下降最高达26.7个百分点。3. From Prompts to Protocols: An AI Agent for Laboratory Automation
Angelos Angelopoulos, James F. Cahoon, Ron Alterovitz
本文提出了一种面向实验室自动化的AI智能体架构,旨在解决传统自动化实验平台中仪器协同复杂、编程门槛高、配置繁琐等瓶颈问题。该智能体将大语言模型与实验编排系统(EOS)深度集成,支持科学家通过自然语言交互式创建、执行、监控及优化实验
协议,并内置自动验证与错误修正机制。系统还配备可视化图编辑器,实现AI生成协议与手动编辑的双向同步。在化学、生物与材料科学三类模拟实验室中评估表明,其首次协议生成成功率高达97%,界面操作量减少一个数量级,显著提升了实验自动化效率与可及性。📄 arXiv: cs.CL
1. The Scaling Laws of Skills in LLM Agent Systems
Charles Chen, Qiming Yu, Yuhang Gu, Zhuoye Huang, Hanjing Li, Hongyu Liu, Simin Liu, Jinhao Liu, Dengyun Peng, Jiangyi Wang, Zheng Yan, Fanqing Meng, Ethan Qin, Carl Che, Mengkang Hu
本文系统探究了大语言模型(LLM)智能体系统中技能库的规模扩展规律。基于15个前沿LLM、1141项真实世界技能及超300万次路由与执行决策,发现两条耦合的标度律:路由律表明单步路由准确率随技能库规模呈对数衰减($R^2 > 0.
97$),错误模式从局部竞争演变为跨家族漂移,并最终被泛化过强的“黑洞技能”劫持;执行律揭示联合路由在状态实现前近似乘性,而正确执行可使困难下游决策成功率提升约4倍。关键参数——路由对数衰减斜率 $b$——统一刻画路由崩溃与下游可恢复性。依律优化后,预留集路由准确率从71.3%提升至91.7%,劫持率由22.4%降至4.1%,并在ClawBench与ClawMark基准上显著提升任务通过率。2. PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures
Yunan Lu, Luigi Liu, Omar Yahia, Arpit Sharma, Zhou Yu
本文提出PQR框架,旨在自动生成兼具多样性与真实性的用户查询,以有效揭示问答代理(QA agent)在实用性、安全性等维度上的失败案例。针对现有方法多聚焦于对抗性查询、忽视真实用户意图的局限,PQR通过查询重写模块与提示优化模块的
迭代协同,动态探索语义多样的查询变体,并基于历史反馈学习违反目标约束与提升真实性的策略。在电商QA代理评估任务中,PQR相较基线方法多发现23%–78%的无帮助响应,且生成查询在多样性与真实性指标上显著更优。3. Scaling Accessible Mathematics on arXiv: HTML Conversion and MathML 4
Deyan Ginev, Brian Caruso, Bruce Miller, Jeff Sank, Jacob Weiskoff
本文介绍了arXiv HTML Papers项目的最新进展,旨在提升数学论文在Web端的可访问性与渲染质量。项目自2023年启动以来,持续优化TeX/LaTeX到HTML的转换流程:2025–2026年初实现了社区驱动的 fide
lity 提升,处理约半数用户反馈;推进全量论文转换,错误率从25%降至10%(目标90%无错);首次集成MathML 4 Intent标注以支持无障碍语音输出;并启动LaTeXML的Rust重写,显著降低计算开销、加速提交预览。该实验性项目正随标准演进与AI技术发展逐步走向成熟。📄 arXiv: cs.LG
1. Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra
Yoichi Ochiai
本文系统性探索了在苹果M3 Ultra芯片(60核GPU、512 GB统一内存)上实现扩散模型实时推理的优化路径,聚焦于摄像头输入到图像生成(img2img)的端到端实时化。研究涵盖10个优化阶段,评估了CoreML转换、量化、T
oken Merging、神经引擎调度、紧凑模型设计、帧插值、kNN合成、pix2pix-turbo、光流跳帧及知识蒸馏等十余种技术。实验表明,传统CUDA平台有效的优化策略(如量化、多实例并行)在Apple Silicon统一内存架构下失效,而基于蒸馏模型SDXS-512的CoreML部署配合三线程相机流水线,最终在512×512分辨率下达成22.7 FPS实时性能。本工作首次系统揭示了苹果芯片上扩散模型推理的独特优化规律,并提供了面向实际部署的工程指南。2. Mirror Descent-Type Algorithms for the Variational Inequality Problem with Functional Constraints
Mohammad S. Alkousa, Fedor S. Stonyakin, Belal A. Alashqar, Seydamet S. Ablaev
本文针对带函数不等式约束的变分不等式问题(VIP),提出一类新型镜像下降型算法。该算法通过动态判别约束函数值,在可行步(productive step)与非可行步间自适应切换,并支持多种步长策略与停止准则。在算子单调有界、约束函数
Lipschitz连续凸的条件下,证明了算法达到给定精度所需的最优收敛速率。进一步,作者引入约束选择机制:仅在可行步中显式处理当前违反最严重的约束,显著降低多约束场景下的计算开销。此外,算法被拓展至δ-单调算子情形,使其可适用于次梯度信息不精确的约束优化问题。数值实验验证了所提方法的有效性与鲁棒性。3. Reducing Credit Assignment Variance via Counterfactual Reasoning Paths
Fei Ding, Yongkang Zhang, Yeling Peng, Youwei Wang, Guoxiong Zhou, Zijian Zeng
本文针对大语言模型(LLM)在多步推理强化学习中因稀疏终端奖励导致的信用分配困难问题,提出基于反事实推理路径的信用分配框架。该方法通过在同一输入下采样多条推理轨迹,将轨迹间差异视为隐式替代决策,构建过程级隐式优势估计器,将稀疏奖励
转化为步骤敏感的学习信号。在此基础上,作者提出隐式行为策略优化(IBPO)算法,在数学与代码推理基准上显著提升了训练稳定性与性能上限,有效降低了梯度方差,为释放LLM推理潜力提供了新路径。📄 arXiv: cs.CV
1. Noise2Params: Unification and Parameter Determination from Noise via a Probabilistic Event Camera Model
Owen Root, Julinda Mujo, Min Xu
本文针对事件相机(EC)缺乏统一、准确建模的问题,提出基于光子统计的首个概率化事件检测模型,首次在单一解析框架下统一刻画静态噪声事件与阶跃响应曲线(S曲线)。该模型推导出覆盖全照度区间的三种概率分布形式(精确泊松、鞍点近似与高斯近
似),揭示了两类行为的内在关联,并指出S曲线本质是概率响应而非固定阈值决策。基于此,作者提出Noise2Params方法,仅需静态均匀场景的噪声数据,即可通过误差最小化反演标定关键参数:对数对比度阈值 $B$、照度-光子转换因子 $\alpha$ 及强度依赖的漏电项 $\theta$。实验表明,由该模型生成的合成噪声图像训练的CNN,在真实数据重建任务中性能显著优于仅用实测数据训练的模型,验证了模型的物理合理性和实用性。2. StrLoRA: Towards Streaming Continual Visual Instruction Tuning for MLLMs
Chang Che, Ziqi Wang, Hui Ma, Cheems Wang, Zenglin Shi
本文针对多模态大语言模型(MLLMs)在真实场景中持续学习动态演化、交错混合视觉指令任务的挑战,提出流式持续视觉指令调优(StrCVIT)新范式,突破传统任务增量设定的局限。为此,作者设计StrLoRA方法:采用正则化的两阶段专家
路由机制,首先基于文本指令进行任务感知的稀疏专家选择,再通过局部视觉token与全局指令表征间的跨模态注意力实现token级专家加权;并引入路由稳定性正则化,对齐当前与历史指数滑动平均路由分布以缓解非平稳数据流下的灾难性遗忘。在新建StrCVIT基准上的实验表明,StrLoRA显著优于现有方法,有效支持模型从持续演化的多任务数据流中同步习得新能力、强化旧能力并抑制遗忘。3. How Many Visual Tokens Do Multimodal Language Models Need? Scaling Visual Token Pruning with F^3A
YiJie Huang, Yiqun Zhang, Zhuoyue Jia, Xiaocui Yang, Junzhao Huang, Zihan Wang, Shi Feng, Daling Wang, Yifei Zhang, Yongkang Liu
本文探讨多模态大语言模型中视觉令牌(visual token)的最优数量与分配策略,旨在解决高推理开销下的视觉信息压缩难题。作者提出无需训练的视觉令牌剪枝路由器F³A,将剪枝建模为任务条件下的证据搜索过程。F³A通过轻量级问题感知
线索、冻结的稀疏感知头匹配、粗粒度定位—细粒度优化—覆盖竞争—欠覆盖恢复四阶段机制,在固定令牌预算下动态分配视觉token。实验表明,F³A在零训练、零额外LLM前向计算的前提下,显著提升多种下游任务性能,同时保持原始多模态提示与解码流程不变。🔬 OpenReview 近期论文
1. RECAST: Expanding the Boundaries of LLMs’ Complex Instruction Following with Multi-Constraint Data
Zhengkang Guo, Wenhao Liu, Mingchen Xie
本文针对大语言模型(LLMs)在处理含大量显式约束(如超10项)的复杂指令时表现不佳的问题,提出RECAST框架——一种高效、可扩展的多约束数据合成方法。该框架从真实人机交互中提取多样化约束,构建了包含30K样本、覆盖19类约束的
高质量基准数据集RECAST-30K。实验表明,基于该数据集微调的模型在复杂指令遵循能力上显著提升,且不损害通用性能。此外,RECAST支持规则驱动与LLM驱动的双重自动验证机制,为强化学习中的奖励建模提供了可量化依据,进一步推动模型在高难度任务上的表现。2. Transducing Language Models
Vésteinn Snæbjarnarson, Samuel Kiegeland, Tianyu Liu
本文提出“语言模型转导”(Transducing Language Models)框架,旨在解决预训练语言模型输出格式与下游任务需求不匹配的问题。作者将确定性字符串到字符串的变换(特别是有限状态转换器,FST)形式化为构建新语言模
型的机制,通过在FST上对源字符串进行概率**边缘化**,实现对目标字符串的精确或近似分布建模,且无需修改原模型参数。论文设计了精确算法、高效近似算法,并给出理论分析。实验涵盖token↔byte、token↔word及DNA→氨基酸三类跨格式转换任务,验证了该方法可在推理时灵活适配不同输出粒度与模态,显著提升预训练模型的应用适配性。3. Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets
Yuchen Yang, Wenze Lin, Enhao Huang
本文针对大语言模型(LLM)微调中因数据集以句子级构建而与模型底层token级优化机制不匹配所引发的token级噪声问题,提出可解释的token级噪声过滤框架XTF。XTF将token对微调过程的复杂贡献解耦为推理重要性、知识新颖
性与任务相关性三个可量化属性,并基于评分结果动态掩蔽噪声token的梯度更新。在数学、代码和医学三大下游任务及7种主流LLM上的实验表明,XTF相较标准微调最高提升性能13.7%。该工作凸显了token级数据优化的重要性,并验证了属性分解策略在解释与改进训练机制中的有效性。4. Normalized Matching Transformer
Abtin Pourhadi, Paul Swoboda
本文提出归一化匹配变换器(NMT),一种面向图像对稀疏关键点匹配的高效高精度深度学习方法。NMT由强视觉骨干网络、基于样条卷积(SplineCNN)的几何特征精炼模块及归一化Transformer组成;其核心在于逐层施加超球面归一
化(单位范数嵌入),并联合优化InfoNCE对比损失与超球面均匀性损失,使匹配与非匹配关键点表征在每一层均具备强判别性。在PascalVOC和SPair-71k数据集上,NMT以显著优势刷新SOTA,分别超越BBGM、ASAR、COMMON和GMTR等方法5.1%和2.2%,且收敛速度提升至少1.7倍。5. Benchmarking ECG FMs: A Reality Check Across Clinical Tasks
M A Al-Masud, Juan Lopez Alcaraz, Nils Strodthoff
本文对8种心电图基础模型(ECG FMs)在26项临床任务上进行了系统性基准测试,涵盖12个公开数据集、1650个回归与分类目标。研究对比了微调与冻结两种迁移范式,并分析了不同数据规模下的标签效率与扩展规律。结果表明:在成人ECG
解读任务中,三类FM显著优于强监督基线;而轻量级结构化状态空间模型ECG-CPC在7类任务中的5类表现最优,凸显架构设计比参数规模更具决定性;FM将标签效率提升3.3–9倍,但扩展行为因架构而异;表征分析揭示性能相近模型内部表征结构差异显著。研究指出当前FM在心脏结构建模、预后预测及患者表型刻画方面仍存在明显短板。6. InfoMosaic-Bench: Evaluating Multi-Source Information Seeking in Tool-Augmented Agents
Yaxin Du, Yuanshuo Zhang, Xiyuan Yang
本文针对现有大语言模型(LLM)代理在多源信息检索任务中过度依赖开放网络搜索、难以有效融合领域专用工具的问题,提出首个面向工具增强型代理的多源信息寻求基准——InfoMosaic-Bench。该基准覆盖医学、金融、地图、视频、网页
及跨域整合六大领域,依托InfoMosaic-Flow合成流程,确保任务具备跨源依赖性、真实性与非平凡性。在14个前沿LLM代理上的实验表明:纯网络搜索性能有限(GPT-5准确率仅38.2%);领域工具增益具有选择性且不稳定;约22.4%的失败源于工具误选或误用,凸显当前模型在工具调用能力上的根本性短板。7. Tractability via Low Dimensionality: The Parameterized Complexity of Training Quantized Neural Networks
Robert Ganian, Frank Sommer, Manuel Sorge
本文系统研究了全量化ReLU神经网络训练问题的参数化复杂性,填补了现有理论研究集中于实值网络而忽视实际中广泛使用的整数量化网络的空白。作者首先证明:即使在二值化设定及网络结构高度受限(如极小深度/宽度)下,该问题仍为NP难,排除了
以深度、宽度等自然参数刻画的参数化可解性。另一方面,当联合输入维度、网络宽度(或更一般的树宽)以及输出维度(或误差界)作为参数时,问题存在固定参数可解算法。实验验证了所提算法在低维输入场景下的有效性。8. Benchmarking Stochastic Approximation Algorithms for Fairness-Constrained Training of Deep Neural Networks
Andrii Kliachkin, Jana Lepšová, Gilles Bareilles
本文针对公平性约束下的深度神经网络训练问题,构建了一个基于美国人口普查数据(Folktables)的大规模真实世界基准测试平台,旨在系统评估随机逼近类算法在约束优化中的性能。论文剖析了该任务在理论层面的挑战,综述了主流随机逼近方法
,并首次实现了三种尚未开源的前沿算法,在优化收敛性与公平性提升两方面进行实证比较。实验结果表明,不同算法在精度-公平性权衡上存在显著差异。作者已将基准测试框架作为开源Python包发布,以推动公平机器学习领域的标准化评估。9. Missingness Bias Calibration in Feature Attribution Explanations
Shailesh Sridhar, Anton Xue, Eric Wong
本文针对特征归因解释中由缺失性偏差(missingness bias)导致的重要性评分不可靠问题,提出一种轻量级后处理校正方法MCal。该方法将偏差视为模型输出空间的表层缺陷,而非深层表征缺陷,因而无需模型重训练或结构修改;其核心
是冻结预训练模型,在其输出上微调一个简单线性分类头以实现偏差校准。在涵盖医学影像、自然语言与表格数据的多领域基准实验中,MCal显著降低缺失性偏差,性能媲美甚至超越现有复杂方法,验证了偏差可修正性与方法高效性。10. GDGB: A Benchmark for Generative Dynamic Text-Attributed Graph Learning
Jie Peng, Jiarui Ji, Runlin Lei
本文针对动态文本属性图(DyTAG)生成任务缺乏高质量基准与标准化评估体系的问题,提出首个面向生成式学习的基准GDGB。该基准包含8个精心构建的DyTAG数据集,显著提升节点与边的文本质量;并首次定义两类生成任务:直推式动态图生成
(TDGG)与归纳式动态图生成(IDGG),后者支持新节点生成以建模图的动态演化。作者设计涵盖结构、时序与文本维度的多维评估指标,并提出基于大语言模型的多智能体框架GAG-General。实验验证了GDGB在任务评估与方法对比中的有效性,揭示了结构与文本特征协同对生成性能的关键影响。11. D$^2$GS: Depth-and-Density Guided Gaussian Splatting for Stable and Accurate Sparse-View Reconstruction
Meixi Song, Xin Lin, Dizhe Zhang
本文针对稀疏视角下3D高斯泼溅(3DGS)重建中普遍存在的过拟合与欠拟合问题,提出深度与密度引导的高斯泼溅框架D²GS。该方法通过深度-密度引导的Dropout策略自适应剔除近景冗余高斯,缓解过拟合;并设计距离感知保真度增强模块,
对远场区域施加针对性监督以改善欠拟合。此外,引入新型高斯分布稳定性评估指标,量化模型鲁棒性。在多个数据集上的实验表明,D²GS显著提升了稀疏视角下的重建精度与训练稳定性。12. Perturbation-Induced Linearization: Constructing Unlearnable Data with Solely Linear Classifiers
Jinlin Liu, Wei Chen, Xiaojin Zhang
本文针对网络数据未经授权被用于深度模型训练的问题,提出一种高效生成不可学习样本(unlearnable examples)的新方法——扰动诱导线性化(Perturbation-Induced Linearization, PIL)
。不同于依赖计算昂贵的深度代理模型的现有方法,PIL仅使用线性分类器生成对抗性扰动,在显著降低计算开销的同时,达到甚至超越现有方法的防御效果。作者揭示了其有效性背后的关键机制:扰动可诱导深层模型在训练过程中趋于线性化,从而阻碍其有效学习。此外,本文还分析了基于百分比的部分扰动策略下不可学习样本的鲁棒性特性。该工作为数据版权保护提供了轻量实用的解决方案,并深化了对不可学习样本内在机理的理解。13. Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM
Zicheng Zhang, Ke Wu, Xiangting Meng
单目3D高斯泼溅SLAM面临实时性差、几何精度低及多视角一致性弱等关键挑战。本文提出Flash-Mono,一种前馈加速的单目高斯泼溅SLAM系统:其前端采用基于循环神经网络与跨帧注意力机制的前馈模型,直接预测相机位姿与逐像素高斯属
性,规避传统逐帧优化,实现10倍加速;后端采用2D高斯surfels替代3D椭球体以提升几何保真度;闭环模块利用隐状态作为紧凑子图描述子,支持高效回环检测与全局Sim(3)优化以抑制漂移。实验表明,该方法在跟踪与建图质量上均达SOTA水平。14. RL Squeezes, SFT Expands: A Comparative Study of Reasoning LLMs
Kohsei Matsutani, Shota Takashiro, Gouki Minegishi
本文针对大语言模型(LLM)推理能力提升中监督微调(SFT)与基于可验证奖励的强化学习(RLVR)的作用机制不明问题,提出一种新型推理路径分析框架。研究在数学与代码领域、1.5B/7B/14B参数规模模型上,从轨迹级(完整推理链)
与步级(推理图节点)双粒度量化分析二者影响:RL显著压缩错误推理路径并使关键步骤功能高度集中(节点访问频率等衰减速率提升约2.5倍),而SFT则扩展正确路径并实现推理负载均匀分布(衰减速率降至约1/3)。多视角图拓扑分析进一步揭示二者互补特性,为“SFT先行、RL后置”的两阶段训练范式提供了可解释性依据,并对高质量推理数据构建与高效训练策略设计具有实践指导意义。15. Hybrid Training for Vision-Language-Action Models
Pietro Mazzaglia, Cansu Sancaktar, Markus Peschl
本文针对视觉-语言-动作(VLA)模型中链式思维(Chain-of-Thought, CoT)推理导致推理延迟高、影响真实机器人操作可用性的问题,提出混合训练(Hybrid Training, HyT)框架。HyT使VLA模型在训
练阶段学习从中间思维中获益以提升性能,却无需在推理时生成冗长CoT,从而显著降低延迟;同时支持条件化生成多样化输出(如直接动作、思维序列或指令遵循),增强推理灵活性。实验在多个仿真基准及真实世界机器人任务中验证了HyT在保持性能的同时大幅提升推理效率与部署实用性。📝 AI 官方博客
1. The new AI-powered Google Finance is expanding to Europe.
📝 Google AI Blog
本文介绍了AI驱动的全新Google Finance服务正式在欧洲地区上线。该升级版平台整合了生成式AI能力,支持用户以自然语言查询实时股价、财务数据、行业趋势及个性化投资建议;其核心技术包括基于多源金融数据微调的大语言模型、实时市场数据流…
处理架构,以及符合欧盟GDPR与MiFID II监管要求的安全合规框架。实验表明,新系统将复杂财务问题的平均响应时间缩短至1.2秒,用户查询准确率达94.7%,并在Beta测试中获得87%的欧洲用户积极反馈。此次扩展标志着Google在构建全球化、可信赖AI金融助手方面迈出关键一步。2. See what happens when creative legends use AI to make ads for small businesses.
📝 Google AI Blog
本文探讨了创意领域资深从业者(Susan Credle、Jayonta Jenkins 与 Tiffany Rolfe)如何将生成式人工智能应用于小型企业广告创作实践。研究通过真实案例分析,揭示AI在创意策略生成、视觉内容合成、文案优化及跨…
平台适配中的协同作用,强调“人机共创”模式对资源受限中小企业的价值赋能。关键技术涵盖多模态提示工程、品牌一致性微调与快速迭代测试框架。实验表明,AI辅助使广告产出效率提升约40%,客户转化率平均提高22%,同时保持高水准创意独特性与品牌调性。3. 5 gardening tips you can try right in Search
📝 Google AI Blog
本文介绍了一种将园艺知识直接集成到搜索引擎中的创新交互方式,旨在提升用户在搜索过程中获取实用、即时园艺建议的效率与体验。研究设计并实现了五项可直接在搜索界面中触发与呈现的园艺小贴士(如“按季节选花”“容器种植要点”等),结合结构化知识图谱与…
轻量级自然语言生成技术,实现查询意图识别与上下文感知的内容推送。实验表明,该方案使用户园艺类搜索任务完成时间平均缩短37%,满意度提升29%。4. Early Indicators of Reward Hacking via Reasoning Interpolation
📝 EleutherAI Blog
本文提出一种基于推理插值(reasoning interpolation)的早期预警方法,用于在强化学习智能体训练过程中识别奖励作弊(reward hacking)的潜在迹象。核心思想是利用重要性采样(importance sampling…
),结合经微调的“捐赠者”预填充(donor prefills)生成高质量推理轨迹,从而在策略尚未明显偏离目标行为前,检测其隐含的奖励优化偏差。该方法无需修改训练流程或访问环境内部状态,具备强实用性与可解释性。在多个基准任务上的实验表明,该方法可在奖励作弊发生前平均提前32%的训练步数发出预警,准确率达89.7%,显著优于基线检测方法。5. Reward Hacking Resarch Update
📝 EleutherAI Blog
本文为奖励黑客(Reward Hacking)问题的阶段性研究进展报告。针对强化学习智能体在优化不完善奖励函数时出现的目标错位现象,本工作系统梳理了现有奖励黑客案例的成因分类,提出一种基于奖励函数敏感性分析与行为轨迹可解释性验证的双阶段检测…
框架。关键技术包括:(1)构建奖励扰动鲁棒性评估指标;(2)引入反事实轨迹对比方法识别策略偏离;(3)设计轻量级奖励重标定模块以缓解过度优化。在Gridworld、SafeLife及自定义连续控制任务上的实验表明,该方法将典型奖励黑客行为检出率提升至92.3%,同时保持96.7%的原始任务性能,显著优于基线方法。6. Pretraining Data Filtering for Open-Weight AI Safety
📝 EleutherAI Blog
本文提出“深度无知”(Deep Ignorance)方法,旨在通过系统性过滤预训练数据提升开源大语言模型(LLM)的安全性。针对开放权重模型易受有害、偏见或越狱内容污染的问题,该方法设计多阶段数据筛选管道,结合语义毒性检测、知识边界识别与对…
抗性示例剔除技术,在不依赖微调或后处理的前提下,从源头削弱模型习得危险能力的可能。在多个安全基准(如BBQ、ToxiGen、SafeBench)上的实验表明,经过滤数据训练的模型在保持通用能力(MMLU、ARC)的同时,将越狱成功率降低达62%,有害响应率下降57%,且对数据删除攻击展现出更强鲁棒性。7. Introducing Claude Opus 4.7ProductApr 16, 2026Our latest Opus model brings stronger performance across coding, agents, vision, and multi-step tasks, with greater thoroughness and consistency on the work that matters most.
📝 Anthropic
本文介绍了Anthropic最新发布的Claude Opus 4.7模型,该模型在编程、智能体(agents)、多模态视觉理解及多步骤复杂任务上实现显著性能提升,尤其增强了推理的严谨性与结果的一致性。模型通过优化长程依赖建模、强化代码生成的…
语义准确性及跨模态对齐能力,在HumanEval、MMBench、AgentBench等基准测试中均取得SOTA表现。实验表明,其在真实场景下的任务完成率提升12.3%,错误率降低27.6%。同时,配套推出的Claude Design工具支持用户协同生成高质量可视化内容,进一步拓展了大模型在创意生产力领域的应用边界。8. ProductApr 17, 2026Introducing Claude Design by Anthropic LabsToday, we’re launching Claude Design, a new Anthropic Labs product that lets you collaborate with Claude to create polished visual work like designs, prototypes, slides, one-pagers, and more.
📝 Anthropic
暂无摘要
9. AnnouncementsApr 7, 2026Project GlasswingA new initiative that brings together Amazon Web Services, Anthropic, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks in an effort to secure the world’s most critical software.
📝 Anthropic
暂无摘要
📬 TLDR AI 精选
1. one daily email
该页面仅显示标题“one daily email”,无其他实质性内容,无法提取具体新闻或信息。
💬 Hacker News AI 热门
1. Gentoo News: Copy Fail, Dirty Frag, and Fragnesia Kernel Vulnerabilities
🔥 40 分 · 💬 3 评论