tech | Pan'Log

AI 每日资讯 — 2026-06-11

AI 每日资讯 — 2026-06-11 🔥 HuggingFace 每日论文 1. Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution Xucong Wang, Ziyu Ma, Shidong Yang 本文针对大语言模型（LLM）智能体在复杂任务中因交互反馈低效、训练环境静态而导致泛化能力受限的问题，提出Role-Agent框架，通过单一LLM同时扮演“智能体”与“环境”角色，实现自举式双角色协同演化。其核心包含World-In-Agent（WIA）与Agent-In-World（AIW）两大模块：WIA利用状态预测一致性构建过程奖励，增强环境建模能力；AIW基于失败轨迹分析与相似任务检索，动态重构训练分布以强化薄弱环节。在多个基准测试中，Role-Agent平均性能提升超4%，显著优于强基线。 PDF · arXiv · 代码 | ❤️ 73 2. Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization Paul Hyunbin Cho, Jinhyuk Jang, SeokYoung Lee 本文提出Lip Forcing，首个面向视频到视频唇形同步的少步自回归扩散方法，旨在解决现有扩散模型因全序列双向注意力与大量去噪步骤导致的实时推理瓶颈。该方法通过知识蒸馏，将14B参数的音频条件双向视频扩散教师模型压缩为因果学生模型，并设计Sync-Window DMD调度、两步去噪推理机制及SyncNet奖励函数。实验表明：1.3B学生模型达31 FPS，较同规模双向模型快17.6倍；14B学生模型推理速度提升39.8倍，且保持相近参考保真度；首帧延迟低于1毫秒，显著优于所有扩散基线。 PDF · arXiv · 代码 · 项目 | ❤️ 27 3. EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents Weixian Xu, Shilong Liu, Mengdi Wang...

AI 每日资讯 — 2026-06-10

AI 每日资讯 — 2026-06-10 🔥 HuggingFace 每日论文 1. Latent Spatial Memory for Video World Models Weijie Wang, Haoyu Zhao, Yifan Yang 本文针对视频世界模型中3D空间一致性建模的效率与保真度瓶颈，提出基于扩散隐空间的潜在空间记忆（Latent Spatial Memory），摒弃传统依赖RGB空间点云的显式3D记忆机制。所提出的Mirage框架通过深度引导的反投影将隐式token提升至3D空间构建持久化记忆，并直接在隐空间中进行视图合成与扭曲查询，避免像素空间重建带来的信息损失及重复编解码开销。实验表明，该方法相较显式3D基线实现端到端视频生成速度提升10.57倍、内存占用降低55倍，并在WorldScore基准上达到SOTA性能，在RealEstate10K上展现出优异的重建质量。 PDF · arXiv · 代码 · 项目 | ❤️ 47 2. OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics Mingxian Lin, Shengju Qian, Yuqi Liu 本文提出OmniGameArena——一个基于Unreal Engine 5构建的统一游戏基准，涵盖12款新设计的实时游戏，覆盖Solo（7）、PvP（3）和Coop（2）三类交互范式，并提供标准化动作接口以公平评估异构视觉语言模型（VLM）代理。针对现有基准仅报告单次冷启动得分、忽视能力演化过程的问题，作者引入“改进动力学曲线”（IDC）：一种基于工具增强型反思LLM的迭代优化框架，通过多轮自主精炼技能提示提升代理表现。实验在12个VLM代理上完成冷启动评测，并对其中4个顶尖代理开展IDC分析，首次系统刻画了性能演化轨迹与跨任务泛化能力。 PDF · arXiv · 代码 · 项目 | ❤️ 16 3. Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short Han Zhou, Adam X....

AI 每日资讯 — 2026-06-09

AI 每日资讯 — 2026-06-09 🔥 HuggingFace 每日论文 1. Your UnEmbedding Matrix is Secretly a Feature Lens for Text Embeddings Songhao Wu, Zhongxin Chen, Yuxuan Liu 本文揭示了大语言模型（LLM）在文本嵌入任务中表现欠佳的一个关键原因：其输出嵌入在词汇空间投影后过度对齐高频但语义贫乏的词元，从而抑制了细粒度语义表征能力。为此，作者提出EmbedFilter——一种基于LLM解嵌入矩阵（unembedding matrix）的轻量级线性变换方法，通过识别并滤除该矩阵所隐含的、主导高频词元生成的子空间，有效削弱其干扰，提升嵌入的语义质量。实验表明，EmbedFilter在多个LLM主干上显著提升零样本下游任务性能，同时实现自然的维度压缩，降低索引存储开销并加速检索，且不牺牲表征精度。 PDF · arXiv · 代码 | ❤️ 69 2. UniSHARP: Universal Sharp Monocular View Synthesis Meixi Song, Dizhe Zhang, Hao Ren 本文提出UniSHARP，一种面向通用单目视图合成的锐利渲染方法，旨在突破原SHARP方法对针孔相机模型的依赖，支持从标准透视相机到广角、鱼眼乃至全向全景相机的连续成像系统。核心思想是构建统一的全向潜在空间，通过在特征空间与高斯空间中进行隐式对齐实现跨模态一致性建模。具体而言，采用基于光线的通用表示，将高斯基元沿射线方向与径向距离排列，并融合源自UniK3D启发式编码器提取的2D语义与3D空间特征，联合解码生成完整高斯云。为系统评估，作者构建了覆盖多类场景与成像系统的基准数据集，并按视场角（FoV）分层设计，实现细粒度性能分析。实验表明，UniSHARP在各项指标上显著优于现有方法。 🏛️ Insta360 Research Team | PDF · arXiv · 代码 · 项目 | ❤️ 13 3. Watch, Remember, Reason: Human-View Video Understanding with MLLMs Jiahao Meng, Yue Tan, Qi Xu...

AI 每日资讯 — 2026-06-08

AI 每日资讯 — 2026-06-08 🔥 HuggingFace 每日论文 1. Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution Liliana Hotsko, Yinxi Li, Yuntian Deng Code语言模型需获取仓库级上下文以解析导入、API及项目约定，但现有方法（如长上下文输入或逐仓微调/LoRA）存在推理开销大、扩展性差及难以适应代码演化的缺陷。本文提出Code2LoRA，一种基于超网络的框架，可动态生成仓库专属LoRA适配器，在零推理token开销下注入仓库知识。其包含静态版（Code2LoRA-Static）与演化版（Code2LoRA-Evo），后者通过GRU隐状态随代码变更持续更新。在新构建的RepoPeftBench基准（604个Python仓库，含静态与演化双轨道）上，Code2LoRA-Static跨仓准确率达63.8%，媲美逐仓LoRA上限；Code2LoRA-Evo在演化轨道上跨仓准确率60.3%，显著优于共享LoRA（+5.2个百分点）。 PDF · arXiv | ❤️ 68 2. Complexity-Balanced Diffusion Splitting Noam Issachar, Dani Lischinski, Raanan Fattal 本文针对连续时间生成模型中单一庞大网络在整条扩散轨迹上均匀分配计算资源所导致的效率低下问题，提出复杂度均衡分割（CBS）框架。CBS基于函数逼近理论与de Boor等分布原理，将扩散时间轴划分为近似负担相等的若干段，并依据局部生成动态难度自适应分配表征容量。为此，作者设计了两种可计算的监测函数：基于流场Dirichlet能量的空间复杂度度量与基于采样轨迹加速度的几何复杂度度量，并通过轻量辅助模型实时估计其时序分布。实验表明，在SiT、JiT和UNet等多种架构及多个数据集上，CBS在不增加单步推理开销的前提下显著提升生成质量，例如在带CFG的SiT-XL上FID降低约35%。 🏛️ Raanan Fattal | PDF · arXiv · 代码 · 项目 | ❤️ 16 3. MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery Shangheng Du, Xiangchao Yan, Jinxin Shi...

AI 每日资讯 — 2026-06-07

AI 每日资讯 — 2026-06-07 🔥 HuggingFace 每日论文 1. Code2LoRA: Hypernetwork-Generated Adapters for Code Language Models under Software Evolution Liliana Hotsko, Yinxi Li, Yuntian Deng Code语言模型需获取仓库级上下文以解析导入、API及项目约定，但现有方法（如长上下文RAG或逐仓微调/LoRA）存在推理开销大、扩展性差及难以适应代码演化的缺陷。本文提出Code2LoRA，一种基于超网络的框架，可动态生成仓库专属LoRA适配器，在零推理token开销下注入仓库知识。其包含静态版（Code2LoRA-Static）与演化版（Code2LoRA-Evo），后者通过GRU隐状态随代码变更持续更新。在新构建的RepoPeftBench基准（604个Python仓库，含静态与演化双轨道）上，Code2LoRA-Static在跨仓和仓内断言补全任务中分别达63.8%和66.2%准确率，媲美逐仓LoRA上限；Code2LoRA-Evo在演化轨道上实现60.3%跨仓准确率，较共享LoRA提升5.2个百分点。 PDF · arXiv | ❤️ 63 2. Complexity-Balanced Diffusion Splitting Noam Issachar, Dani Lischinski, Raanan Fattal 本文针对连续时间生成模型中单一网络在扩散全过程内均匀分配计算资源所导致的效率低下问题，提出复杂度均衡分割（CBS）框架。该方法基于函数逼近理论与de Boor等分布原理，将扩散时间轴划分为近似负担相等的若干段，并依据局部建模难度动态分配子网络容量。为此，作者设计了两种可计算的监测函数：基于流场Dirichlet能量的空间复杂度度量和基于采样轨迹加速度的几何复杂度度量，并通过轻量辅助模型实时估计其时序分布。实验表明，在SiT、JiT及UNet等多种架构和数据集上，CBS在不增加单步推理开销的前提下显著提升生成质量，例如在SiT-XL+CFG配置下FID降低约35%。 PDF · arXiv · 代码 · 项目 | ❤️ 16 3. MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery Shangheng Du, Xiangchao Yan, Jinxin Shi...