AI 每日资讯 — 2026-05-15

AI 每日资讯 — 2026-05-15 🔥 HuggingFace 每日论文 1. MinT: Managed Infrastructure for Training and Serving Millions of LLMs Mind Lab, Song Cao, Vic Cao 本文提出MinT(MindLab Toolkit),一种面向大规模LoRA微调与在线服务的托管式基础设施系统。MinT通过保持基础模型常驻内存、仅动态加载/卸载LoRA适配器,避免全量模型合并,统一抽象分布式训练、调度、数据迁移与服务流程。其在Scale Up、Scale Down和Scale Out三方面实现扩展:支持超大规模稠密模型与MoE架构(参数量超1T)的LoRA强化学习训练与推理;LoRA适配器体积可压缩至基座模型的1%以内,显著降低传输开销(步延迟降低2.85–18.3×);单引擎支持10⁵级策略索引,集群级支持千级并发适配器服务,MoE LoRA张量打包使热加载加速8.5–8.7×。实验验证MinT可高效管理百万级LoRA策略生命周期。 PDF · arXiv · 代码 · 项目 | ❤️ 137 2. Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context Zhaowei Wang, Lishu Luo, Haodong Duan 本文针对长上下文视觉语言模型(LVLMs)训练中数据配比与策略不明确的问题,系统研究了从32K扩展至128K上下文的持续预训练方法。作者发现长文档视觉问答(VQA)显著优于OCR转录任务,并通过消融实验得出三项关键结论:i) 均衡分布的序列长度比聚焦目标长度(如128K)更利于泛化;ii) 检索能力是主要瓶颈,应优先采用检索密集型数据混合;iii) 纯长文档VQA可有效保留短上下文性能。基于此,提出仅用5B token预算训练的MMProLong模型,在长文档VQA上提升7.1%,并在256K/512K超长上下文下保持强泛化能力。 PDF · arXiv | ❤️ 70 3. EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz...

五月 15, 2026 · 6 分钟 · Pan

AI 每日资讯 — 2026-05-14

AI 每日资讯 — 2026-05-14 🔥 HuggingFace 每日论文 1. SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture Haiwen Diao, Penghao Wu, Hanming Deng 本文针对当前大视觉语言模型(VLMs)中理解与生成任务长期割裂、架构碎片化、表征空间不一致等结构性瓶颈,提出SenseNova-U1——基于NEO-unify原生统一架构的多模态模型。该范式将理解与生成视为同一底层过程的协同视角,构建了两个变体:SenseNova-U1-8B-MoT(稠密架构)与SenseNova-U1-A3B-MoT(30B混合专家架构)。实验表明,二者在文本理解、视觉-语言感知、知识推理、智能体决策及空间智能等理解任务上媲美顶尖单向VLM;同时在任意模态到图像(X2I)合成、文本密集型信息图生成及交错式图文生成等生成任务中,兼具语义一致性与视觉保真度。论文还系统公开了模型设计、数据预处理、预/后训练及推理策略,推动社区研究。 PDF · arXiv · 代码 | ❤️ 115 2. AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward Runhui Huang, Jie Wu, Rui Yang 本文提出AlphaGRPO框架,将分组相对策略优化(GRPO)引入自回归-扩散统一多模态模型(UMMs),无需冷启动即可提升多模态生成能力。其核心在于激发模型内在的高级推理能力:一是推理型文生图生成,主动推断用户隐含意图;二是自反思式精修,自主诊断并修正生成结果的语义与质量偏差。为解决真实场景中多模态生成监督信号不稳定的问题,我们设计分解式可验证奖励(DVReward)——利用大语言模型将复杂请求拆解为原子级、可验证的语义与质量子问题,并由通用多模态大模型提供可靠、可解释的反馈。在GenEval、TIIF-Bench、DPG-Bench、WISE等基准及GEdit编辑任务上,AlphaGRPO均取得显著性能提升,验证了该自反思强化学习范式能有效利用模型固有理解能力驱动高保真生成。 PDF · arXiv · 代码 · 项目 | ❤️ 25 3. CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives Yihao Meng, Zichen Liu, Hao Ouyang...

五月 14, 2026 · 6 分钟 · Pan

AI 每日资讯 — 2026-05-13

AI 每日资讯 — 2026-05-13 🔥 HuggingFace 每日论文 1. SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture Haiwen Diao, Penghao Wu, Hanming Deng 本文针对当前大视觉语言模型(VLMs)中理解与生成任务长期割裂、架构碎片化、表征空间不一致等结构性瓶颈,提出SenseNova-U1——首个基于NEO-unify原生统一架构的多模态模型系列。该范式将理解与生成视为同一底层过程的协同视角,推出8B稠密参数(SenseNova-U1-8B-MoT)和30B-A3B混合专家(SenseNova-U1-A3B-MoT)两个变体。实验表明,其在文本理解、视觉-语言感知、知识推理、智能体决策与空间智能等理解任务上媲美顶尖单向VLM;同时在任意模态到图像(X2I)合成、文本密集型信息图生成及交错式图文生成等生成任务中,兼具语义一致性与视觉保真度。论文还系统公开了模型设计、数据构建、预/后训练及推理策略,为统一多模态智能研究提供可复现基础。 PDF · arXiv · 代码 | ❤️ 126 2. AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward Runhui Huang, Jie Wu, Rui Yang 本文提出AlphaGRPO框架,将分组相对策略优化(GRPO)引入自回归-扩散统一多模态模型(UMMs),无需冷启动即可提升多模态生成能力。其核心在于激发模型内在的高级推理能力:一是推理型文生图生成,主动推断用户隐含意图;二是自反思式精修,自主诊断并修正生成结果的语义与质量偏差。为解决真实场景下多模态生成监督信号不稳定的问题,我们设计分解式可验证奖励(DVReward)——利用大语言模型将复杂请求拆解为原子级、可验证的语义与质量子问题,并由通用多模态大模型提供可靠、可解释的反馈。在GenEval、TIIF-Bench、DPG-Bench、WISE等基准及GEdit编辑任务上,AlphaGRPO均取得显著提升,验证了该自反思强化方法能有效利用模型固有理解能力驱动高保真生成。 PDF · arXiv · 代码 · 项目 | ❤️ 25 3. CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives Yihao Meng, Zichen Liu, Hao Ouyang...

五月 13, 2026 · 7 分钟 · Pan

AI 每日资讯 — 2026-05-12

AI 每日资讯 — 2026-05-12 🔥 HuggingFace 每日论文 1. Pixal3D: Pixel-Aligned 3D Generation from Images Dong-Yang Li, Wang Zhao, Yuxin Chen 本文针对图像到3D生成中像素级保真度(fidelity)不足的核心瓶颈,提出Pixal3D——一种像素对齐的3D生成范式。不同于在规范空间中生成再通过注意力机制注入图像线索的传统方法,Pixal3D直接在输入视角下进行像素对齐的3D生成,并引入像素反投影条件机制,将多尺度图像特征显式提升为3D特征体,建立无歧义的像素-3D对应关系。实验表明,Pixal3D显著提升生成 fidelity,逼近重建水平,同时支持多视角融合与高保真、物体分离的场景合成。 PDF · arXiv · 代码 · 项目 | ❤️ 12 2. Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning Junhao Shen, Teng Zhang, Xiaoyan Zhao 本文针对大语言模型智能体在强化学习中依赖外部技能解决复杂任务时面临的技能管理僵化问题,提出动态技能生命周期管理框架SLIM。SLIM将外部技能集合建模为与策略联合优化的动态变量,通过“留一技能剔除”验证量化各技能的边际外部贡献,并引入保留、退役与扩展三类生命周期操作,实现任务与阶段自适应的技能集演化。在ALFWorld和SearchQA上的实验表明,SLIM平均超越最优基线7.1个百分点;进一步分析证实策略内化与外部技能调用可协同共存,验证了动态技能管理的必要性与有效性。 PDF · arXiv · 代码 | ❤️ 11 3. ELF: Embedded Language Flows Keya Hu, Linlu Qiu, Yiyang Lu 本文针对扩散语言模型(DLMs)在连续空间建模能力不足的问题,提出Embedded Language Flows(ELF)——一种基于连续时间Flow Matching的嵌入空间扩散模型。ELF全程在词嵌入的连续空间中进行去噪建模,仅在最终时刻通过共享权重网络映射至离散token,从而无缝复用图像领域成熟的扩散技术(如无分类器引导CFG)。实验表明,ELF在生成质量上显著超越现有离散与连续DLMs,且采样步数更少,验证了其作为高效连续语言生成范式的潜力。 PDF · arXiv | ❤️ 2...

五月 12, 2026 · 6 分钟 · Pan

AI 每日资讯 — 2026-05-11

AI 每日资讯 — 2026-05-11 🔥 HuggingFace 每日论文 1. Flow-OPD: On-Policy Distillation for Flow Matching Models Zhen Fang, Wenxuan Huang, Yu Zeng 现有流匹配(Flow Matching, FM)文本到图像模型在多任务对齐中面临奖励稀疏性与异构目标联合优化导致的梯度干扰,引发指标“跷跷板效应”与普遍的奖励作弊问题。本文提出Flow-OPD——首个将在线策略蒸馏(On-Policy Distillation, OPD)引入FM模型的统一后训练框架。其采用两阶段对齐策略:先通过单奖励GRPO微调构建领域专用教师模型;再基于流匹配的冷启动机制初始化策略,并通过在线采样、任务路由标注与稠密轨迹级监督完成知识融合。进一步提出流形锚点正则化(MAR),利用无任务偏置的教师模型提供全数据监督,稳定生成流形并缓解纯强化学习对美学质量的损害。在Stable Diffusion 3.5 Medium上,GenEval得分由63提升至92,OCR准确率由59提升至94。 PDF · arXiv · 代码 · 项目 | ❤️ 71 2. LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling Tong Zheng, Haolin Liu, Chengsong Huang 本文提出AutoTTS框架,旨在通过环境驱动的智能体自动发现更优的测试时扩展(TTS)策略,以提升大语言模型(LLM)推理性能。区别于依赖人工设计启发式规则的传统方法,AutoTTS将研究焦点转向构建可学习环境:其核心在于构造具备可处理控制空间与高频廉价反馈的发现环境。具体地,作者将宽—深TTS建模为基于预采集推理轨迹与探针信号的控制器综合问题,并引入β参数化与细粒度执行迹反馈机制,显著提升搜索效率与可诊断性。实验表明,在数学推理基准上,自动发现的策略在准确率—计算成本权衡上超越强手工基线,且具备跨任务与跨模型规模的泛化能力;整个发现过程仅耗时160分钟、成本39.9美元。 PDF · arXiv · 代码 · 项目 | ❤️ 51 3. Normalizing Trajectory Models Jiatao Gu, Tianrong Chen, Ying Shen...

五月 11, 2026 · 7 分钟 · Pan