每日技术进展追踪。
AI 每日资讯 — 2026-05-15
AI 每日资讯 — 2026-05-15 🔥 HuggingFace 每日论文 1. MinT: Managed Infrastructure for Training and Serving Millions of LLMs Mind Lab, Song Cao, Vic Cao 本文提出MinT(MindLab Toolkit),一种面向大规模LoRA微调与在线服务的托管式基础设施系统。MinT通过保持基础模型常驻内存、仅动态加载/卸载LoRA适配器,避免全量模型合并,统一抽象分布式训练、调度、数据迁移与服务流程。其在Scale Up、Scale Down和Scale Out三方面实现扩展:支持超大规模稠密模型与MoE架构(参数量超1T)的LoRA强化学习训练与推理;LoRA适配器体积可压缩至基座模型的1%以内,显著降低传输开销(步延迟降低2.85–18.3×);单引擎支持10⁵级策略索引,集群级支持千级并发适配器服务,MoE LoRA张量打包使热加载加速8.5–8.7×。实验验证MinT可高效管理百万级LoRA策略生命周期。 PDF · arXiv · 代码 · 项目 | ❤️ 137 2. Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context Zhaowei Wang, Lishu Luo, Haodong Duan 本文针对长上下文视觉语言模型(LVLMs)训练中数据配比与策略不明确的问题,系统研究了从32K扩展至128K上下文的持续预训练方法。作者发现长文档视觉问答(VQA)显著优于OCR转录任务,并通过消融实验得出三项关键结论:i) 均衡分布的序列长度比聚焦目标长度(如128K)更利于泛化;ii) 检索能力是主要瓶颈,应优先采用检索密集型数据混合;iii) 纯长文档VQA可有效保留短上下文性能。基于此,提出仅用5B token预算训练的MMProLong模型,在长文档VQA上提升7.1%,并在256K/512K超长上下文下保持强泛化能力。 PDF · arXiv | ❤️ 70 3. EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents Tara Bogavelli, Gabrielle Gauthier Melançon, Katrina Stankiewicz...