每日技术进展追踪。
AI 每日资讯 — 2026-06-16
AI 每日资讯 — 2026-06-16 🔥 HuggingFace 每日论文 1. OmniVideo-100K: A Dataset for Audio-Visual Reasoning through Structured Scripts and Evidence Chains Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang 本文针对现有音视频问答(AVQA)方法中音画模态解耦、跨片段指代不一致及缺乏长时序与深度跨模态推理能力等关键问题,提出一种新型自动化数据构建引擎。该引擎包含两大核心机制:(1)实体锚定视频脚本化,将视频转化为含全局实体列表、摘要及分段音视频联合描述的结构化脚本,保障跨片段一致性并重建音画关联;(2)线索引导式问答生成,先从脚本中挖掘跨片段、多模态高价值线索,再据此生成问答对。基于此,构建了指令微调数据集OmniVideo-100K及人工验证测试集OmniVideo-Test。在该数据集上微调VITA-1.5、Qwen2.5-Omni-7B与Qwen3-Omni-30B模型,在OmniVideo-Test上最高提升达20.59%。 PDF · arXiv · 代码 · 项目 | ❤️ 21 2. RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space Xichen Pan, Aashu Singh, Satya Narayan Shukla 本文提出RepFusion,一种在表征空间中利用多模态大语言模型(MLLM)先验进行去噪的新范式。针对现有文本到图像(T2I)系统中LLM仅用于文本编码、而视觉去噪依赖新训练生成主干的局限,RepFusion借助表征自编码器(RAE)构建语义结构化的视觉隐空间,并将预训练MLLM直接用作含噪视觉表征的编码器——通过扩展其MLP投影器以适配噪声输入,输出作为扩散Transformer的条件信号。实验表明,在相近推理开销下,RepFusion显著优于同等容量的新初始化去噪器基线,验证了MLLM在表征级去噪中的强先验能力,以及在测试时重复调用MLLM进行动态条件建模的有效性。 PDF · arXiv · 项目 | ❤️ 7 3. ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning Sicheng Yang, Hangjie Yuan, Wenjun Zhang...