AI 每日资讯 — 2026-05-05

AI 每日资讯 — 2026-05-05 🔥 HuggingFace 每日论文 1. MolmoAct2: Action Reasoning Models for Real-world Deployment Haoquan Fang, Jiafei Duan, Donovan Clay MolmoAct2 是一种面向真实世界部署的开源视觉-语言-动作(VLA)推理模型,旨在解决现有VLA系统在开放性、硬件依赖性、推理延迟与任务成功率等方面的实用瓶颈。其核心包括:专用于空间与具身推理的VLM骨干网络MolmoER;覆盖多平台的三大新开源数据集(含迄今最大规模开源双臂操作数据集MolmoAct2-BimanualYAM);轻量级开放动作分词器OpenFAST;融合流匹配连续动作专家与离散token VLM的新型架构;以及自适应深度推理机制MolmoThink,仅对时序间变化场景区域重预测深度token,显著降低延迟并保持几何感知能力。实验表明,MolmoAct2在多平台任务中显著提升成功率与实时性,具备工业级部署潜力。 PDF · arXiv · 代码 · 项目 | ❤️ 113 2. AcademiClaw: When Students Set Challenges for AI Agents Junjie Yu, Pengrui Lu, Weiye Si 本文提出AcademiClaw——首个面向学术场景的双语基准测试集,包含80个源自大学生真实学术流程(如课程作业、科研项目、竞赛与个人开发)的复杂长周期任务。任务经230份学生提案筛选,覆盖25+专业领域,其中16项需CUDA GPU执行。所有任务在隔离Docker环境中运行,采用融合六种互补技术的多维评分体系,并辅以五类安全审计。实验表明,当前最优大模型通过率仅55%;深入分析揭示了模型能力在不同学科间的显著断层、行为策略的模型间差异,以及token消耗与输出质量间的弱相关性,为AI代理的学术能力评估提供了细粒度诊断信号。 PDF · arXiv · 代码 | ❤️ 7 3. PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments Ruoqi Liu, Imran Q....

五月 5, 2026 · 8 分钟 · Pan