tech-news

AI 每日资讯 — 2026-05-05 🔥 HuggingFace 每日论文 1. MolmoAct2: Action Reasoning Models for Real-world Deployment Haoquan Fang, Jiafei Duan, Donovan Clay MolmoAct2 是一种面向真实世界部署的开源视觉-语言-动作（VLA）推理模型，旨在解决现有VLA系统在开放性、硬件依赖性、推理延迟与任务成功率等方面的实用瓶颈。其核心包括：专用于空间与具身推理的VLM骨干网络MolmoER；覆盖多平台的三大新开源数据集（含迄今最大规模开源双臂操作数据集MolmoAct2-BimanualYAM）；轻量级开放动作分词器OpenFAST；融合流匹配连续动作专家与离散token VLM的新型架构；以及自适应深度推理机制MolmoThink，仅对时序间变化场景区域重预测深度token，显著降低延迟并保持几何感知能力。实验表明，MolmoAct2在多平台任务中显著提升成功率与实时性，具备工业级部署潜力。 PDF · arXiv · 代码 · 项目 | ❤️ 113 2. AcademiClaw: When Students Set Challenges for AI Agents Junjie Yu, Pengrui Lu, Weiye Si 本文提出AcademiClaw——首个面向学术场景的双语基准测试集，包含80个源自大学生真实学术流程（如课程作业、科研项目、竞赛与个人开发）的复杂长周期任务。任务经230份学生提案筛选，覆盖25+专业领域，其中16项需CUDA GPU执行。所有任务在隔离Docker环境中运行，采用融合六种互补技术的多维评分体系，并辅以五类安全审计。实验表明，当前最优大模型通过率仅55%；深入分析揭示了模型能力在不同学科间的显著断层、行为策略的模型间差异，以及token消耗与输出质量间的弱相关性，为AI代理的学术能力评估提供了细粒度诊断信号。 PDF · arXiv · 代码 | ❤️ 7 3. PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments Ruoqi Liu, Imran Q....