AI 每日资讯 — 2026-05-06

AI 每日资讯 — 2026-05-06 🔥 HuggingFace 每日论文 1. OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories Yuwen Du, Rui Ye, Shuo Tang 本文提出OpenSeeker-v2,一种仅通过监督微调(SFT)即可实现前沿搜索能力的开源搜索智能体。针对当前搜索代理依赖庞大工业级预训练+持续预训练+强化学习流水线的问题,作者设计三项轻量数据合成策略:扩大知识图谱规模以增强探索广度、扩展工具集以提升功能覆盖、严格低步长过滤以提升轨迹质量。仅用10.6k高质量、高难度、信息丰富的搜索轨迹训练,30B参数规模的OpenSeeker-v2在BrowseComp(46.0%)、BrowseComp-ZH(58.1%)、Humanity's Last Exam(34.6%)和xbench(78.0%)上全面超越采用CPT+SFT+RL复杂流程的商用模型Tongyi DeepResearch,成为首个由纯学术团队基于SFT达成SOTA的同规模ReAct范式搜索代理。 PDF · arXiv · 代码 | ❤️ 35 2. SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment Joseph Breda, Fadi Yousif, Beszel Hawkins 本文提出SymptomAI——一种面向日常症状评估的对话式AI代理系统,旨在解决现有大语言模型在真实患者场景中症状识别与鉴别诊断(DDx)性能不明的问题。研究通过Fitbit应用部署五个AI代理,对13,917名参与者开展端到端症状访谈与DDx,构建了覆盖真实疾病分布与多样化表达的大规模对话语料。基于1,228例临床确诊样本及517例由专家小组耗时250+小时标注的黄金标准数据,SymptomAI的DDx准确率显著优于独立临床医生(OR=2.47, *p*<0.001);采用主动症状采集策略的智能体表现亦远超用户主导式基线(*p*<0.001)。结果在普通美国人群样本(*n*=1,509)中得到外部验证,证实其泛化能力。 PDF · arXiv | ❤️ 3 3. A Benchmark for Interactive World Models with a Unified Action Generation Framework Jianjie Fang, Yingshan Lei, Qin Wan...

五月 6, 2026 · 6 分钟 · Pan

AI 每日资讯 — 2026-05-05

AI 每日资讯 — 2026-05-05 🔥 HuggingFace 每日论文 1. MolmoAct2: Action Reasoning Models for Real-world Deployment Haoquan Fang, Jiafei Duan, Donovan Clay MolmoAct2 是一种面向真实世界部署的开源视觉-语言-动作(VLA)推理模型,旨在解决现有VLA系统在开放性、硬件依赖性、推理延迟与任务成功率等方面的实用瓶颈。其核心包括:专用于空间与具身推理的VLM骨干网络MolmoER;覆盖多平台的三大新开源数据集(含迄今最大规模开源双臂操作数据集MolmoAct2-BimanualYAM);轻量级开放动作分词器OpenFAST;融合流匹配连续动作专家与离散token VLM的新型架构;以及自适应深度推理机制MolmoThink,仅对时序间变化场景区域重预测深度token,显著降低延迟并保持几何感知能力。实验表明,MolmoAct2在多平台任务中显著提升成功率与实时性,具备工业级部署潜力。 PDF · arXiv · 代码 · 项目 | ❤️ 113 2. AcademiClaw: When Students Set Challenges for AI Agents Junjie Yu, Pengrui Lu, Weiye Si 本文提出AcademiClaw——首个面向学术场景的双语基准测试集,包含80个源自大学生真实学术流程(如课程作业、科研项目、竞赛与个人开发)的复杂长周期任务。任务经230份学生提案筛选,覆盖25+专业领域,其中16项需CUDA GPU执行。所有任务在隔离Docker环境中运行,采用融合六种互补技术的多维评分体系,并辅以五类安全审计。实验表明,当前最优大模型通过率仅55%;深入分析揭示了模型能力在不同学科间的显著断层、行为策略的模型间差异,以及token消耗与输出质量间的弱相关性,为AI代理的学术能力评估提供了细粒度诊断信号。 PDF · arXiv · 代码 | ❤️ 7 3. PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments Ruoqi Liu, Imran Q....

五月 5, 2026 · 8 分钟 · Pan