Google DeepMind发布Gemini Robotics 1.5模型及Gemini Live更新-Demis Hassabis Google DeepMind 宣布推出 Gemini Robotics 1.5 模型,该模型旨在利用多模态Gemini模型作为基础,使其能够更好地理解和推理物理世界,预示着机器人技术在未来将扮演重要角色。此外,Demis Hassabis还转发了关于最新 Gemini Live 模型的更新,强调其在Gemini原有优势基础上的显著性能提升。这些进展共同展现了Google DeepMind在多模态AI和机器人领域的前沿探索。 Factory AI的Droids在Terminal-Bench排名第 …
阅读更多以下是过去4小时全球AI领域的重要动态: AI对放射科医生工作影响的深度分析-Andrej Karpathy Andrej Karpathy分享了一篇关于“AI不会取代放射科医生”的文章,指出对AI在就业市场影响的许多预测都过于天真。文章以放射科为例,详细阐述了AI不简单替代工作的复杂原因,包括基准测试不足以反映实际场景、工作本身的多面性、部署面临的监管、保险和责任问题,以及耶冯斯悖论(AI提升效率反而可能增加需求)。他建议,AI短期内更可能改变那些重复性高、任务独立、上下文需求少、错误成本低的例行性工作,且通常作为工具使工作性质发生重构。 Moondream3模型部署:实现物体检测、跟踪、提问和图像字幕-merve Merve宣 …
阅读更多以下是过去4小时全球AI领域的关键动态: Hugging Face Inference Providers 支持 Qwen3-VL 视觉语言模型-merve Hugging Face的推理服务平台,由Novita Labs提供支持,现已集成并支持Qwen3-VL,一款前沿的视觉语言模型。该模型参数规模庞大,其中220亿为活跃参数,总参数量达2350亿,此次集成将极大便利研究人员和开发者体验和利用这款强大的多模态AI模型,进一步推动视觉-语言理解领域的发展。 GPT-5 在解决开放性数学问题上展现潜力-Sam Altman Sam Altman转发Sebastien Bubeck的观点指出,GPT-5在解决一些非核心的开放性数学问题方 …
阅读更多Meta 发布 32B 参数开源代码世界模型 (CWM)-宝玉 Meta AI 发布了全新的开源代码世界模型 (Code World Model, CWM),该模型拥有 32B 参数。与传统大语言模型不同,CWM 利用“世界模型”让 AI 智能体学会推理和规划,通过模拟代码执行的后果来提升代码生成能力。这使得模型能够理解代码运行时的动态世界,而非仅仅进行“代码模仿”。在多任务强化学习测试中,CWM 在 LiveCodeBench v5 上达到 67.6%,在 AIME24 上达到 76%,在 SweBench Verified 上通过推理扩展达到 65.8%,表现出色。 Google AI 提升 Gemini CLI/Code …
阅读更多今日全球AI领域风起云涌,资本和算力的军备竞赛达到新高潮。OpenAI与英伟达的万亿美元级合作计划,预示着通往下一代AI的道路将由巨额资本铺就。与此同时,平台巨头正加速战略调整:阿里云将大模型视为下一代操作系统,全力构建“超级AI云”;微软则打破对OpenAI的单一依赖,引入Claude模型,开启多模型服务新格局。在应用层面,从高通的端侧AI加速计划到英伟ダ开源的面部动画模型,技术正加速向开发者和终端用户渗透,一个由AI原生驱动的软件和硬件新生态正在成形。 OpenAI启动万亿美元算力扩张计划,英伟达投资千亿深度绑定 OpenAI正计划在全球范围内部署超大规模计算中心集群,总投资额或高达 1万亿美元,以满足未来AI模型的算力需求。作 …
阅读更多English Version News Discovery Time! Today we're going to explore amazing animal friendships across continents! Bang! Pop! Wow! Have you ever heard of animals giving gifts to each other? Penguins in Antarctica and leopard seals in Australia have shown scientists something truly incredible! These black and white …
阅读更多以下是过去4小时全球AI领域的主要动态: Nvidia Lyra模型在Hugging Face发布-clem 🤗 Nvidia已在Hugging Face上发布了Lyra模型,这是一款基于视频扩散模型自蒸馏的生成式3D场景重建工具。Lyra通过分析视频内容,能够高效地重建出逼真的3D场景,这对于内容创作、虚拟现实(VR)、增强现实(AR)以及专业模拟领域具有重要意义。该模型的开源发布预计将推动3D内容生成技术的发展和应用。 Paper2Agent:将研究论文转变为互动可靠的AI智能体-宝玉 Paper2Agent是一个创新的AI智能体,它能够将静态的PDF研究论文转化为动态可交互的AI智能体。该系统能自动搭建代码环境,从论文相关的代 …
阅读更多哈佛/斯坦福研究揭示生成式AI低投资回报率原因:“工作烂泥”-Gary Marcus 一项来自哈佛和斯坦福大学的新研究深入分析了生成式AI(GenAI)投资回报率(ROI)低迷的原因,指出员工正利用AI工具创建“低努力、表面过得去”的工作成果,却反而给同事制造更多后续工作。研究将这种现象称为**“工作烂泥”(workslop)**,即AI生成的内容看似良好,但实质上缺乏有效推动任务进展的深度和价值,导致了效率的实际降低。 预测:中国机器人产业未来将停止出口,转向国内市场-Emad Emad预测,未来几年中国将停止出口机器人,转而将所有机器人用于国内市场。这一战略旨在解决人口结构问题,使本土AI技术普及化,并通过将机器人用于国内以实 …
阅读更多Flowith 发布 Context Playground 交互更新 - 歸藏(guizang.ai) Flowith 近期发布了名为 Context Playground 的重大交互更新,允许用户自由拖动和复制内容,并将画布中的任何节点或元素选作上下文。此外,用户现在可以直接在侧边栏编辑节点内容以修正AI输出结果,此功能同时适用于图片和文本。此更新旨在提升用户在处理AI生成内容时的灵活性和编辑效率,并继续保持其一贯的良好界面审美。 Qwen 模型发布:创业者的黄金时代 - 宝玉 针对 Qwen 系列模型发布,有观点指出,当前是AI创业者的最佳时代。相较于五年前将基础技术视为“传家宝”的封闭态度, …
阅读更多AI如何取代你的知识工作:一个三步走的流程 - Emad Emad M. 阐述了AI取代知识型工作的三个关键步骤。首先,AI会抓取你在Slack、GitHub和文档中的所有数字足迹,包括每次互动、代码提交和备忘录。接着,AI会部署你的数字分身作为“助手”,该分身能够从你的错误中学习,优化最佳实践,并全天候24小时可用。最终,这个“有才华的AI”将全面接管工作,形成一种“模仿即服务”(Mimic-as-a-service)的模式。这一过程预示着AI将成为专业环境中一个持续存在、自我改进的运营实体。 阿里巴巴发布新模型及万相2.5产品动态 - orange.ai 阿里巴巴在今日发布了强大的新AI模型,其在展馆中的多个站台也备受关注,展 …
阅读更多