以下是过去四小时内全球AI领域的重要动态: Gary Marcus 反思LLM发展困境及AGI预期 - Gary Marcus AI研究员Gary Marcus近期总结了多项对大型语言模型(LLM)实现通用人工智能(AGI)前景构成打击的进展。他引用了苹果和亚利桑那州立大学(ASU)等机构的论文,证实LLM仍然无法解决分布偏移问题。此外,他指出GPT-5的表现未能达到预期,图灵奖得主Rich Sutton也认同他对LLM的批评。值得关注的是,Andrej Karpathy表示当前AI代理远未成熟,无法胜任人类同事或实习生角色,并预测AGI的实现仍需十年之久。DeepMind的Demis Hassabis也据称驳斥了OpenAI关 …
阅读更多English Version News Discovery Time! Today we are exploring… Bang! Pop! Wow! We have seen some truly amazing stories this week, and we are going to dive into the world of flying art and brilliant young inventors. First up, let’s fly high into a city known as the “World Capital of Kites.” We are traveling to …
阅读更多Gemini App 改进 LaTeX 渲染功能-Demis Hassabis Google DeepMind 负责人 Demis Hassabis 转发了 Josh Woodward 的更新,宣布 Google Gemini 应用已修复一项关键的“小痛点”,即 LaTeX 渲染功能得到显著改进。此次更新不仅优化了渲染效果,还加入了多项新功能,旨在让用户在 Gemini App 中处理 LaTeX 内容时更加便捷。这一改进对于需要处理学术文档、数学公式或技术报告的用户而言,无疑将大幅提升其工作效率和使用体验。
阅读更多Veo 3.1 与 Sora 2 视频生成能力对比:各有优劣-向阳乔木 近期对视频生成模型Veo 3.1和Sora 2的对比测试显示,两者在不同方面表现出各自的优势。Veo 3.1 在画质清晰度、动态幅度以及对提示词的遵循度上表现更佳,提供了更高的真实感。然而,其生成的动作有时显得不够自然。相比之下,Sora 2 在剧情叙事理解、画面连贯性以及中文语音的自然度方面则更胜一筹,展现出更强的故事性和语言处理能力。整体而言,Veo 3.1可能在画面细节和动态表现上领先,而Sora 2则在叙事和语言自然度上更具优势。 Gemini API 集成 Google Maps 实现地理位置信息“接地”-Demis Hassabis Google …
阅读更多今日全球AI领域呈现出软硬件两翼齐飞的态势。硬件层面,英伟达Blackwell芯片在美国本土的成功下线,标志着全球AI算力供应链格局的深刻变化。软件层面,AI正加速从模型能力向“代理”能力进化,Anthropic为Claude赋予“技能”,Zoho则将其应用于企业工作流,预示着AI执行复杂任务时代的到来。同时,具身智能赛道持续升温,资本与开源社区共同发力。在激烈的市场竞争中,谷歌凭借生态优势冲击Adobe,再次印证了应用场景与分发渠道的重要性。 黄仁勋亲赴庆祝:首片美国产英伟达 Blackwell 晶圆在台积电亚利桑那工厂下线 英伟达CEO黄仁勋亲临台积电亚利桑那州工厂,庆祝首片在美国本土生产的 Blackwell 架构晶圆成功下 …
阅读更多市场首次对AI“奇幻”预测表示质疑,2030年2000亿美元利润前景堪忧-Gary Marcus AI专家Gary Marcus对当前市场中关于AI的过度乐观预测和高达2000亿美元的未来利润预期表达了强烈的怀疑。他指出,市场首次对这些“奇幻”般的AI前景发出了“不买账”的声音,暗示了投资者的信心可能正在回归理性。Gary Marcus长期以来一直是AI发展中的一位批评者,主张对AI的能力和实际落地应用保持谨慎,避免过度炒作。他的言论可能反映了部分行业观察家对AI泡沫化趋势的担忧,以及对实际商业价值实现难度的关注。 陶哲轩与CVS案例:AI应聚焦辅助日常繁琐任务,而非直接攻克最难问题-宝玉 知名博主“宝玉”援引数学家陶哲轩的观点, …
阅读更多以下是过去四小时内全球AI领域的动态摘要: HuggingChat Omni发布,引领多模型路由新范式-clem 🤗 HuggingFace的clem 🤗宣布推出HuggingChat Omni,其核心突破在于能够智能地在数百个开源模型(包括gpt-oss、deepseek、qwen等100多个模型)之间路由用户请求,以提供最佳、最经济、最快速的答案。这一机制类似于GPT-5在不同模型间进行消息路由的“主要突破”,但HuggingChat Omni将这一能力扩展到更广阔的开源生态系统,涵盖了文本、图像、音频、视频等多种模态。此外,他还提及了其模型路由是基于Arch-Router-1.5B等开放模型实现,预示着AI模型服务进入多模型智 …
阅读更多Final note: this is also why being in SV is a big advantage for frontier AI labs - Emad Emad指出,硅谷 (Silicon Valley) 对前沿AI实验室 (frontier AI labs) 而言具有显著优势,主要得益于其充足的资本。他强调,通过资本可以超越竞争对手,尽管有时这也会抑制创新。他进一步提到,尽管像Mistral或Cohere这样的公司采取了战略性发展路径,但其影响力与硅谷提供的资金规模相比仍相去甚远,凸显了资本在AI领域竞争中的关键作用。 It’s quite nice as coin sales go …
阅读更多过去4小时全球AI动态: AI视频公司HeyGen揭秘“HeyGen Way”产品方法论,实现惊人增长-歸藏(guizang.ai) AI视频生成公司HeyGen在不到两年半的时间内,从100万美元收入增长至1亿美元,并公开了其内部称为“圣经”的产品方法论——“HeyGen Way”。该方法论核心在于**“快速行动,成为绝对最佳”**,倡导拥抱AI技术的不确定性和快速变化,将产品设计成能随模型改进而自动升级。HeyGen将视频分为沟通类和电影类,专注于让沟通类视频对所有人可用。其运营节奏包括2个月路线图规划、6-12个月战略押注、两周承诺清单和每日发布。公司遵循五大运营原则:速度至上、拥抱技术浪潮、表达异议并承诺执行、通过创新实现用 …
阅读更多Manus 创新性三层工具设计揭秘-宝玉 著名AI研究者“宝玉”详细阐述了 Manus 平台在 大模型工具设计 上的创新性三层架构。该架构旨在优化LLM的工具使用效率和上下文管理。第一层是函数调用(Function Calling),包含少量的基础原子化功能,如文件读写和Shell命令执行,其中Shell和File工具尤为特殊。第二层是沙箱工具(Sandbox Utilities),通过虚拟机预装大量命令行工具,并利用第一层的Shell进行调用。LLM可通过系统提示和–help命令发现并使用这些工具。第三层是代码包与API(Packages and APIs),允许LLM实时编写Python代码以处理更复杂的任务,如API数据获 …
阅读更多