以下是过去4小时全球AI领域的动态汇总: GAGA-1模型:AI视频语音与表演的新突破-歸藏(guizang.ai) Send AI发布了专注于人物对话表演的GAGA-1模型,被认为是目前在人物细微表演对话方面表现最强的模型,甚至可能超越Sora2。该模型在语音和表演表现上达到了极高水平,目前提供免费试用。使用技巧包括:在提示词中优先说明情绪变化,然后是语气和内容;双人对话表现出色,能理解左右、男女或A/B指定角色;图生时建议避免复杂肢体或全身动作;短文本可选择5秒生成时长,长对话选择10秒;目前支持16:9横屏比例,未来将支持9:16竖屏。测试显示,GAGA-1能够精准捕捉并配合剧烈情绪,即使在极限人脸角度下也能维持面部表情和嘴 …
阅读更多Perplexity产品更新:支持连接私有信息源-向阳乔木 Perplexity近日推出一项重要产品更新,允许用户授权连接Notion、GitHub和Gmail等私有应用,以实现更具个性化和深度的信息搜索。这一功能旨在通过整合用户的私人数据源,提供更定制化的搜索结果,从而显著提升用户体验和产品黏性。此举有望让Perplexity成为用户个人信息管理和检索的关键AI工具。 AI Agent与企业低代码应用的未来走向-宝玉 关于ToB领域AI Agent的低代码落地问题,有专家指出,尽管低代码能帮助业务人员快速验证可行性,但其灵活性和深度扩展能力有限。他认为,未来企业内部AI应用的开发方向应是业务人员借助AI辅助,与技术人员紧密合作搭 …
阅读更多以下是过去4小时全球AI领域的动态摘要: Lovart 接入 Sora 2 模型:一键生成MV和宣传片-小互 AI工具Lovart已成功接入Sora 2模型,实现了从文字到视频的全自动一站式生成,尤其擅长制作MV和产品宣传片。用户只需提供简单的提示词,Lovart便能自动生成音乐、视频片段并进行智能剪辑,极大地简化了原本需要多种工具和复杂流程的视频创作过程,让不具备设计、剪辑或3D技能的用户也能轻松产出高质量视频内容。 Shadcn 在AI时代被加速:AI友好且易于生成-宝玉 用户界面(UI)组件库Shadcn因其出色的设计和与AI时代的良好契合而备受赞誉。如同TailwindCSS一样,Shadcn的组件在AI辅助下更容易生成和集 …
阅读更多今日全球AI动态呈现出应用层与基础设施层齐头并进的强劲势头。在应用端,OpenAI的Sora和ChatGPT用户量持续爆炸式增长,标志着AI已深度融入大众日常生活。企业端,谷歌正通过Gemini Enterprise将AI代理能力打包成标准服务,旨在打通企业数据孤岛。而在基础层,硬件竞赛白热化,英特尔发布下一代PC核心架构Panther Lake,并确立AI GPU年更策略,直接对标英伟达,后者市值已逼近4.7万亿美元。同时,三星的小模型研究成果则揭示了架构创新可能成为超越参数规模的新突破口。 全球 10% 成年人都在用:OpenAI、哈佛大学报告称 ChatGPT 月活用户已达 7 亿 根据最新报告,ChatGPT的月活跃用户数已 …
阅读更多English Version News Discovery Time! Today we're exploring amazing animals and incredible nature! Bang! Pop! Wow!
Have you ever seen a seal that gives penguins as gifts? Scientists in Antarctica (南冰洲 the southern continent) have been studying leopard seals and penguins across both Antarctica and South America. …
阅读更多State of AI 报告亮点与微调技术复苏-clem 🤗 最新“State of AI”报告的幻灯片揭示了当前AI领域的几个关键趋势。报告指出,人们对微调(finetuning)技术(包括RL/Lora/Thinking Machine)的兴趣重新高涨,并预测未来90%的AI价值将基于开源而非API使用,尽管目前尚未完全实现。此外,本地和内部部署AI的规模正在扩大,同时出现了“更小、更高效的模型”、“AI for Science”以及设备端AI等有趣趋势。报告的第二项预测指出,一家主要的AI实验室将重新回归开源策略。LoRA微调也再次受到看好,这可能得益于当前模型更强的适应性。 Google AI Plus 扩展至全球36个新 …
阅读更多Radical Numerics发布RND1,最强大的扩散语言模型 Radical Numerics公司推出了RND1,声称这是迄今为止最强大的基础扩散语言模型(DLM)。该模型旨在推动AI在语言理解和生成领域的最新进展,可能为内容创作、代码生成及其他AI应用带来新的可能性。 Emad M.呼吁社会核心模型全面开放与合成化 Emad M.强调,驱动社会运行的模型需要实现完全开放,包括数据和权重。他指出,这些模型应趋向于完全合成和聚焦,并透露其团队正致力于政府、金融和健康领域的开放模型开发,预计很快将有更多公告发布。 Gary Marcus批判AI炒作及大模型局限性 AI研究员Gary Marcus对当前AI领域的过度炒作表示担忧, …
阅读更多ServiceNowRSRCH 发布 Apriel-1.5 推理视觉语言模型-merve ServiceNowRSRCH 近期推出了一款名为 Apriel-1.5 的全新推理视觉语言模型,展示了其强大的跨语言理解和推理能力。该模型在一次测试中成功地识别了法文药物标签中的药物相互作用,并用英文给出了结果。此外,它还能对矿物质进行比较,并生成准确的查找表,凸显了其在处理复杂信息和生成结构化数据方面的卓越表现。
阅读更多OpenAI发布AgentKit,赋能AI Agent快速开发-小互 OpenAI正式发布了AgentKit,这是一个旨在帮助开发者快速创建AI Agent的全功能开发平台。该平台将AI开发流程从传统的“Prompt工程”提升为更高效的“Agent工程”,使得Agent的构建如同搭积木般简单,无需大量复杂代码。AgentKit包含四大核心组件:用于嵌入式对话的ChatKit、可视化的拖拽式流程设计工具Agent Builder、保障内容安全的Guardrails,以及用于评估性能和质量的Evals工具,致力于标准化并加速AI Agent的开发与部署。 定制化AI Agent的优势:超越通用LLM的效率与权限-宝玉 宝玉详细阐述了为 …
阅读更多OpenAI推出“Apps in ChatGPT”平台及开发者SDK OpenAI近日发布了“Apps in ChatGPT”,将ChatGPT从单纯的聊天工具升级为一个可运行应用的平台。用户现在可以直接在对话界面中调用外部应用,例如利用Zillow查找房产、通过Spotify创建歌单或在Coursera上学习课程,全程无需切换到其他网站或应用。与此同时,OpenAI还面向开发者发布了Apps SDK,允许开发者构建“ChatGPT内的App”,自定义界面并接入自己的后端API(如CRM、数据库、SaaS系统),从而将服务无缝触达数亿ChatGPT用户,开启了一个全新的AI生态入口。 NVIDIA、AMD与OpenAI之间AI交易 …
阅读更多