OpenAI 于 2025 年 4 月 17 日凌晨正式发布了全新推理模型 o3 与 o4-mini。
o3 模型在 Codeforces、SWE-bench、MMMU 等权威测试中得分均超 2700 分,全球排名前 200,外部专家评价其「接近或达到天才水平」。不过,这一智力提升的代价是算力需求达到 o1 的十倍以上。
o4-mini 则以小巧高效著称,在 2025 年 AIME 数学竞赛中配合 Python 解释器取得 99.5% 的高分,性能全面超越 o3-mini,适合高并发和成本敏感场景。
两款模型均已在 ChatGPT Plus、Pro 和 Team 用户端上线,并通过 API 向开发者开放。o3-pro 版本预计数周内发布。
(综合媒体报道)
北京时间 2025 年 4 月 15 日凌晨,OpenAI 发布 GPT-4.1 系列模型,包括 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三款产品。
这系列模型主要有三大特点:编程能力大幅提升、指令遵循更加精准以及支持高达 100 万 token 的超长上下文。
在 SWE-bench Verified 测试中,GPT-4.1 得分 54.6%,比 GPT-4o 提升 21.4 个百分点,比 GPT-4.5 提升 26.6 个百分点。
GPT-4.1 mini 表现超越 GPT-4o,同时较后者延迟降低近 50%,成本降低 83%。
最小型号 GPT-4.1 nano 是 OpenAI 目前速度最快、成本最低的模型,输入价格仅 0.7 元/百万 token。
GPT-4.1 系列目前仅能通过 API 使用,不会直接出现在 ChatGPT 中,但 ChatGPT 的 GPT-4o 已整合部分 GPT-4.1 功能。同时,OpenAI 宣布 GPT-4.5 Preview 将于 2025 年 7 月 14 日下线。
据传 OpenAI 还在开发类似费曼式的推理模型,能跨学科整合概念提出创新实验,甚至打算推出月费高达 14 万元的博士级研究服务。
(综合媒体报道)
本频测试,在不开启代理的情况下,仍然能打开登录页面,但是有几率登录失败。
(Github Discussion)
——————
4月14日更新:
根据 GitHub 官方状态页面发布的信息,由于一项配置变更产生了意外影响,未登录状态下尝试从中国访问 GitHub.com 的用户在过去一天内暂时无法访问该网站。
该事件于北京时间 2025 年 4 月 13 日凌晨 4:01 开始,直到当天晚上 22:55 才得到缓解,影响持续了近 19 个小时。
GitHub 官方表示,此次事件仅影响未登录用户,已登录的用户在此期间仍能正常访问平台服务。GitHub 在其官方状态页面上发布了回溯性报告,确认「导致此影响的配置变更已被撤销,用户在尝试访问 GitHub.com 时应不再遇到问题。」
(Github)
在 Google Cloud Next '25 活动上,Google 发布了其 Gemini AI 模型家族的新成员 Gemini 2.5 Flash。该模型被定位为「主力(workhorse)」模型,特别针对低延迟和成本效益进行了优化,旨在满足高容量、实时应用场景的需求。
Gemini 2.5 Flash 的一个关键特性是其动态可控的计算能力,模型能根据提示的复杂性调整其「思考预算」或推理深度,从而在速度、准确性和成本之间取得平衡。
该模型将很快通过 Google Cloud 的 Vertex AI 平台提供。
(Google Cloud Blog)
OpenRouter 于 2025 年 4 月 4 日上线一个匿名模型 Quasar Alpha。这是一个来自某个模型实验室的基础模型 (foundation model) 的预发布版本,目前已在 OpenRouter 平台上免费提供给所有用户试用。
Quasar Alpha 拥有 100 万词元 (Token) 的上下文长度,专为编码进行了优化,同时也具备通用能力 。用户报告称,尽管该模型并非主要设计为推理模型,但其在数学推理和竞技编程方面表现出色,并支持图像识别功能。根据 Aider 多语言编码基准测试,其得分率为 55%,与 DeepSeek V3 和 Claude 3.5 Sonnet 相当。
所有提交给 Quasar Alpha 的提示 (prompt) 和生成内容都将被 OpenRouter 及模型提供方记录,用于理解模型使用情况并进行改进。
关于 Quasar Alpha 的开发者身份,尽管官方保持沉默,但大量技术证据指向了 OpenAI。分析发现,该模型的 API 响应中包含 OpenAI 特有的「chatcmpl-」前缀,工具调用 ID 格式也与 OpenAI 完全一致,而与其他主要 AI 开发商 (如 Google、Mistral) 不同。此外,Quasar Alpha 分词器 (tokenizer) 中一个独特的中文响应错误,与 OpenAI 分词器系统已知的问题高度相似 。AI 研究员 Sam Paech 使用生物信息学聚类工具进行的分析也显示,Quasar Alpha 在模型家族树中与 GPT-4.5 Preview 最为接近。
(OpenRouter, Reddit)
2025 年 4 月 7 日上午,一张声称「微软停止中国区运营」的邮件截图在网络流传 。该邮件称,由于地缘政治及国际业务环境变化,微软将调整全球战略布局,并于 2025 年 4 月 8 日起正式停止在中国区的运营 。
经钛媒体向微软内部人士求证,该邮件实为微软在中国的众多外包服务商之一——上海微创软件股份有限公司(Wicresoft)发给其内部微软项目团队的通知 。邮件中提及的「停止在中国区的运营」实际上是指上海微创的微软项目团队将终止相关工作,而非微软中国(Microsoft China)停止运营 。上海微创软件股份有限公司是一家全球数字化转型服务商,于 2002 年由微软与上海市政府共同创办 。
此次上海微创微软项目团队的终止,与美国拜登政府于 2024 年 2 月 28 日签署并要求美国司法部制定具体规则的第 14117 号行政令 (Executive Order 14117, Preventing Access to Americans' Bulk Sensitive Personal Data and United States Government-Related Data by Countries of Concern) 有关 。该行政令及其最终规则旨在阻止包括中国(含香港和澳门特别行政区)、俄罗斯、伊朗、朝鲜、古巴和委内瑞拉在内的「受关注国家 (Countries of Concern)」以及相关「受涵盖人员 (Covered Persons)」访问美国人的「批量敏感个人数据 (Bulk U.S. Sensitive Personal Data)」和「美国政府相关数据 (United States Government-related Data)」。
根据 EO 14117 的最终规则,自 2025 年 4 月 8 日起,位于受关注国家(包括中国大陆)的个人(包括美国公司的员工以及外包团队成员)将被限制访问特定类型的美国敏感个人数据和政府相关数据,特别是托管在北美的数据中心的数据 。这项限制将在 2025 年 10 月 6 日进一步扩展至全球范围 ,即身在中国大陆的人员将不能访问其他地区的部分数据(内部业务、工具类等不包含个人、用户信息的数据除外)。
(综合媒体报道)
Meta 于 2025 年 4 月 5 日发布并开源了其最新的 Llama 4 系列人工智能模型,标志着 Llama 系列首次采用混合专家 (Mixture of Experts, MoE) 架构并原生支持多模态能力 。此次发布了 Llama 4 Scout 和 Llama 4 Maverick 两款模型,同时预告了更大规模的 Llama 4 Behemoth 模型 。
Llama 4 Scout 是一款拥有 16 个专家、170 亿激活参数 (总参数约 1090 亿) 的 MoE 模型 。其 Int4 量化版本可在单张 NVIDIA H100 GPU 上运行 。该模型最大的亮点之一是支持业界领先的 1000 万 词元 (token) 上下文窗口。
Llama 4 Maverick 同样拥有 170 亿激活参数,但配备了 128 个专家,总参数量达到 4000 亿。
这两款模型均通过知识蒸馏自 Llama 4 Behemoth,后者是一个拥有 16 个专家、2880 亿激活参数、总参数量近 2 万亿的教师模型,目前仍在训练中。
Llama 4 系列采用了多项新技术,包括 MoE 架构、通过早期融合实现的原生多模态、改进的基于 MetaCLIP 的视觉编码器、名为 MetaP 的超参数设置技术、FP8 精度训练、通过中期训练扩展上下文长度以及名为 iRoPE 的长上下文架构 。后训练流程也经过改进,采用轻量级监督微调 (SFT) > 在线强化学习 (RL) > 轻量级直接偏好优化 (DPO) 的策略 。模型在超过 30 万亿 词元 (token) 的多样化文本、图像和视频数据集上进行了预训练,涵盖 200 种语言 。
Llama 4 Scout 和 Llama 4 Maverick 模型目前已在 llama.com 和 Hugging Face 开放下载 。
(Meta AI Blog)
——————
Llama 4 发布后,互联网普遍表示失望。有自称 Llama 团队内部人士透露,Llama 项目倾尽了团队的所有资源,但仍然未能达到 SOTA,因此团队选择将其所有语料投入后训练中,目前看来仍然收效甚微。该网友表示,Llama 4 将成为自己「简历上的污点」。
与此同时,网友体验大多负面,认为 Llama 的体积与其性能严重错配,甚至不如体积小得多的 Qwen 模型。
说明说,4月2日15时50分,腾讯会议由于存储系统的网络变更导致网络访问规则配置异常,进而影响存储系统的访问,发生腾讯会议运行故障,造成腾讯会议登录、预定会议、加入会议等功能受限,期间也收到客户侧的咨询投诉。 经采取对网络访问规则进行恢复并优化的应急处置措施,业务已全部恢复。
说明还指,腾讯云会在其后发布事故的详细复盘。本频会随后将复盘结果更新在本条消息中。
字节旗下即梦 AI 于 4 月 2 日开始灰度测试其 3.0 版本图像生成模型,预计将于 4 月 7 日全量上线。已经获得灰度测试权限的自媒体表示,新版本在中文文字表现上取得重大突破。
即梦 3.0 最突出的改进在于中文文字控制能力,不仅将大字的准确性、设计感和丰富度提升至新高度,同时解决了小字的稳定性问题。模型现可直出 2K 高清图像(16:9 分辨率达 2560×1440),远超同类产品,画面质感显著增强。
据自媒体测试,即梦 3.0 在电商产品图、摄影写真图、电影海报和艺术文字图等方面均有明显提升。
(数字生命卡兹克)
2025 年 4 月 2 日下午,腾讯云广州地域及部分非区域性服务出现大面积网络异常,导致云服务器、容器服务、数据库、腾讯会议等多项核心服务无法正常使用,影响持续近 4 小时。
腾讯云于当日 15 时 50 分首次确认故障,表示已启动应急预案并着手进行问题排查。根据官方健康看板显示,本次受影响的产品涵盖云服务器、云硬盘、容器服务、各类数据库服务、负载均衡、私有网络、实时音视频、云直播、腾讯会议等数十项关键服务。
在故障期间,腾讯会议官方微博于 15 时 58 分发布致歉声明:「当前用户入会受到影响,工程师们正在加速抢修,给您造成不便,非常抱歉。」
腾讯云团队在故障期间持续发布进展,17 时 19 分表示正在逐步执行修复动作,预计需要 30 分钟。随后,日志服务、流计算、云监控等部分服务率先恢复,接着容器服务、负载均衡、人脸核身、云直播等服务相继恢复正常。
最终,腾讯云于 19 时 59 分宣布完成全部修复工作,所有受影响服务均已恢复。此次事件从故障出现到完全恢复,总计历时约 4 小时。
(腾讯云)
电子商务平台 Shopify 于 2025 年 4 月 2 日 11 时 30 分(UTC+8)开始出现大规模服务中断,影响了全球范围内的商家、客户和合作伙伴。根据 Shopify 状态页面显示,几乎所有核心服务均受到影响。
故障监测平台数据显示,报告数量在短时间内激增至 6000 多起,表明此次宕机影响范围广泛。受影响的服务包括管理后台、结账系统、报表和仪表盘、店面前台、API 和移动端、第三方服务、客户支持、销售终端以及 Oxygen 等。
Shopify 官方确认正在调查这一问题,并表示:「我们正在调查一个导致商家、客户和合作伙伴在尝试访问 Shopify 服务时可能遇到问题的错误。我们正在调查并将持续提供最新进展。」
截至发稿时,Shopify 尚未公布具体原因。
(Shopify)
Runway 于 3 月 31 日发布了其最新 AI 视频生成模型 Gen-4,该模型已向公司的个人和企业用户开放。
Gen-4 解决了 AI 视频生成领域最大的难题之一:世界一致性。通过名为「References」的新工具,模型能够在不同场景中生成保持一致的角色、位置和物体。用户只需提供主体的参考图像并描述所需的画面构成,Gen-4 就能完成剩余工作。
该模型不仅能保持物体在整个视频中的一致外观,即使其他元素发生变化,还提供了改进的物理模拟能力。据 Runway 称,这代表了「视觉生成模型模拟现实世界物理规律能力的重要里程碑」。
目前,Gen-4 允许用户创建 5 秒和 10 秒长的 720p 分辨率视频。Gen-4 图像到视频功能已开始向付费用户推出,References 功能即将推出,之后将提供 API 访问。
据报道,Runway 正在谈判新一轮融资,可能将公司估值提升至 40 亿美元,并计划通过其 AI 视频模型 API 等产品实现 3 亿美元的年收入。
(综合Yahoo Finance、TechCrunch、No Film School)
阿里巴巴近日开源了端到端全模态大模型 Qwen2.5-Omni-7B,该模型支持文本、图像、音频、视频(无音频轨)的多模态输入,并能实时生成文本或自然语音的流式响应。目前,该模型已在 HuggingFace 平台以 Apache 2.0 协议开源,可免费商用。
Qwen2.5-Omni-7B 最突出的特点是支持实时语音和视频交互。用户可通过语音或视频直接与模型对话,而模型能实时输出文本和语音响应。该模型仅有 70 亿参数(70 亿语言模型参数加上 6.75 亿 ViT 及音频部分参数),最高支持 32K 输入长度和 8K 输出长度,响应速度非常快,官方演示显示时延极小。
在训练方面,Qwen2.5-Omni-7B 在 Qwen2.5-7B 语言模型基础上增加了 1.2 万亿多模态数据训练,包括 800B tokens 的图像和视频相关数据、300B tokens 的音频相关数据、100B tokens 的音视频同步数据,并使用额外的纯文本数据保持语言能力。
模型采用创新的 Thinker-Talker 架构,通过模块化分工实现高效协同。Thinker 模块作为「大脑」负责多模态信息的语义理解,集成了视觉编码器(ViT)和音频编码器(Qwen2-Audio),能动态处理各类输入;Talker 模块则专注于流式语音生成,通过因果式解码器和滑动窗口机制实现低延迟语音输出。
在性能评测上,Qwen2.5-Omni-7B 表现出色。在单模态评测中,其语音识别(ASR)能力在中文 CommonVoice-zh 数据集上的错字率仅为 5.2%,视频理解方面在 Video-MME 的评测达到 72.4,优于 GPT-4o-mini。在文本理解方面,MMLU Pro 的评测结果与 Llama3.1-8B 接近,虽然低于 Gemma2-9B 和 Claude 3 Haiku,但超过了 Qwen2.5 7B。
(DataLearner)
这一功能无论是文字渲染还是风格控制上,都已达到图片生成的第一梯队。
这一功能最早于 26 日凌晨面向 Pro 用户可用,正逐步向 Plus 用户开放。
谷歌称, Gemini 2.5是其最新的AI模型,具备推理能力,能够处理复杂问题,首次发布的实验版本Gemini 2.5 Pro在多个基准测试中表现优异,位列LMArena排行榜第一。
Gemini 2.5 Pro支持1百万个令牌的上下文窗口,能够处理来自文本、音频、图像和视频的复杂数据,提升了对多种信息源的理解能力。
该模型在编码方面取得了显著进步,能够创建视觉吸引力强的网页应用和代码转换,SWE-Bench Verified测试中得分为63.8%。
Gemini 2.5 Pro现已在Google AI Studio和Gemini应用中提供,预计不久后将在Vertex AI上线,定价将在未来几周内公布。
(Google)
官方称其「小版本升级」,目前官方 API 渠道和官网都已经同步更新新模型。
小道消息称本次新版本将知识截止日期更新到了2024 年 7 月,同时在上下文理解和编程能力上有所提升。截至发稿,官方暂未发布更新日志。
另据极客公园,新版 V3 的开源许可与 R1 一样,也更新变成了 MIT 开源许可(MIT License),这意味着新版 V3 有着比初代 V3 更宽松的开源使用条件。
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
腾讯于2025年3月21日正式推出混元 T1 推理大模型,这是全球首个基于 Hybrid-Mamba-Transformer 混合专家架构(MoE)的大型推理模型。该模型在保持高质量推理能力的同时,实现了首字 1 秒内响应,生成速度达 60-80 词元/秒,特别适合实时交互场景。
混元 T1 基于此前发布的 TurboS 快速思维基座,通过大规模强化学习进一步强化了纯推理能力。在训练策略上,96.7% 的算力被投入强化学习训练,并采用课程学习策略逐步增加数据难度和上下文长度。
在公开基准测试中,混元 T1 表现突出。在 MATH-500 评测中以 96.2 分接近榜首(DeepSeek-R1 的 97.3 分),在 AIME 2024 测试中更是获得 78.2 分,显著优于 GPT-4.5(36.7 分),展现出在数学逻辑与复杂问题求解方面的优势。不过,该模型在常识推理(GPQA Diamond 69.3 分)方面相对薄弱,低于主流模型均值。
在架构创新方面,混元 T1 通过 Mamba 模块优化了长序列处理能力,其高效计算方式在保证长文本信息捕获的同时,将解码速度提升至同类模型的 2 倍。
价格方面,混元 T1 的 API 服务定价为输入 1 元/百万词元,输出 4 元/百万词元,仅为 DeepSeek R1 的四分之一,是文心大模型 X1 的一半。目前该模型已在腾讯云平台上线,面向开发者提供 API 服务,普通用户可通过腾讯元宝 APP 体验,Hugging Face 平台也提供了 Demo 测试空间。
(综合媒体报道)
OpenAI 刚刚宣布在其 API 中推出全新一代音频模型,包括两款语音转文本模型和一款文本转语音模型,旨在让开发者能够轻松构建强大的语音 Agent。这三款模型全部基于 GPT-4o 架构,为语音交互带来了显著提升。
语音转文本模型
- gpt-4o-transcribe:每分钟 0.006 美元,单词错误率(WER)显著降低至 2.46%,在多种语言的基准测试中优于现有 Whisper 模型,特别适合处理口音多样、环境嘈杂、语速变化等挑战场景。
- gpt-4o-mini-transcribe:每分钟 0.003 美元(是前者的一半),基于 GPT-4o-mini 架构的精简版本,通过知识蒸馏技术从大模型转移能力,虽然 WER 稍高于完整版模型,但仍优于原有 Whisper 模型,速度更快、效率更高。
文本转语音模型
- gpt-4o-mini-tts:每分钟 0.015 美元,首次支持「可引导性」(steerability),开发者不仅能指定「说什么」,还能控制「如何说」,包括预设多种语音风格或通过指令调整语音风格。
所有三个模型均通过 OpenAI 的 API 提供,用户也可以在 OpenAI.fm 体验并制作 gpt-4o-mini-tts 的相关音频,该演示网站提供多种预设模板,包括人设、语气、方言、发音等设置。
(综合媒体报道)