大模型Weekly 03|OpenAI o3发布;DeepSeek-V3上线即开源!

大模型Weekly 03|OpenAI o3发布;DeepSeek-V3上线即开源!DeepSeek-V3上线即开源;OpenAI 发布高级推理模型 o3icon-default.png?t=O83Ahttps://mp.weixin.qq.com/s/9qU_zzIv9ibFdJZ5cTocOw?token=47960959&lang=zh_CN

青稞·大模型Weekly」,持续跟踪工业界和学术界 AI 大模型产品每周的最新进展和创新应用。

国产DeepSeek-V3首个版本上线并同步开源

首位全职提示词工程师出新题,DeepSeek V3完全答对

DeepSeek发布6710亿参数模型DeepSeek-V3首个版本并同步开源,在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他开源模型,并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型。DeepSeek-V3在Aider多语言测试排行榜中,以48.4分排名第二,仅次于OpenAI o1的61分。而在LiveBench的测评中,DeepSeek v3是最强的开源大语言模型,并在非推理模型中,排名第二。

图片

详细地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main

IBM推出开源大型语言模型Granite3.1

能处理最多128,000个令牌。

IBM开源大语言模型 Granite 3.1版本现已发布,新版本的模型经过重新设计,采用了更加密集的架构,经12种语言116种编程语言数据集训练,处理12万亿令牌。开发者可通过Hugging Face访问,助力各行业数字化转型,推动AI技术发展。更新意味着Granite在处理复杂文本和任务时的能力得到增强,Granite 3.1包括8B和2B两款不同规模的模型,均可以检测到代理工作流程中可能出现的幻觉,为函数调用提供与 RAG 相同的责任和信任,未来几个月,IBM 将继续发布 Granite 3 系列的更新模型和功能,计划于 2025 年第一季度发布新的多模式功能。

图片

详情链接:https://huggingface.co/collections/ibm-granite/granite-31-language-models-6751dbbf2f3389bec5c6f02d

OpenAI 发布高级推理模型 o3

计划明年初发布o3系列,先面向安全研究人员开放预览。

12月21日,OpenAI发布迄今最强推理模型o3,共有o3和精简版o3-mini两个版本。o3在软件工程测试中准确率比o1高近47%,竞赛数学测评的准确率比o1高15%,人类博士专家级生化物测试中准确率比o1高近13%,AGI相关测试中,o3最佳成绩87.5,超过人类水平门槛85,显示迈向类人智能取得突破,对比之下,GPT-3的评测结果为0%,GPT-4o为5%,而o3一举将成绩提升到87.5%,o3的最佳成绩超过了标志着达到人类水平的门槛85%。

OpenAI计划明年初发布o3系列模型,安全研究人员可以注册访问o3 和 o3-mini的预览。

图片

详情链接:https://openai.com/index/early-access-for-safety-testing/#how-to-apply

百川智能发布全链路领域增强大模型Baichuan4-Finance

显著提高了金融场景的整体可用性

百川智能于2024年12月23日正式发布全链路领域增强大模型Baichuan4-Finance。该模型通过高质量金融数据集和行业首创的领域自约束训练方案,实现了金融能力和通用能力的同步提升,显著提高了金融场景的整体可用性。

Baichuan4-Finance在多个评测体系中表现优异,在银行、保险、基金、证券等多个资格认证领域的准确率均突破了95%,整体准确率93.62%,领先GPT-4o和XuanYuan3-70B-Chat,超出GPT-4o近20%。

图片

详情链接:https://platform.baichuan-ai.com/finPage

阶跃星辰发布图像生成模型Step-1X-Medium

针对东方人物形象进行深度优化,能够更好地捕捉国风人物神韵

12月26日阶跃星辰官方推出 Step-1X-Medium 增强 AI 模型,显著提升生成速度、理解能力、细节质感以及创作功能,目标成为创作者的得力助手,全新升级的 Step-1X-Medium 能够更好地理解用户输入的指令,生成更契合指令描述的图像作品。针对东方人物形象进行了深度优化,能够更好地捕捉国风人物神韵,同时,Step-1X-Medium 推出了“垫图”功能,创作者只需上传一张基础图片,模型就可以快速理解画面结构和风格,在原图的创意基础上根据指令进行细节增强、风格转化或进行局部精修的操作。

图片

详情链接:https://platform.stepfun.com/

阿里通义千问Qwen团队宣布推出 QVQ-72B-Preview开源视觉推理模型

模型专注增强视觉推理

12 月 25 日,阿里通义千问 Qwen 团队宣布基于 Qwen2-VL-72B 构建,推出 QVQ-72B-Preview 开源视觉推理模型,能够像物理学大师一样,面对复杂的物理问题,沉着冷静地通过逻辑推理找到解决方案。测试结果显示,QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数,显著超越了 Qwen2-VL-72B-Instruct。

此外,在MathVista.MathVision.OlympiadBench三个专注于数学和科学问题的基准测试中,该模型表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距。但存在语言混合、递归推理、安全伦理等问题,无法完全替代Qwen2-VL-72B。

图片

详情链接:https://huggingface.co/spaces/Qwen/QVQ-72B-preview

腾讯研究推出新型翻译模型 DRT-o1

重塑文学文本翻译

12月26日,腾讯研究院推出了一款新型AI模型——DRT-o1系列,该模型采用长思维链(CoT)技术,旨在提高文学作品的翻译质量,特别是在处理比喻和隐喻等修辞手法方面。研究团队从古腾堡计划中筛选出400本英文公共领域书籍,提取了577600个句子,并从中挑选出63000个包含明喻和隐喻的句子,用于训练DRT-o1模型。

DRT-o1模型采用了一种创新的多智能体框架,包括翻译员、顾问和评估员三个角色。这一框架通过关键词翻译、初步翻译和翻译精炼循环三个步骤,不断提升翻译质量。最终的翻译结果由GPT-4o进行润色,确保流畅性和可读性。DRT-o1系列包括DRT-o1-7B和DRT-o1-14B两个版本,实验结果显示,这两个版本在翻译质量上均有显著提升。

图片

详情链接:https://github.com/krystalan/DRT-o1

智谱AI旗下GLM-PC基座模型CogAgent-9B已开源

让 AI 智能体“看懂”屏幕

智谱技术团12月26日发宣布开源 GLM-PC 的基座模型 CogAgent-9B-20241220,基于 GLM-4V-9B 训练,专用于智能体(Agent)任务。该模型仅需屏幕截图作为输入(无需 HTML 等文本表征),便能根据用户指定的任意任务,结合历史操作,预测下一步的 GUI 操作。 得益于屏幕截图和 GUI 操作的普适性,CogAgent 可广泛应用于各类基于 GUI 交互的场景,如个人电脑、手机、车机设备等。

图片

GitHub仓库:https://github.com/THUDM/CogAgent
HuggingFace模型库:https://huggingface.co/THUDM/cogagent-9b-20241220

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/500905.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++】B2089 数组逆序重存放

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 💯前言💯问题描述题目:数组逆序重排输入格式输出格式输入输出样例 💯我的代码实现**代码分析****优化建议** 💯老师的做法与分析方法1&#xff1…

dfs复习

dfs前置知识 0小朋友崇拜圈 - 蓝桥云课 通过深搜,去找到该点指向的下一个点,然后返回所成的环的大小,保留最大的环的大小 通过添加时间戳,记录该点被遍历的时间,如果下一个点有被添加过时间戳,如果时间戳是大于等于我们的最小时间戳的(等于说明该点自成环),那么成环,…

QT---------自定义插件和库

自定义界面组件 设计和使用自定义界面组件 (以 TBattery 为例) 假设我们要创建一个自定义的电池显示组件 TBattery&#xff0c;我们可以从 QWidget 派生一个新的类&#xff1a; #include <QWidget> #include <QPainter>class TBattery : public QWidget {Q_OBJE…

物理知识1——电流

说起电流&#xff0c;应该从电荷说起&#xff0c;而说起电荷&#xff0c;应该从原子说起。 1 原子及其结构 常见的物质是由分子构成的&#xff0c;而分子又是由原子构成的&#xff0c;有的分子是由多个原子构成&#xff0c;有的分子只由一个原子构成。而原子的构成如图1所示。…

数据挖掘——支持向量机分类器

数据挖掘——支持向量机分类器 支持向量机最小间隔面推导基于软间隔的C-SVM非线性SVM与核变换常用核函数 支持向量机 根据统计学习理论&#xff0c;学习机器的实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小…

Unity 对Sprite或者UI使用模板测试扣洞

新建两个材质球&#xff1a; 选择如下材质 设置如下参数&#xff1a; 扣洞图片或者扣洞UI的材质球 Sprite或者UI的材质球 新建一个单独Hole的canvas&#xff0c;将SortOrder设置为0&#xff0c;并将原UI的canvans的SortOrder设置为1 对2DSprite则需要调整下方的参数 hole的O…

【CSS in Depth 2 精译_099】17.5:基于页面滚动的动画时间线设置(全新)+ 17.6:最后一点建议 + 17.7:本章小结

当前内容所在位置&#xff08;可进入专栏查看其他译好的章节内容&#xff09; 第五部分 添加动效 ✔️【第 17 章 动画】 ✔️ 17.1 关键帧17.2 3D 变换下的动画设置 17.2.1 添加动画前页面布局的构建17.2.2 为布局添加动画 17.3 动画延迟与填充模式17.4 通过动画传递意图 17.4…

刷入super镜像报错 FAILED (remote: ‘Error: Last flash failed : Volume Full‘)

目录 1.背景 2.排查流程 3.追根溯源,找到根因 1.背景 首先刷入的底包 在修复此问题的过程中发现super.img镜像刷入不进去,报错FAILED (remote: Error: Last flash failed : Volume Full),此问题一般是分区有问题导致的 2.排查流程 由于是底包的分区大小和源码中的super…

Linux实验报告12-Apache服务器的配置

目录 一&#xff1a;实验目的 二&#xff1a;实验内容 1&#xff1a;在WEB服务器上检查并安装必要软件 2&#xff1a;注册虚拟主机所要使用的域名 3&#xff1a;创建所需的目录 4&#xff1a;编辑配置文件 5&#xff1a;测试虚拟主机 一&#xff1a;实验目的 (1)了解…

WeNet:面向生产的流式和非流式端到端语音识别工具包

这篇文章介绍了WeNet&#xff0c;一个面向生产的开源端到端&#xff08;E2E&#xff09;语音识别工具包。WeNet的主要特点和贡献如下&#xff1a; 统一流式和非流式识别&#xff1a;提出了一种名为U2的两阶段框架&#xff0c;能够在单一模型中同时支持流式和非流式语音识别&…

从单点 Redis 到 1 主 2 从 3 哨兵的架构演进之路

一、前言 我们有个项目中用的 MySQL、Redis、ES、微服务都是单节点部署的&#xff0c;没有做集群模式部署&#xff0c;为了提高整体的可用性&#xff0c;对项目的部署架构进行了升级&#xff0c;支持高可用。 二、部署拓扑图 我们项目的测试环境 12 台服务器已经部署好了&am…

机器学习经典算法——线性回归

目录 算法介绍 一元线性回归模型 多元线性回归模型 ​误差项分析 相关系数 算法案例 一元线性回归预测——广告销售额案例 二元线性回归预测——血压收缩案例 多元线性回归预测——糖尿病案例 算法介绍 线性回归是利用数理统计中回归分析&#xff0c;来确定两种或两种…

Nacos服务注册和发现

文章目录 Nacos服务注册和发现1. Nacos服务注册1.1 引入依赖1.2 配置Nacos1.3 重启服务1.4 Nacos后台 2. Nacos服务发现2.1 引入依赖2.2 配置Nacos2.3 服务发现 Nacos服务注册和发现 1. Nacos服务注册 服务提供者将服务注册到nacos注册中心 引入依赖配置Nacos地址重启 1.1 …

从企业级 RAG 到 AI Assistant,阿里云 Elasticsearch AI 搜索技术实践

在过去一年中&#xff0c;基座大模型技术的快速迭代推动了 AI 搜索的演进&#xff0c;主要体现在以下几个方面&#xff1a; 1.搜索技术链路重构 基于大模型的全面重构正在重塑 AI 搜索的技术链路。从数据采集、文档解析、向量检索到查询分析、意图识别、排序模型和知识图谱等…

BootstrapTable处理表格

需求背景 历史项目使用 BootstrapTable 作为前端组件 应客户需要调整&#xff1a; 冻结前四列对于大文本文字显示部分内容&#xff0c;鼠标悬浮显示完整内容 冻结列 1、引入相关CSS,JS CSS <link rel"stylesheet" href"/css/bootstrap.min.css"> …

《Vue3实战教程》35:Vue3测试

如果您有疑问&#xff0c;请观看视频教程《Vue3实战教程》 测试​ 为什么需要测试​ 自动化测试能够预防无意引入的 bug&#xff0c;并鼓励开发者将应用分解为可测试、可维护的函数、模块、类和组件。这能够帮助你和你的团队更快速、自信地构建复杂的 Vue 应用。与任何应用一…

【算法】模拟退火算法学习记录

写这篇博客的原因是博主本人在看某篇文章的时候&#xff0c;发现自己只是知道SGD这个东西&#xff0c;但是到底是个啥不清楚&#xff0c;所以百度了一下&#xff0c;然后在通过博客学习的时候看到了退火两个字&#xff0c;想到了本科做数模比赛的时候涉猎过&#xff0c;就上bil…

【MATLAB第111期】基于MATLAB的sobol全局敏感性分析方法二阶指数计算

【MATLAB第111期】基于MATLAB的sobol全局敏感性分析方法二阶指数计算 一、简介 在MATLAB中计算Sobol二阶效应指数通常涉及到全局敏感性分析&#xff08;Global Sensitivity Analysis, GSA&#xff09;&#xff0c;其中Sobol方法是一种流行的技术&#xff0c;用于评估模型输入…

android studio android sdk下载地址

android studio安装后&#xff0c;因为公司网络原因&#xff0c;一直无法安装android sdk 后经过手机网络&#xff0c;安装android sdk成功如下&#xff0c;也可以手动下载后指定android sdk本地目录 https://dl.google.com/android/repository/source-35_r01.zip https://dl…

“AI人工智能软件开发公司:创新技术,引领未来

大家好&#xff01;今天我们来聊聊一个充满未来感的话题——AI人工智能软件开发公司。这个公司&#xff0c;用大白话说&#xff0c;就是专门研究和开发人工智能软件的地方&#xff0c;它们用最新的技术帮我们解决问题&#xff0c;让生活和工作变得更智能、更便捷。听起来是不是…