新增数据集 SDK、“关系抽取”文本标注、优化模型监控和管理|ModelWhale 版本更新

ModelWhale 带来了新一轮的版本更新,期待为大家带来更优质的使用体验。

本次更新中,ModelWhale 主要进行了以下功能迭代:

  • 数据管理:新增 mw_python_sdk 支持通过查看、下载、制作、更新数据集

  • 文本标注:新增“关系抽取”标注,满足知识图谱构建、助力 GraphRAG 实践

  • 模型服务应用

(1)服务监控:新增记录 TPM 和 RPM 监控指标、调用记录回溯

(2)服务应用:新增 外部文件输入

(3)服务调试:新增 网络环境配置

  • 团队协作:新增 我的团队,适用于科研项目组管理、研究小组协同

  • 算力管理

(1)新增 由管理员配置“成员可申请的算力”

(2)新增 支持管理员监控服务“最小副本数”

  • 智能助手:新增 智谱平台接入,支持在 ModelWhale 使用 智谱 AMiner、AIWorkFlow

  • *仅 ModelWhale 私有化

(1)新增 模型 Repo(新模块):使用 git 命令将外部模型接入平台

(2)视频标注结果:新增 支持转换为 COCO、human3.6m、PoseTrack18 等满足若干开源模型训练的数据规范

(3)待标注数据接入(文本标注):新增 支持解析 json 格式语料

(4)待标注数据接入:新增 从外部 API 数据连接制作平台“标注数据集”

01 数据管理:

新增 mw_python_sdk 支持通过查看、下载、制作、更新数据集

ModelWhale 支持接入企业内多源数据要素,在平台完成数据分析流程中的数据治理(包括元数据管理)、权限分发使用。

  • 在本地或第三方平台进行数据分析时,你可以使用 SDK 操作 ModelWhale 平台内你的数据集,包括:查看、下载(无需再手动逐个下载数据集文件)。

  • 完成数据产品的开发后,你可以使用 SDK 将成果制作为平台数据集,汇总到 ModelWhale 平台进行统一管理。你也可以将其更新至某个平台数据集。

一些代码示例如下:

(1)查看数据集

pip install mw-python-sdk==0.0.31
from mw_python_sdk import get_dataset
# 读取该数据集 id 下的文件
get_dataset(dataset._id).files

响应结果:

[DatasetFile(_id=None, key='dataset/59ad0f2e21100106622a1f0c/1724665346723_1/simple_image.png', size=None, sub_path='')]

(2)下载数据集

平台数据集详情页,也提供通过 SDK 下载的提示指引。

#import os
#os.environ["MW_TOKEN"]="设置你的token"
#os.environ["HEYWHALE_HOST"]="访问地址,默认可以不设置"
pip install mw-python-sdk==0.0.31
from mw_python_sdk import download_file
dataset_id_tmp = dataset_id
download_file(dataset_id_tmp, "simple_image.png")

(3)制作数据集

pip install mw-python-sdk==0.0.31
from mw_python_sdk import create_dataset
dataset = create_dataset("a_simple_dataset", "dataset_to_upload/", "", "mw is cool")

(4)更新数据集

pip install mw-python-sdk==0.0.31
from mw_python_sdk import upload_file
# 上传一个 README.md 文件
upload_file("README.md", "README.md", dataset_id_tmp)

02 文本标注:

新增“关系抽取”标注,满足知识图谱构建、助力 GraphRAG 实践

GraphRAG(知识图谱 + RAG)是继 RAG 之后进一步提升大模型回答精准度和正确性的重要方式:平台提供三元组标注能力,用户或组织可以通过对错综复杂的文档的数据进行有效的加工、处理、整合,将冗杂信息转化为简单、清晰的“实体-关系-实体”三元组,提取大量高质量知识及知识间关联关系,从而提升大模型在搜索阶段的效果和效率。

ModelWhale 标注工具,新增“关系抽取”的文本标注类型:支持构建满足知识图谱的“实体 - 关系 - 实体”三元组,提取高质量知识及知识间关联关系,从而提升大模型在搜索阶段的效果和效率。具体操作可参考用户手册:

数据标注:

https://www.heywhale.com/docs/org_admin/workbench/annotation.html

03 模型服务应用

ModelWhale 平台的【模型服务】功能支持将算法文件封装为 serverless 服务(Restful API)。

(1)开源大模型的部署:你可以遵循大模型提供方的指引,在 ModelWhale 平台构建依赖的运行环境后,使用平台算力进行模型服务发布。发布时,请选择为“自定义服务”类型、并勾选“生成式大模型”标签。

(2)小工具的封装(比如数据库查询、图像数据分析、统计数据预测等):你可以将代码简单调整后,将其发布为“REST 服务”。代码示例可参考用户手册:

模型服务:

https://www.heywhale.com/docs/org_admin/workbench/model.html

(1)服务监控:新增记录 TPM 和 RPM 监控指标、调用记录回溯

ModelWhale 平台提供完备的服务监控基础设施,帮助模型开发者跟踪服务表现、评估服务性能。本期新增功能如下:

  • 新增记录 TPM(Tokens Per Minute,每分钟输入+输出的 tokens 数量):可用于衡量模型的推理速度、评估模型在生成文本或处理输入时的效率。注:仅“生成式大模型”支持记录 TPM。

  • 新增记录 RPM(Requests Per Minute,每分钟可以处理的请求数量):可用于衡量 API 或服务的吞吐量、评估模型在并发用户请求下的性能。

  • 新增 生成式大模型的调用记录:记录每次请求的输入、输出、请求时间等。

  • 服务资源用量,支持在服务详情页监控,也支持在工作台(最近)查看统计用量。

(2)服务应用:新增 外部文件输入

ModelWhale 模型服务 API 支持接入第三方平台(GUI 平台、Agent 编排平台)作为模型或 API 工具使用。你也可以在 ModelWhale 平台将其发布为网页应用(一个 Web 链接),然后将其分享给其他人使用。

模型应用除已支持选择“平台数据集”作为文件输入外,现也支持输入“外部文件”:使用服务时,支持传入“文件下载链接”作为服务推断输入。

(3)服务调试:新增 网络环境配置

不同网络环境下的服务表现不同,“断网”和“不断网”的表现尤其不一致。现创建服务时已新增“网络配置”,供你选择应用场景适用的网络环境:你可以选择组织默认网络环境,也可以选择特定评估任务、比赛任务的网络环境。

04 团队协作:

新增 我的团队,适用于科研项目组管理、研究小组协同

一个大科研机构内往往存在多个科研团队,人员管理、内容分享和沉淀也以这些“团队”为单位进行、由团队管理员管理自己的“小组织”。ModelWhale 数据科学协同平台支持承载上述团队管理场景:现除了支持由组织管理员在平台层面进行统一管理外,已支持由组织成员自由搭建自己的团队(比如:**科研小组、**研究小组),闭环实现自己的团队管理、团队内容分发。无需再由组织管理员操作这些小团队的创建、人员管理。

05 算力管理

ModelWhale 支持接入多种算力资源,包括 CPU、GPU、GPU 集群、HPC 集群。这些资源接入平台后,可由管理员按平台内分发单位(可用时长 或 资源代币)进行算力的向下分发。

(1)新增 由管理员配置“成员可申请的算力”

如组织成员没有某算力的使用权限、算力可用时长不足,可在线上发起申请、由管理员审批后二次下发。现已支持由管理员配置“哪些算力”可以被成员申请,实现更严格的管理。注:如管理员不希望成员自由申请资源,可关闭【资源申请】功能。

(2)新增 支持管理员监控服务“最小副本数”

管理员查看组织服务时,现已支持查看其“最小副本数”、创建者联系方式、筛选服务状态和使用资源等操作。如管理员觉得不符合预期,可以联系成员了解详情、也可以手动停止服务运行。

06 智能助手:

新增 智谱平台接入,支持在 ModelWhale 使用 智谱 AMiner、AIWorkFlow

ModelWhale 已和智谱达成合作,你可以在 ModelWhale 平台内使用智谱 AMiner、AIWorkFlow。以教学场景为例,你可以使用 ModelWhale 作为主平台承载虚拟实验室的课程管理(第一课堂),使用智谱作为外部学习工具(第二课堂)。

07 *仅 ModelWhale 私有化支持

(1)新增 模型 Repo(新模块):使用 git 命令将外部模型接入平台

ModelWhale 平台支持对算力、数据、模型进行统一管理和分发使用。平台原先已提供“模型库”对象存储基础设施进行模型存储,满足小模型的接入和管理场景。在大模型的浪潮下,现新增“模型 Repo”模块,支持用户使用 git 命令将外部模型接入平台,解决原先大模型难以接入的问题(比如:“模型过大”、“模型上传速度慢”、“网页上传不稳定”、“使用模型时加载速度慢”)。接入模型后,用户依然可以使用 git 对大模型本身进行版本管理,无需改变原有工作习惯。

(2)视频标注结果:新增 支持转换为 COCO、human3.6m、PoseTrack18 等满足若干开源模型训练的数据规范

应用场景不同的模型所需的训练数据格式不同,比如:

  • (视频分类)时序动作定位,使用:ActivityNet、THUMOS14

  • (目标检测)多目标追踪,使用:COCO、MOT16/17

  • (姿态估计)姿态追踪,使用:COCO、PoseTrack18

  • (姿态估计)行为检测,使用:human3.6m

平台视频标注支持“视频分类”、“目标检测”、“姿态估计”的标注类型,标注后的数据结果现已均支持上述数据格式的转换。导出时,你还可以分配结果导出的数据集(“训练集”、“测试集”、“验证集”)的比例,更快完成模型输入数据的制作、切分。

(3)待标注数据接入(文本标注):新增 支持解析 json 格式语料

较严格的语料规范中,每篇语料除主体内容外还会包含很多属性描述信息。这种情况下,语料往往采用 json 格式存储。ModelWhale 文本标注数据集,现已支持用户上传 json 格式的文件。平台将在你上传后自动完成语料的解析,以便你在 ModelWhale 平台继续进行语料标注处理。

(4)下载数据集待标注数据接入:新增 从外部 API 数据连接制作平台“标注数据集”

ModelWhale 支持接入存储在第三方平台的数据:使用由第三方提供的规范 API 后,可以在 ModelWhale 平台进行数据读取,也可以制作为 ModelWhale 内的数据集、标注数据集(本期新增)进行统一数据管理。

注,如何通过 API 接入第三方平台数据,详见用户手册(该 API 需要第三方平台提供):

数据接入和管理:

https://www.heywhale.com/docs/org_admin/workbench/data.html

08 其他迭代优化

(1)组织成员在平台绑定邮箱后,支持通过“邮件”获取平台内的消息通知,包括:离线任务的运行状态(成功/失败)、内容权限申请通知。

(2)添加协作者时,支持通过邮箱、手机号搜索查询组织成员。

(3)“数据”页新增支持按“元数据”信息筛选。

(4)门户内容均支持配置封面图片,实现更生动的内容展示。注:你可以调用门户接口,将内容展示在企业原有的门户平台。接口信息可咨询你的客户成功经理。

以上,就是本期 ModelWhale 版本更新的全部内容。

点击此处进入 Modelwhale 官网,免费试用 ModelWhale 专业版(个人研究)或团队版(组织协同),获赠 CPU、GPU 算力!(建议使用 pc 端体验试用)

若对 ModelWhale 有任何建议、疑问,或有试用续期需求,欢迎点击这里联系我们,产品顾问 MoMo 很高兴为你服务、与你交流(咨询备注“产品咨询”)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/442826.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最新版本SkyWalking【10.1.0】部署

这里写目录标题 前言前置条件启动Skywalking下载解压启动说明 集成Skywalking Agent下载Agent在IDEA中添加agent启动应用并访问SpringBoot接口 说明 前言 基于当前最新版10.1.0搭建skywalking 前置条件 装有JDK11版本的环境了解SpringBoot相关知识 启动Skywalking 下载 地…

停车位识别数据集 图片数量12416张YOLO,xml和txt标签都有; 2类类别:space-empty,space-occupied;

YOLO停车位识别 图片数量12416张,xml和txt标签都有; 2类类别:space-empty,space-occupied; 用于yolo,Python,目标检测,机器学习,人工智能,深度学习&#xff0…

WordPress修改固定链接后301的重定向方法

网站改版实际上是很忌讳的,尤其是针对已被搜索引擎收录的网站,新站不用考虑这些问题,而已经收录的网站网页在不遵守搜索引擎规则的前提下,是会被降权,关键词排名下滑、流量IP会被剥夺、收录会减少 、业务成交量会急剧下…

Java—逻辑控制与输入输出

各位看官:如果您觉得这篇文章对您有帮助的话 欢迎您分享给更多人哦 感谢大家的点赞收藏评论,感谢您的支持!!! 一.顺序结构: 我每天起床,躺在床上玩手机,然后吃中午饭,睡…

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(2)Keras

文章目录 前言一、Keras二、使用Kears 估计回归问题的神经网络1. 载入、处理数据2. 数据预处理:归一化3. 设定一系列随机数种子4. 定义了一个简单的深度神经网络5. 训练模型6. 查看训练结果7. 使用最优轮数(index1)重新估计 此神经网络模型8.…

Authentication Lab | Timing Attacks

关注这个靶场的其它相关笔记:Authentication Lab —— 靶场笔记合集-CSDN博客 0x01:Timing Attacks 前情提要 由于软件系统对不同输入处理时间的差异,可能会导致系统存在侧信道攻击的隐患。比如,如果输入的是无效的用户名&#x…

通信工程学习:什么是三网融合

三网融合 三网融合,又称“三网合一”,是指电信网、广播电视网、互联网在高层业务应用上的深度融合。这一概念在近年来随着信息技术的快速发展而逐渐受到重视,并成为推动信息化社会建设的重要力量。以下是对三网融合的详细解释: 一…

LeetCode题练习与总结:生命游戏--289

一、题目描述 根据 百度百科 , 生命游戏 ,简称为 生命 ,是英国数学家约翰何顿康威在 1970 年发明的细胞自动机。 给定一个包含 m n 个格子的面板,每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态: 1 即…

HTML图形

HTML图形 1. HTML5 Canvas2.HTML5 内联 SVG3.HTML 5 Canvas vs. SVG 1. HTML5 Canvas HTML5 的 canvas 元素使用 JavaScript 在网页上绘制图像。画布是一个矩形区域,您可以控制其每一像素。canvas 拥有多种绘制路径、矩形、圆形、字符以及添加图像的方法。 1、创建…

想要成为独立游戏作者 :通关!游戏设计之道 1-1

1-1代表该书《通关!游戏设计之道》第一章的第一篇文章 游戏是什么? 小时候我是先有卡带游戏机后接触的平板电脑和手机,起初我认为游戏是带给人快乐的,我就喜欢游戏里面各种有趣的玩法,各种友爱的画风,尤其…

哈夫曼编码

文章目录 🍊自我介绍🍊哈夫曼编解码🍊哈夫曼树介绍🍊哈夫曼编码思想 你的点赞评论就是对博主最大的鼓励 当然喜欢的小伙伴可以:点赞关注评论收藏(一键四连)哦~ 🍊自我介绍 Hello,大家…

AI 正在颠覆编程,程序员的出路在哪里?

AI 正在颠覆编程,程序员的出路在哪里? AI 的飞速发展,让程序员群体感受到了前所未有的压力。我们的工作,真的会被 AI 取代吗?未来的职业发展方向究竟在哪?我们应该害怕,还是应该拥抱这种变化&a…

Spring Boot ⽇志

目录 1.⽇志使⽤ 2.⽇志级别 3.⽇志配置 3.1配置⽇志级别 3.2⽇志持久化 3.3配置⽇志⽂件分割 4.更简单的⽇志输出 1.⽇志使⽤ 在使用之前我们先来了解一下为什么要使用? ⽇志的⽤途 1.系统监控 我们可以通过⽇志记录这个系统的运⾏状态,对数…

The legacy JS API is deprecated and will be removed in Dart Sass 2.0

The legacy JS API is deprecated and will be removed in Dart Sass 2.0 更新了sass版本后,启动项目控制台一直在报错,影响开发效率,强迫症表示忍受不了。 字面意思是:Sass在2.0版本将会移除legacy JS API,所以现在使…

Git的安装配置

目录 一、git和svn的区别是什么 二、下载Git 三、安装 四、使用 一、git和svn的区别是什么 1、git是分布式的,svn是集中的式的 2、git存储数据时是按元数据的方式存储,而svn是按文件的方式存储 3、git分支和svn的分支不一样 4、git没有全局版本号…

【Sceneform-EQR】(手势控制器实现)通过手势事件实现在AR/VR等三维场景中的控制模型旋转、平移与缩放

在Sceneform-EQR中实现旋转平移缩放手势 实现在AR/VR等三维场景,通过手势控制模型节点的缩放、平移和旋转。 实现思路 实现模型旋转 Sceneform-EQR(filament\opengl)中采用右手坐标系。通过欧拉角进行旋转采用Z->Y->X的顺序,在这里,…

iOS swift5 苹果app审核被拒 1.4.1

文章目录 1.被拒2. 官网1.4.1的规定3.如何解决参考博客 1.被拒 准则1.4.1-安全-人身伤害 该应用程序连接到外部医疗硬件,以提供医疗服务。然而,为了遵守准则1.4.1,您必须: -提供来自适当监管机构的文件,证明应用程序…

vim 操作

vim编辑器的有三种工作模式:命令模式、插入模式和底行命令模式 打开进入命令模式: 由命令模式到输入模式:i:在光标前插;a:在光标后插;o:在下一行插 由输入模式进入命令模式:esc 由命令模式进入底行命令…

LabVIEW激光诱导击穿光谱识别与分析系统

LabVIEW激光诱导击穿光谱(LIBS)分析系统利用高能量脉冲激光产生高温等离子体,通过分析等离子体发出的光谱来定性分析样品中的元素种类。该系统的开发集成了软件与硬件的设计,实现了自动识别和定性分析功能,适用于环境监…

多表数据实时同步和批量实时同步怎么高效实现?

对于企业来说,准确、及时的数据是进行数据分析和决策支持的基础。如果各个系统中的数据不能及时同步,就会影响数据分析的结果和决策的准确性。通过数据同步,可以将企业内部各个系统中的数据整合到一个数据仓库或数据分析平台中,为…