每周编辑精选|微软开源 Orca-Math 高质量数学数据集、清华大学研究团队发布条件去噪扩散模型 SPDiff...

Orca-Math 是微软研究院发布的数学推理模型,该模型展示了较小的专业模型在特定领域的价值,它们可以匹配甚至超越更大模型的性能。微软近期开源了用于训练 Orca-Math 的 Orca-Math-200K 数学单词问题数据集,现已在 hyper.ai 官网提供下载,快来体验吧!

3 月 11 日-3 月 15 日,hyper.ai 官网更新速览:

* 优质公共数据集:10 个

* 优质公共教程:2 个

* 社区文章精选:3 篇

* 热门百科词条:10 条

访问官网:hyper.ai

公开数据集精选

1. Orca-Math-200K 微软数学单词问题数据集

Orca-Math-200K 是微软创建的一个高质量的合成数据集,包含约 20 万小学数学题目,此数据集中的所有答案都是使用 Azure GPT4-Turbo 生成的。

直接使用:

https://my5353.com/30060

2. MULTI-Benchmark:带有文本和图像的多模态理解排行榜

该数据集为上海交通大学发布的多模态基准测试 MULTI ,旨在评测多模态大模型在理解复杂的表格和图像、以及进行长文本推理的能力。该测试提供多模态输入,并要求回答是精确的或开放式的,反映了现实生活中的考试风格。MULTI 包含逾 18,000 个问题,涵盖从公式推导到图像分析及跨模态推理的多样化任务。

直接使用:

https://my5353.com/30062

3. IEPile 大规模信息抽取语料库 

IEPile 是由浙江大学研发的大规模高质量的双语(中英)信息抽取 (IE) 指令微调数据集,涵盖了命名实体识别 (NER) 、关系抽取 (RE) 和事件抽取 (EE) 三大核心子任务。该数据集包含约 200 万条指令样本,总计约 3.2 亿 Token,涵盖了通用、医学、金融等多个领域。

直接使用:

https://my5353.com/30064

4. FFHQ-UV-Intrinsic 用于 3D 人脸重建的面部属性数据集

FFHQ-UV-Intrinsic 是 Ubisoft LaForge 基于 FFHQ-UV 数据集构建的内在面部属性数据集,该数据集包含了 10,000 个主体的面部内在属性,包括漫反射、镜面反射、环境光遮挡和半透明贴图。它是首个公开的、大规模提供高分辨率的内在属性的面部数据集。

直接使用:

https://my5353.com/30113

5. GITQA 多模态图推理问答数据集

GITQA 是香港科技大学和南方科技大学构建的首个包含视觉图的推理问答数据集。该数据集包含超过 423K 个问答实例,每个实例包含相互对应的图结构-文本-视觉信息及其相应的问答对。

直接使用:

https://my5353.com/30116

6. SMolInstruct 化学指令微调数据集

SMolInstruct 是俄亥俄州立大学提出的一个大规模、全面且高质量的化学指令微调数据集,该数据集包含 14 个不同的化学任务,共超过 300 万个样本,涵盖 160 万个独特的分子。

直接使用:

https://my5353.com/30133

7. MusicPile 大型音乐数据集

MusicPile 是由 Multimodal Art Projection Research Community 、 Skywork AI 和香港科技大学联合推出的一个大型音乐-语言预训练数据集。该数据集包含 517 万个样本,约 41.6 亿 Token,来源包括音乐书籍、 YouTube 音乐字幕、 ABC 记谱法作品等。MusicPile 覆盖了广泛的音乐常识、知识问答及典型乐理内容,对提升大模型的音乐理解与创作能力具有关键作用。

直接使用:

https://my5353.com/30136

8. seq-monkey 序列猴子开源数据集 1.0

序列猴子是出门问问提供的超大规模语言模型,序列猴子数据集是用于训练序列猴子模型的数据集合,现抽取了部分数据集向公众开放:涉及领域包括:中文通用文本语料、古诗今译语料、文本生成语料。

直接使用:

https://my5353.com/30139

9. 豆瓣电影短评论数据集 V2

该数据集包含豆瓣电影网站中 28 部电影的超过 200 万条短评论。它可以用于文本分类、文本聚类、情感分析、语义网络构建以及其他一些与网络挖掘或 NLP 相关的领域。

直接使用:

https://my5353.com/30011

10. AdaDR—论文「基于自适应 GCN 方法进行药物重新定位」的数据集

该数据集为论文「基于自适应 GCN 方法进行药物重新定位」使用的数据集。为了全面评估所提出的模型性能,研究团队使用了四个基准数据集:Gdataset (Gottlieb et al. 2011)、 Cdataset (Luo et al. 2016)、 Ldataset (Yu et al. 2021) 和 LRSSL (Liang et al. 2017),可应用于药物重新定位任务。

直接使用:

https://my5353.com/30057

更多本周更新数据集,请访问

https://hyper.ai/datasets

公共教程精选

1. 使用迁移学习进行花卉分类

该教程演示了如何使用迁移学习在一组花卉图像数据集上执行图像分类。教程中将利用一个预训练的卷积神经网络 (CNN) 作为特征提取器,并在其上构建一个自定义分类器来预测花卉的种类。

在线运行教程:

https://my5353.com/n30069

2. 量化 Vision Transformers(Vit)以实现高效部署:策略和最佳实践

随着各行业对先进计算机视觉系统的需求持续激增,Vision Transformers 的部署已成为研究人员和从业者的焦点。然而,要充分发挥这些模型的潜力,需要对其架构有深入的了解。此外,制定有效部署这些模型的优化策略也同样重要。

本教程全面探讨了 Vision Transformer 架构、关键组件以及使它们与众不同的基本原理。在教程的最后,通过代码演示讨论了一些优化策略,使模型更加紧凑,以便于部署。

在线运行教程:

https://my5353.com/n30119

社区文章精选

1. 仅需 5% 训练样本达到最优性能,清华大学研究团队发布条件去噪扩散模型 SPDiff,实现长程人流移动模拟

清华大学研究团队提出了一种新颖的条件去噪扩散模型 SPDiff,该模型能够有效地利用交互动力学,通过社会力引导的扩散过程来模拟人群行为。相关论文已发表于 AAAI 2024。

查看完整报道:

https://my5353.com/n30069

2. 北师大研究团队建立 ECA-Net 模型,预测中国未来 70 年的风能利用潜力

近期,来自北京师范大学环境学院的研究团队发表论文,在全球变暖的大背景下,评估了我国风能潜势将如何发生变化。该研究采用了 22 个 CMIP6 全球气候模型作为输出,从而对模型间的不确定性进行可靠评估。结果显示,本世纪我国整体的风能密度将呈现轻微下降趋势。相关论文已发表于「ACS Publications」。

查看完整报道:

https://my5353.com/n30119

3英伟达 2024 GTC 倒计时,黄仁勋会带来面向中国市场的新举措吗?

2024 年 GTC AI 大会定档 3 月 18 日—21 日,黄仁勋将在北京时间 3 月19 日凌晨 4:00—6:00 带来一年一度的分享,主题为「见证 AI 的变革时刻」。HyperAI超神经基于老黄最近的演讲访谈与行业趋势,大胆预测了一下其演讲话题。

查看完整报道:

https://my5353.com/n30151

百科词条精选

1. 平均精度 (mAP)

2. 实例分割 Instance Segmentation

3. 交并比 Intersection over Union (IoU)

4. 多项式插值 Polynomial Interopolation

5. 倒数排名融合  Reciprocal Rank Fusion (RRF)

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://hyper.ai/wiki

B 站直播预告

日期

时间

内容

3 月 11 日
星期一

10:00

17:00

MIT深度学习课程 

2020

MIT深度学习课程 

2021

3 月 12 日

星期二

10:00

Python API 开发

——初学者综合课程

3 月 13 日

星期三

10:00

14:00

SQL 教程—初学者课程

生成式 AI 全套课程

3 月 14 日

星期四

21:00

面向初学者的 

Flutter 课程

3 月 15 日

星期五

10:00

面向初学者的 

Flutter 课程

3 月 16 日

星期六

10:00

哈佛 CS50

—Python 人工智能课程

3 月 17 日

星期日

10:00

一天内学习 PyTorch 

进行深度学习

超神经电视台 7×24h 不间断直播,持续输出 AI 行业见解,一起来学习吧:

http://live.bilibili.com/26483094

daf64cd73f7ecd4cb3c7c23a42c50d42.gif

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1200+ 公开数据集提供国内加速下载节点

* 收录 300+ 经典及流行在线教程

* 解读 100+ AI4Science 论文案例

* 支持 500+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/

 往期推荐 

601cc0034cc8532bfeaa9466f72f3f02.png

b87e3facb60beb600ae16601610d6cd1.png

f3ffc32d6d9c3fc1edef6b8774d20fa4.png

21e5c4903e892777dec49b35b4ea2cbc.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/278821.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql虚拟列Generated Column

目录​​​​​​​ 1、Generated Column简介 生成的列定义具有以下语法: 2、实践 2.1 存储格式为json字段增加索引 2.2 手机号后四位 3、虚拟列索引介绍 3.1 虚拟列索引的限制 3.1.1 Virtal Generated Column 4、阿里云数据库环境是否支持 下期扩展&…

从入门到精通:深入解析IO流之FileWriter类的使用技巧!

咦咦咦,各位小可爱,我是你们的好伙伴——bug菌,今天又来给大家普及Java SE相关知识点了,别躲起来啊,听我讲干货还不快点赞,赞多了我就有动力讲得更嗨啦!所以呀,养成先点赞后阅读的好…

构建部署_Docker常用命令

构建部署_Docker常见命令 启动命令镜像命令容器命令 启动命令 启动docker:systemctl start docker 停止docker:systemctl stop docker 重启docker:systemctl restart docker 查看docker状态:systemctl status docker 开机启动&…

linux常用命令之用户组管理命令

1.1groupadd新增组 gid 组id 1.2 usermod -g 更改用户所在的组 1.3 groupmod -n 更改组名 1.4groupdel 删掉一个用户组

基于Matlab的视频人面检测识别,Matalb实现

博主简介: 专注、专一于Matlab图像处理学习、交流,matlab图像代码代做/项目合作可以联系(QQ:3249726188) 个人主页:Matlab_ImagePro-CSDN博客 原则:代码均由本人编写完成,非中介,提供…

在Visual Studio中调试 .NET源代码

前言 在我们日常开发过程中常常会使用到很多其他封装好的第三方类库(NuGet依赖项)或者是.NET框架中自带的库。如果可以设置断点并在NuGet依赖项或框架本身上使用调试器的所有功能,那么我们的源码调试体验和生产效率会得到大大的提升。今天我…

Java后端面试:框架篇高频面试(Spring、SpringMVC、SpringBoot、MyBatis)

👨‍🎓作者简介:一位大四、研0学生,正在努力准备大四暑假的实习 🌌上期文章:Java后端面试:MySQL面试篇(底层事务、SQL调优) 📚订阅专栏:Java后端面…

mac os 配置两个github账号

1. 清空git全局配置的username和email git config --global --unset user.name git config --global --unset user.emailgit config --list 可以查看是否清空了 2. 定义两个标识符,这两个标识符以后会被用来代替“github.com”来使用。 假设两个账号的邮箱地址分别是a@gmai…

JAVA实战开源项目:农村物流配送系统(Vue+SpringBoot)

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 系统登录、注册界面2.2 系统功能2.2.1 快递信息管理:2.2.2 位置信息管理:2.2.3 配送人员分配:2.2.4 路线规划:2.2.5 个人中心:2.2.6 退换快递处理:…

【算法与数据结构】二叉树(前中后)序遍历

文章目录 📝前言🌠 创建简单二叉树🌉二叉树的三种遍历🌠前序🌉中序遍历 🌠后序遍历 🌠二叉树节点个数🌉二叉树节点个数注意点 🚩总结 📝前言 一棵二叉树是结…

云原生 PaaS 服务:构建现代应用的利器(分布式应用服务、配置中心、数据库服务、定时任务、实时监控、服务网关、技术组件)

在当今数字化时代,企业需要面对不断变化的市场需求和竞争压力,以及日益复杂的应用开发和部署挑战。在这样的背景下,云原生 PaaS(Platform as a Service)服务应运而生,为企业提供了一种现代化的应用开发和部…

计算机视觉之三维重建(1)---摄像机几何

文章目录 一、针孔模型和透镜1.1 针孔摄像机1.2 近轴折射模型1.3 透镜问题 二、摄像机几何2.1 像平面和像素平面2.2 齐次坐标下的投影变换2.3 摄像机倾斜2.4 规范化摄像机2.5 世界坐标系2.6 Faugeras定理2.7 投影变换性质: 三、其他投影摄像机模型3.1 弱透视投影摄像…

【ZooKeeper3、Watcher机制

本文基于 Apache ZooKeeper Release 3.7.0 版本书写 作于 2022年5月15日 17:22:11 转载请声明 演示前的ZooKeeper目录状态,只有zookeeper默认目录: 在客户端直接输入 --help 命令,可以看到以下文字: 可以看到 addWatch 命令&am…

HTML5球体下落粒子爆炸特效

HTML5球体下落粒子爆炸特效,源码由HTMLCSSJS组成,双击html文件可以本地运行效果,也可以上传到服务器里面 下载地址 HTML5球体下落粒子爆炸特效

Java代码审计安全篇-反序列化漏洞

前言: 堕落了三个月,现在因为被找实习而困扰,着实自己能力不足,从今天开始 每天沉淀一点点 ,准备秋招 加油 注意: 本文章参考qax的网络安全java代码审计和部分师傅审计思路以及webgoat靶场,记录…

智慧城市物联网建设:提升城市管理效率与居民生活品质

目录 一、智慧城市物联网建设的意义 1、提升城市管理效率 2、改善居民生活品质 3、促进城市可持续发展 二、智慧城市物联网建设面临的挑战 1、技术标准与互操作性问题 2、数据安全与隐私保护问题 3、投资与回报平衡问题 三、智慧城市物联网建设的实施策略 1、制定统一…

Python和R的区别是什么,Python与R的应用场景是什么?

如果你这么问,那么你可能正站在数据科学的起点。对于志在成为数据专业人员的你来说,学习编程是无疑的。我想行你早就听过Python 与R的比较之声,并在选择中感到困惑。在此,我想说,也算是一种安慰吧:对于语言…

uniapp+vue3+setup语法糖开发微信小程序时不能定义globalData的解决方法

在使用 uniapp 开发小程序的时候, 发现使用了setup 语法糖 ,定义 globalData 时,要不是定义不了, 要不就是使用 getApp()取不到,后来想到一个不伦不类的方法解决了, 这个方法有点难看, 但是解决…

学习笔记Day8:GEO数据挖掘-基因表达芯片

GEO数据挖掘 数据库:GEO、NHANCE、TCGA、ICGC、CCLE、SEER等 数据类型:基因表达芯片、转录组、单细胞、突变、甲基化、拷贝数变异等等 常见图表 表达矩阵 一行为一个基因,一列为一个样本,内容是基因表达量。 热图 输入数据…

智能合约 - 部署ERC20

Remix介绍 Remix是一个由以太坊社区开发的在线集成开发环境(IDE),旨在帮助开发者编写、测试和部署以太坊智能合约。它提供了一个简单易用的界面,使得开发者可以在浏览器中直接进行智能合约的开发,而无需安装任何额外的…