Llama 3.1中文微调数据集已上线,超大模型一键部署

7 月的 AI 圈真是卷完小模型卷大模型,精彩不停!大多数同学都能体验 GPT-4o、Mistral-Nemo 这样的小模型,但 Llama-3.1-405B 和 Mistral-Large-2 这样的超大模型让很多小伙伴犯了难。

别担心!hyper.ai 官网在教程板块为大家提供了使用「Open WebUI」和使用「OpenAI 兼容 API 服务」两种方式启动这两个超大模型的教程! 此外,还上线了中文微调数据集 DPO-zh-en-emoji,下拉文章获取链接~

8 月 5 日-8 月 9 日,hyper.ai 官网更新速览:

  • 优质教程精选:5 个

  • 优质公共数据集:10 个

  • 社区文章精选:3 篇

  • 热门百科词条:5 条

  • 8 月截稿顶会:2 个

访问官网:hyper.ai

公共教程精选

1. 使用 Open WebUI 一键部署 Mistral Large 2 / Llama 3.1 405B

该教程是使用 OpenWebUI 一键部署 Mistral Large 2 / Llama 3.1 405B,相关环境和配置已经搭建完成,只需克隆启动容器即可进行推理体验。

在线运行 Mistral Large 2 模型部署:

https://go.hyper.ai/Bwf6G

在线运行 Llama 3.1 405B 模型部署:

https://go.hyper.ai/iyL60

2. 一键部署 Mistral Large 2 / Llama 3.1 405B 模型 OpenAI 兼容 API 服务

该教程为使用 OpenAI 兼容 API 部署 Mistral-Large-Instruct-2407-AWQ。「OpenAI 兼容 API」意味着第三方开发者可以使用与 OpenAI 相同的请求和响应格式,将类似的功能集成到自己的应用程序中。启动该教程后可以在任何 OpenAI 兼容的 SDK 对该模型进行连接。和上个教程相比更为复杂一些,适合有编程基础的

在线运行 Mistral Large 2 模型部署:

https://go.hyper.ai/Smexo

在线运行 Llama 3.1 405B 模型部署:

https://go.hyper.ai/1AiDi

3. 使用吉布斯扩散 (Gibbs-Diffusion) 进行图像盲降噪

GDiff 全称 Gibbs-Diffusion,是一种贝叶斯盲去噪方法,解决了信号和噪声参数的后验采样问题。该教程是根据论文「Listening to the Noise: Blind Denoising with Gibbs Diffusion」搭建的测试方法,按照教程步骤操作即可体验研究成果。

在线运行:https://go.hyper.ai/y2wIU

公共数据集精选

1. DPO-zh-en-emoji 表情符号问答数据集

该数据集是一个专为微调大语言模型而设计的数据集,包含了大量的问答对数据,每个问题都有中文和英文两个版本的答案,并且答案中融入了趣味幽默的元素,包括表情符号 (emoji) 的使用。shareAI 团队已将其用于微调 Llama 3.1 8B 模型。

直接使用:https://go.hyper.ai/Y90pZ

2. UrbanSARFloods v1 洪水制图基准数据集

UrbanSARFloods 是专门用于城市和开放区域洪水制图的数据集,包含 8,879 个 512×512 的图像块,覆盖 807,500 平方公里,涵盖了 18 次洪水事件。解决了现有的大规模 SAR 衍生洪水制图研究中对城市洪水关注不足的问题。

直接使用:https://go.hyper.ai/yOXx7

3. VRSBench 大规模高质量遥感视觉语言基准数据集

该数据集是一个为遥感图像理解设计的多用途视觉-语言基准数据集,包含 29,614 张经过人工验证的详细字幕图像、52,472 个对象引用和 123,221 个问答对,旨在推进通用的、大规模的遥感图像视觉-语言模型的发展。

直接使用:https://go.hyper.ai/O7DtC

4. ATLAS 高分辨率 3D 人物纹理数据集

该数据集全称 ArTicuLated humAn textureS(简称 ATLAS)是一个最大的高分辨率 (1,024 × 1,024) 3D 人物纹理数据集,包含了 5 万个具有文本描述的高保真纹理。相关论文成果已入选 ECCV 2024。

直接使用:https://go.hyper.ai/Zx1nj

5. MIND 微软新闻数据集

MIND 包含约 16 万篇英文新闻文章和 100 万用户生成的超过 1500 万条印象日志,收集自 Microsoft News 网站的匿名行为日志。旨在作为新闻推荐的基准数据集,并促进新闻推荐和推荐系统领域的研究。

直接使用:https://go.hyper.ai/lVOyX

6. BoWFire 火灾检测分割数据集

BoWFire 数据集是一个专门用于火焰检测的图像数据集,旨在提高火灾检测的准确性并减少误报。该数据集包括了多种紧急情况下的火灾图像,例如建筑物着火、工业火灾、车祸和骚乱等情况。

直接使用:https://go.hyper.ai/73AYY

7. CNN/DailyMail 新闻文章数据集

该数据集包含 CNN 和 Daily Mail 记者撰写的 30 多万篇新闻文章,旨在帮助开发能够用一两句话概括长段落文本的模型。

直接使用:https://go.hyper.ai/AbidL

8. Doodle Dataset 涂鸦图像数据集

该数据集包含 100 多万张图像,涵盖 340 个涂鸦类别,经过处理后可用于机器学习任务。

直接使用:https://go.hyper.ai/Ns4M4

9. Yoga-16 人体瑜伽动作图像数据集

Yoga-16 数据集旨在提高瑜伽姿势识别模型的分类准确率。它分为三个主要目录:训练、测试和验证,每个目录包含 16 个子目录,对应 16 种不同的瑜伽姿势。

直接使用:https://go.hyper.ai/iMe0Z

10. Human Images Dataset 男性和女性人体图像数据集

该数据集包含男性和女性两个人物类别图像文件夹。图像包括面部、上半身和全身。可用于性别识别、人类身份识别和图像分类等各种项目。

直接使用:https://go.hyper.ai/6UJb7

更多公共数据集,请访问:
https://hyper.ai/datasets

社区文章精选

1. 学术分享丨清华大学博士后李雨哲详解 Cell/Nature 子刊论文,探索基因组学的 AI 应用

「Meet AI4S」系列直播第二期,邀请到了清华大学张强锋实验室博士后李雨哲。8 月 21 日,李雨哲博士将以线上直播的形式进一步为大家分享空间转录组学和单细胞组学研究中的 AI 方法。

查看活动详情:https://go.hyper.ai/GIzpo

2. 全球首个!清华/上海交大等联合构建面向糖尿病诊疗的视觉-大语言模型,登 Nature 子刊

Google Research 联手麻省理工获得 IJCAI 2024 最佳论文奖!公众号后台回复 IJCAI 2024,获取 IJCAI 2024 最佳论文奖、杰出论文奖、AIJ 经典论文奖与杰出论文奖合集。

查看完整报道:https://go.hyper.ai/ZGzI2

3. 首次!GPT-2赋能无线通信物理层,北大团队提出基于预训练LLM的信道预测方案

清华大学副教务长、医学院主任黄天荫教授团队,上海交通大学电院计算机系/教育部人工智能重点实验室盛斌教授团队,上海交通大学医学院附属第六人民医院贾伟平教授及李华婷教授团队,新加坡国立大学及新加坡国家眼科中心覃宇宗教授团队通力合作,成功构建全球首个面向糖尿病诊疗的视觉-大语言模型集成系统 DeepDR-LLM 。本文是该研究的详细解读和分享。

查看完整报道:https://go.hyper.ai/qnzSp

热门百科词条精选

1. 交并比 IoU

2. 倒数排序融合 RRF

3. 对比学习 Contrastive Learning

4. 大规模多任务语言理解 MMLU

5. 长短期记忆 Long Short-Term Memory

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki

在这里插入图片描述

一站式追踪人工智能学术顶会:https://go.hyper.ai/event

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区, 致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 1300+ 公开数据集提供国内加速下载节点

  • 收录 400+ 经典及流行在线教程

  • 解读 100+ AI4Science 论文案例

  • 支持 500+ 相关词条查询

  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/399839.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

创建第一个Qt项目

创建第一个QT项目 创建工程名称一般不要有特殊符号,不要有中文 项目工程保存路径可修改,路径不要带中文 Base class中的三个选项 QMainWindow:主窗口类,包括菜单栏、工具栏、状态栏。 QWidget:可以创建一个空白的窗口,是所有界…

SQL Server 2022的索引

《SQL Server 2022从入门到精通(视频教学超值版)》图书介绍-CSDN博客 《SQL Server 2022从入门到精通(视频教学超值版)(数据库技术丛书)》(王英英)【摘要 书评 试读】- 京东图书 (jd.com) 10.1 索引的含义…

【C++ 面试 - 基础题】每日 3 题(十)

✍个人博客:Pandaconda-CSDN博客 📣专栏地址:http://t.csdnimg.cn/fYaBd 📚专栏简介:在这个专栏中,我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞👍收藏&…

C# Winform序列化和反序列化

在NET Framework 4.7.2中不能用Newtonsoft.Json进行序列化和反序列化,为解决此问题,采用System.Text.Json进行序列化,注意要添加System.Memory的引用。 1、创建测试类 using System; using System.Collections.Generic; using System.Linq; …

《剑指offer》题目 C++详细题解

JZ15 二进制中1的个数 核心考点:二进制计算 思路一:使用一个循环,因为我们知道整型变量只有32位,所以循环结束的条件就是到32,从最低位开始,逐位检查数字 n 的二进制表示,利用位运算中的与运算…

如何检查端口占用:netstat和lsof指令

在网络故障排查和系统管理中,检查端口占用情况是一项常见且重要的任务。本文将详细介绍如何使用 netstat 和 lsof 这两个强大的工具来检查端口占用和相关服务。 1. 使用 netstat 查看端口占用 netstat (network statistics) 是一个用于显示网络连接、路由表、接口…

前端react集成OIDC

文章目录 OpenID Connect (OIDC)3种 授权模式 【服务端】express 集成OIDC【前端】react 集成OIDCoidc-client-js库 原生集成react-oidc-context 库非组件获取user信息 OAuth 2.0 协议主要用于资源授权。 OpenID Connect (OIDC) https://openid.net/specs/openid-connect-core…

【案例44】Oracle启用“_optimizer_skip_scan_enabled” 参数导致NC系统卡死问题

问题现象 客户反映系统卡顿,很多操作耗时都比较长,通过nmc监控,线程耗时主要集中在数据库上。 问题分析 首先监控数据库服务器资源使用情况,CPU、内存使用正常,没有达到峰值。 监控磁盘IO情况,发现磁盘最…

WPF篇(11)-ToolTip控件(提示工具)+Popup弹出窗口

ToolTip控件 ToolTip控件继承于ContentControl,它不能有逻辑或视觉父级,意思是说它不能以控件的形式实例化,它必须依附于某个控件。因为它的功能被设计成提示信息,当鼠标移动到某个控件上方时,悬停一会儿,…

【C++ 面试 - 基础题】每日 3 题(十一)

✍个人博客:Pandaconda-CSDN博客 📣专栏地址:http://t.csdnimg.cn/fYaBd 📚专栏简介:在这个专栏中,我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞👍收藏&…

解决浏览器书签同步问题,极空间部署开源免费的跨平台书签同步工具『xBrowserSync』

解决浏览器书签同步问题,极空间部署开源免费的跨平台书签同步工具『xBrowserSync』 哈喽小伙伴们好,我是Stark-C~ 作为一个喜欢折腾的数码党,我平时上网冲浪使用的浏览器绝不会只限于一种,就比如说我在上班的地方只会用到Edge浏…

安科瑞Acrel-2000ES储能能量管理系统在新型电力系统下分布式储能的研究

摘要:传统电力系统的结构和运行模式在以新能源为主体的新型电力系统中发生了巨大的变化,分布式储能作为电力系统中重要的能量调节器,也迎来了新的发展机遇。立足于储能技术发展现状,分析了分布式储能技术特点及在清洁可再生能源方…

priority_queue的介绍 仿函数

1.priority_queue的介绍 1.优先队列是⼀种容器适配器,根据严格的弱排序标准,它的第⼀个元素总是它所包含的元素中最⼤的。 2.此上下⽂类似于堆,在堆中可以随时插⼊元素,并且只能检索最⼤堆元素(优先队列中位于顶部的元…

接口自动化--Postman(1)

Postman介绍 介绍:Postman是一款接口调试工具特点:支持Mac、Windows和Linux下载:Postman官网下载 【黑马客达天下-登录接口调试】 1、获取验证码 需求:使用Postman访问验证码接口,并查看响应结果地址:h…

北斗三号5G遥测终端机系统在水库大坝安全监测应用

一、概述 我国现有水库大坝9.8万余座,是世界上拥有水库大坝最多的国家。这些水库大坝在防洪、发电、供水、灌溉等方面发挥巨大效益的同时,所存在的安全风险不容忽视。大坝安全监测是大坝安全管理的重要内容,是控制大坝风险的重要措施。大坝安…

Spring入门讲解

这里写目录标题 Spring基础概念关键重点主要特性主要优势Spring与Java EE的对比Spring生态系统概述总结 Spring 基础概念 Spring是一个开源的轻量级Java开发框架,它提供了全面的基础设施支持,简化了企业级应用的开发和部署。Spring的核心理念是依赖注入…

Stable Diffusion 必备插件推荐,菜鸟轻松成高手!

前言 一个刚学AI绘画的小菜鸟如何快速成为Stable Diffusion高手?答案就是SD插件。 只要学会使用SD的各种插件,帮你写正向和负向提示词,修复人脸/身体/手指,高清放大图片,指定人物pose,图片微调等等都可以…

合合信息OCR支持30类国内常见票据一站式分类识别,支持医疗发票、数电票识别

合合信息TextIn平台明星产品——国内通用票据识别,重磅更新! 产品支持票据类型扩展到23大类、30小类,覆盖场景更全面,同时升级优化了多款票据识别模型,平均识别率较前版本提升11.5%,整体识别速度提升21.9%…

手写mybatis拦截器自动填充数据

文章目录 🌞 Sun Frame:SpringBoot 的轻量级开发框架(个人开源项目推荐)🌟 亮点功能📦 spring cloud模块概览常用工具 🔗 更多信息1.将sun-club-subject模块的登录拦截器放到sun-club-common包中…

Prometheus+Grafana保姆笔记(1)——Prometheus+Grafana的安装

Prometheus Grafana 的组合在微服务项目中可以完成许多DevOps任务,它们共同提供了强大的监控和可视化功能。 我们陆续介绍Prometheus Grafana 的相关用法。 首先介绍PrometheusGrafana的安装。 安装 Prometheus Prometheus 是GO写的,并不依赖于 Ja…