2023年8月第3周大模型荟萃

2023年8月第3周大模型荟萃

  • 2023.8.22
  • 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。

1、LLM-Adapters:可将多种适配器集成到大语言模型

来自新加坡科技设计大学和新加坡管理大学的研究人员发布了一篇题为《LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models》的论文。该论文介绍了一种名为 LLM-Adapters 的适配器系列,用于大型语言模型的参数高效微调。该适配器系列可在不影响模型性能的情况下减少微调所需的参数数量,从而提高微调效率。

LLM-Adapters框架设计在研究、efficient、模块化和可扩展方面表现良好,允许集成新的适配器和用新的更大规模的语言模型进行评估。实验结果表明,在简单的数学推理任务上,使用较小规模语言模型的参数高效微调仅需要很少的可训练参数,就能达到强大语言模型在零样本推断中可比的性能。总体而言,LLM-Adapters 框架提供了一个有希望的框架来微调大型语言模型用于下游任务。

2、手机的算力也能运行大模型

开源社区有很多人都在探索大模型的优化方法。有一个叫 llama.cpp 的项目用原始 C++ 重写了 LLaMa 的推理代码,效果极好,获得了人们的广泛关注。GitHub 链接:https://github.com/ggerganov/llama.cpp

通过一些优化和量化权重,它能让我们在各种以前无法想象的硬件上本地运行 LLaMa 模型。其中:

  • 在谷歌 Pixel5 手机上,它能以 1 token/s 的速度运行 7B 参数模型。
  • 在 M2 芯片的 Macbook Pro 上,使用 7B 参数模型的速度约为 16 token/s
  • 我们甚至于可以在 4GB RAM 的树莓派上运行 7B 模型,尽管速度只有 0.1 token/s

3、Candle:Hugging Face 开源的新 ML 框架

GitHub 链接:https://github.com/huggingface/candle,Hugging Face 开源了一款新机器学习框架 Candle,它一改机器学习惯用 Python 的做法,而是 Rust 编写,重点关注性能(包括 GPU 支持)和易用性。

根据 Hugging Face 的介绍,Candle 的核心目标是让 Serverless 推理成为可能。像 PyTorch 这样的完整机器学习框架非常大,这使得在集群上创建实例的速度很慢。Candle 允许部署轻量级二进制文件。另外,Candle 可以让用户从生产工作负载中删除 Python。Python 开销会严重影响性能,而GIL是众所周知的令人头疼的问题。

4、字节跳动的大模型“豆包”正式上线使用

字节跳动的首个AI对话式APP“豆包”及其网页版已在近日上线,目前已开放安卓端的下载通道。豆包APP也就是为此前字节内部代号为“Grace”的AI项目,目前拥有文生文、文生图的功能。

官网主页:https://www.doubao.com/,可使用抖音账号直接扫描二维码使用。我使用了几天,主观感受是挺不错的。而根据字节跳动在大模型投入方面的信息来判断(比如采购10亿美元的英伟达显卡),字节大模型很可能会后来居上,排国内前三问题不大,问鼎也极有可能。

5、科大讯飞大模型演进到2.0

8月15日下午,科大讯飞“如期”在合肥召开了星火认知大模型V2.0升级发布会。按照此前“剧透”,本次升级是在星火1.5版本突破开放式问答、数学能力和多轮对话能力基础上的再一次飞跃,重点在代码能力、多模态交互能力上取得重大突破,同时发布了面向老师、学校、企业、开发者等多元的应用落地产品。

作为一名讯飞星火大模型的中度/重度用户,我个人的体会是:星火大模型从V1.0升级到V1.5,再从V1.5升级到V2.0,我的主观使用感受是大模型的智力没有任何提升,仍然时不时会出现答非所问,乱答一通的现象。而讯飞星火的两次大升级,真正明显进步的是大模型的应用场景和应用产品增加了,比如新增了编程助手iFlyCode。一句话,是大模型业务数量的增加。

6、GPT-4 新增内容审核能力

最近OpenAI表示,其开发了一种使用GPT-4进行内容审核的解决方案,有望减轻人工审核员的负担。将GPT-4用于内容策略开发和内容审核决策,从而实现更一致的标记、更快的策略优化反馈循环,以及减少人工审核人员的参与。内容审核在维持数字平台的健康方面发挥着至关重要的作用。使用GPT-4的内容审核系统可以更快地迭代策略更改,将周期从几个月缩短到几个小时。GPT-4还能够解释长内容策略文档中的规则和细微差别,并立即适应策略更新,从而实现更一致的标记。。

7、艾伦AI推出业界最大文本数据集Dolma

艾伦AI研究所(AI2)于8月19日在其官方博客发布用于训练大型语言模型(LLM)的文本数据集Dolma,包含3万亿个Tokens(词例),是迄今为止最大的开放文本数据集。

AI2声称,在AI竞争激烈的当下,大部分科技巨头都倾向于保守自家大模型开发的机密。而AI2公司希望通过公开透明化其数据集及之后的大模型,帮助更多的研究者在此基础上进一步进行研究和开发等工作。
Dolma

8、Meta将推出免费版编程工具

Meta即将于下周推出一款开源AI软件Code Llama,旨在帮助开发人员自动生成编程代码,是继Llama 2大语言模型后又一项可能颠覆人工智能领域的大胆举措。Code Llama将“暴力对标”OpenAI旗下的Codex模型,并较Meta的开源大语言模型Llama 2显著增强。Code Llama的开源属性将令企业用户更容易开发自有AI助手,后者可在开发人员键入时自动推荐代码,并与由Codex支持的微软GitHub Copilot等付费编程助手工具争夺客户。

有分析称,企业用户可能更倾向于使用开源的编程模型来开发自己的编程助手,以期保护其源代码。生成自动代码建议一直是大语言模型的最流行用途之一。Code Llama等开源模型可以帮助业内后起之秀更快地参与竞争,也令担心源代码安全的大公司更容易建构自己的内部模型,令外部付费供应商变得冗余,直接颠覆了行业动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/101694.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

引领娱乐潮流:邀请明星办个人演唱会的五大关键步骤

随着娱乐产业的不断壮大和观众对明星的热情高涨,举办个人演唱会已经成为了一种广受欢迎的文化现象。这种活动不仅让粉丝们有机会亲身近距离感受偶像的音乐魅力,同时也为明星和品牌提供了一个宝贵的互动平台。然而,要成功地邀请明星办个人演唱…

【JAVA基础】 IO详解

【JAVA基础】 IO详解 文章目录 【JAVA基础】 IO详解一、概述二、IO流的作用三、IO流的使用场景四、IO流的分类4.1 传输数据的单位分:4.2 数据传输的方向分:4.3 流的角色的不同分: 五、IO流体系六、字节输入流InputStream七、字节输出流 Outpu…

华为云开发工具CodeArts IDE for C/C++ 开发使用指南

简介 CodeArts IDE是一个集成开发环境(IDE),它提供了开发语言和调试服务。本文主要介绍CodeArts IDE for C/C的基本功能。 1.下载安装 CodeArts IDE for C/C 已开放公测,下载获取免费体验 2.新建C/C工程 CodeArts IDE for C/…

一网打尽java注解-克隆-面向对象设计原则-设计模式

文章目录 注解内置注解元注解 对象克隆为什么要克隆?如何克隆浅克隆深克隆 Java设计模式什么是设计模式?为什么要学习设计模式? 建模语言类接口类之间的关系依赖关系关联关系聚合关系组合关系继承关系实现关系 面向对象设计原则单一职责开闭原…

学Pyhton静不下来,看了一堆资料还是很迷茫是为什么

一、前言 最近发现,身边很多的小伙伴学Python都会遇到一个问题,就是资料也看了很多,也花了很多时间去学习但还是很迷茫,时间长了又发现之前学的知识点很多都忘了,都萌生出了想半路放弃的想法。 让我们看看蚂蚁金服的大…

Shell 编程快速入门 之 数学计算和函数基础

目录 1. 求两数之和 整数之和 浮点数之和 2. 计算1-100的和 for...in C风格for循环 while...do until...do while和until的区别 关系运算符 break与continue的区别 3. shell函数基础知识 函数定义 函数名 函数体 参数 返回值 return返回值的含义 return与…

薛定谔的日语学习小程序源码下载

这款学习日语的小程序源码,名为“薛定谔的日语”,首页展示了日语中的50音图,让用户能够看到日语词并跟读发音。 在掌握50音图后,用户还可以进行练习。小程序会随机提问50音图中的某一个,用户需要回答是否正确&#xf…

java八股文面试[java基础]——final 关键字作用

为什么局部内部类和匿名内部类只能访问final变量: 知识来源 【基础】final_哔哩哔哩_bilibili

Redis 整合中 Redisson 的使用

大家好 , 我是苏麟 , 今天带来 Redisson 使用 . 官方文档 : GitHub - redisson/redisson: Redisson - Easy Redis Java client with features of In-Memory Data Grid. Sync/Async/RxJava/Reactive API. Over 50 Redis based Java objects and services: Set, Multimap, Sorte…

DSO 系列文章(2)——DSO点帧管理策略

文章目录 1.点所构成的残差Residual的管理1.1.前端残差的状态1.2.后端点的残差的状态1.3.点的某个残差的删除 2.点Point的管理2.1.如何删除点——点Point的删除2.2.边缘化时删除哪些点? 3.帧FrameHessian的管理 DSO代码注释:https://github.com/Cc19245/…

深入浅出 TCP/IP 协议栈

TCP/IP 协议栈是一系列网络协议的总和,是构成网络通信的核心骨架,它定义了电子设备如何连入因特网,以及数据如何在它们之间进行传输。TCP/IP 协议采用4层结构,分别是应用层、传输层、网络层和链路层,每一层都呼叫它的下…

【Redis】Redis 的学习教程(一)入门基础

1. 简介 Redis 全称:Remote Dictionary Server(远程字典服务器),是一款开源的,遵守 BSD 协议,使用 C 语言开发的 key-value 存储系统。简单的说,它是一款跨平台的非关系型数据库,支…

爬虫异常捕获与处理方法详解

Hey!作为一名专业的爬虫代理供应商,我今天要和大家分享一些关于爬虫异常捕获与处理的方法。在进行爬虫操作时,我们经常会遇到各种异常情况,例如网络连接错误、请求超时、数据解析错误等等。这些异常情况可能会导致程序崩溃或数据丢…

Nest(3):扫盲篇:TypeScript 类和装饰器

前言 先回顾下前文中介绍了哪些内容: 使用 nestjs/cli 创建和管理 Nest 应用Hello, World 示例代码分析Nest 基本概念:模块,控制器,服务常用的装饰器:Module、Controller、Get、InjectableNest 目录结构分析nest/cli…

21.2 CSS 三大特性与页面布局

1. 开发者工具修改样式 使用开发者工具修改样式, 操作步骤如下: * 1. 打开开发者工具: 在浏览器中右键点击页面, 然后选择检查或者使用快捷键(一般是 F12 或者 CtrlShiftI)来打开开发者工具.* 2. 打开样式编辑器: 在开发者工具中, 找到选项卡或面板, 一般是Elements或者Elemen…

【仿写框架之仿写Tomact】一、详解Tomcat的工作流程

文章目录 1、启动阶段2、监听阶段:3、请求处理阶段:4、发送请求处理后的响应 当涉及到Java Web应用程序的部署和运行,Apache Tomcat无疑是一个备受欢迎的选择。Tomcat作为一个开源的、轻量级的Java Servlet容器和JavaServer Pages (JSP) 容器…

[保研/考研机试] KY124 二叉搜索树 浙江大学复试上机题 C++实现

题目链接&#xff1a; 二叉搜索树_牛客题霸_牛客网判断两序列是否为同一二叉搜索树序列。题目来自【牛客题霸】https://www.nowcoder.com/share/jump/437195121692722892652 描述 判断两序列是否为同一二叉搜索树序列 输入描述&#xff1a; 开始一个数n&#xff0c;(1<…

Sectigo EV代码签名申请步骤

一、EV代码签名申请前提 1、单位成立时间不低于&#xff1a;3个月 2、单位工商及企查查可查 3、单位经营正常 4、注册地址真实存在&#xff0c;禁止使用集中注册地址 5、企查查登记电话和邮箱&#xff0c;确定查询结果的电话可以接听、邮箱可以接收邮件&#xff0c;如果信…

行业追踪,2023-08-22

自动复盘 2023-08-22 凡所有相&#xff0c;皆是虚妄。若见诸相非相&#xff0c;即见如来。 k 线图是最好的老师&#xff0c;每天持续发布板块的rps排名&#xff0c;追踪板块&#xff0c;板块来开仓&#xff0c;板块去清仓&#xff0c;丢弃自以为是的想法&#xff0c;板块去留让…