获取CNN/DM适用于评估Bart的格式的数据集（类似于test.source、test.source.tokenized）

获取CNN/DM适用于评估Bart的格式的数据集（类似于test.source、test.source.tokenized）

news/2024/12/27 11:59:00/文章来源:https://blog.csdn.net/yuyuyu_xxx/article/details/135366328

项目场景：

复现文本摘要任务评估CNN/DM数据集

问题描述

abisee老哥的代码获取的是bin格式的数据集
时间久远，一些依赖的配置版本难以复现

笔者需要能评估Bart 格式的数据集
形式类似于test.source、test.source.tokenized

解决方案：

经过坚持不懈的爬楼找到了有用的生成代码，并且测试成功，故此记录一下

首先指路github地址

此处有更新后的预处理脚本

1 下载数据

从这里下载并解压缩CNN和每日邮报的 stories 目录。

2.处理为.source和.target文件

Run 运行

python make_datafiles.py /path/to/cnn/stories /path/to/dailymail/stories

将 /path/to/cnn/stories·替换为您保存下载的 cnn/stories 目录的路径;类似于dailymail/stories。

对于每个URL列表（ all_train.txt 、 all_val.txt 和 all_test.txt ），从文件中读取相应的故事并将其写入文本文件 train.source 、 train.target 、 val.source 、 val.target 以及 test.source 和 test.target 。它们将被放置在新创建的 cnn_dm 目录中。
输出现在适合于馈送到BART微调的BPE预处理步骤。

3.完成后的结算画面

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/230391.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

霹雳吧啦Wz《pytorch图像分类》-p5ResNet网络

霹雳吧啦Wz《pytorch图像分类》-p5ResNet网络

《pytorch图像分类》p5ResNet网络结构 1 网络中的亮点1.1 超深的网络结构1.2 residual模块1.3 Batch Normalization1.4 迁移学习简介 2 模块类代码2.1 BasicBlock（18 & 32 layers）2.2 Bottleneck（50 & 101 & 152 layers&#xff…

阅读更多...

vue-cli创建项目时由esLint校验导致报错或警告的问题及解决

vue-cli创建项目时由esLint校验导致报错或警告的问题及解决

vue-cli创建项目时由esLint校验导致报错或警告的问题及解决一、万能办法一、万能办法 //就是在报错的JS文件中第一行写上 /* eslint-disable */链接: https://www.yii666.com/blog/288808.html 其它的方法我遇见了再补充

阅读更多...

docker的安装的详细教程，以及出现错的解决办法（阿里云）

docker的安装的详细教程，以及出现错的解决办法（阿里云）

docker的安装与使用 1.安装dnf sudo yum -y install dnf Repository extras is listed more than once in the configuration 错误：无法为仓库 appstream 找到一个有效的 baseurl 出现这个错误这是由于阿里云的版本导致的在阿里云开发者社区有答案&#xff01…

阅读更多...

什么是软件安全性测试？如何进行安全测试？

什么是软件安全性测试？如何进行安全测试？

一、什么是软件安全性测试？ 软件安全性测试是指对软件系统中的安全漏洞进行检测和评估的过程。其目的是为了确保软件系统在面对各种安全威胁时能够保持其功能的完整性、可用性和机密性。二、软件安全性测试可以通过以下几个步骤来进行： 1. 需求分析&a…

阅读更多...

Django 学习教程- Hello world入门案例

Django 学习教程- Hello world入门案例

系列 Django 学习教程-介绍与安装-CSDN博客欢迎来到第Djagno学习教程第二章Hello World 入门案例。在本教程中，我将引导您完成django的Hello World入门案例。让我们开始吧！ 版本 Django 5.0Python 3.10 创建项目安装 Django 之后&#xff0…

阅读更多...

数字孪生与物联网（IoT）技术的结合

数字孪生与物联网（IoT）技术的结合

数字孪生与物联网（IoT）技术的结合可以在多个领域实现更智能、更高效的应用。以下是数字孪生在物联网技术中的一些应用，希望对大家有所帮助。北京木奇移动技术有限公司，专业的软件外包开发公司，欢迎交流合作。 1.实时监…

阅读更多...

把苹果手机上的备忘录转为长图片，分享给别人方法教程

把苹果手机上的备忘录转为长图片，分享给别人方法教程

在这个信息爆炸的时代，手机备忘录几乎成了我随身携带的“记忆宝库”。每当我脑海中闪现出一个想法、灵感或是需要记住的重要事项，我都会第一时间打开苹果手机的备忘录，将它们一一记录下来。备忘录的简洁界面和高效操作总能让我在忙碌的生活中…

阅读更多...

gradle --腾讯国内镜像源

gradle --腾讯国内镜像源

distributionUrlhttps\://mirrors.cloud.tencent.com/gradle/gradle-7.3.3-bin.zip 1.进入到自己工程目录下的wrapper文件夹。 2.编辑gradle-wrapper文件使用https://mirrors.cloud.tencent.com/gradle/gradle-4.6-all.zip来代替原来的 https\://services.gradle.org/distri…

阅读更多...

CDD文件的制作

CDD文件的制作

CDD文件 1、核查诊断调查表2、制作CDD3、Diva测试 1、核查诊断调查表 ECU级别：包括文档相关、控制器的诊断ID和时间参数，支持的服务，DTC、DID、刷写流程。 2、制作CDD 2.1、cddt编辑思路（每一步都要根据调查表进行操作&#xf…

阅读更多...

QT C++调用python传递RGB图像和三维数组，并接受python返回值(图像)

QT C++调用python传递RGB图像和三维数组，并接受python返回值(图像)

目的： 用QT调用python代码，将QT读取的图像(Qimage)作为参数传入python中，将QT的三维数组作为参数传递给python，python接收QT传入的图像进行计算，将结果返回给QT并显示。一 .pro 头文件的配置，和lib库的…

阅读更多...

很实用的ChatGPT网站—在线编程模块增补篇

很实用的ChatGPT网站—在线编程模块增补篇

很实用的ChatGPT网站（http://chat-zh.com/）——增补篇今天介绍一个好兄弟开发的ChatGPT网站，网址[http://chat-zh.com/]。这个网站功能模块很多，包含生活、学习、医疗、法律、经济等很多方面。今天跟大家分享一下，新…

阅读更多...

Vue：Vue与VueComponent的关系图

Vue：Vue与VueComponent的关系图

1.一个重要的内置关系：VueComponent.prototype.proto Vue.prototype 2.为什么要有这个关系：让组件实例对象（vc）可以访问到 Vue原型上的属性、方法。案例证明： <!DOCTYPE html> <html lang"en"&…

阅读更多...

errors包返回堆栈信息的性能测试

errors包返回堆栈信息的性能测试

errors包返回堆栈信息的性能测试上一篇Golang中使用errors返回调用堆栈信息讲了使用第三方开源库的errors github.com/go-errors/errors，错误信息带调用栈，方便定位错误的抛出位置。通过堆栈的信息来定位是方便了，性能怎么样&#xff0c…

阅读更多...

【计算机算法设计与分析】n皇后问题（C++_回溯法）

【计算机算法设计与分析】n皇后问题（C++_回溯法）

文章目录题目描述测试样例算法原理算法实现参考资料题目描述在nxn格的棋盘上放置彼此不受攻击的n格皇后。按照国际象棋的规则，皇后可以攻击与之处在同一行或同一列或同一斜线上的棋子。n后问题等价于在nxn格的棋盘上放置n个皇后，任何2个皇后不放在同…

阅读更多...

智能分析网关V4智慧港口码头可视化视频智能监管方案

智能分析网关V4智慧港口码头可视化视频智能监管方案

一、需求背景近年来，水利港口码头正在进行智能化建设，现场管理已经是重中之重。港口作为货物、集装箱堆放及中转机构，具有昼夜不歇、天气多变、环境恶劣等特性，安全保卫工作显得更加重要。港口码头的巡检现场如何高效、快捷地对…

阅读更多...

设计模式篇章（1）——理论基础

设计模式篇章（1）——理论基础

设计模式：在软件开发中会面临许多不断重复发生的问题，这些问题可能是代码冗余、反复修改旧代码、重写以前的代码、在旧代码上不断堆新的代码（俗称屎山）等难以扩展、不好维护的问题。因此1990年有四位大佬（GoF组合&…

阅读更多...

连接GaussDB(DWS)报错：Invalid or unsupported by client SCRAM mechanisms

连接GaussDB(DWS)报错：Invalid or unsupported by client SCRAM mechanisms

用postgres方式连接GaussDB(DWS)报错：Invalid or unsupported by client SCRAM mechanisms 报错内容 [2023-12-27 21:43:35] Invalid or unsupported by client SCRAM mechanisms org.postgresql.util.PSQLException: Invalid or unsupported by client SCRAM mec…

阅读更多...

Tinker 环境下数据表的用法

Tinker 环境下数据表的用法

如果我们要自己手动创建一个模型文件，最简单的方式是通过 make:model 来创建。 php artisan make:model Article 删除模型文件 rm app/Models/Article.php 创建模型的同时顺便创建数据库迁移 php artisan make:model Article -m Eloquent 表命名约定在该文件中&am…

阅读更多...

MySQL基础篇（一）SQL

MySQL基础篇（一）SQL

视频地址: 黑马程序员 MySQL数据库入门到精通，从mysql安装到mysql高级、mysql优化全囊括 SQL，全称 Structured Query Language，结构化查询语言。操作关系型数据库的编程语言，定义了一套操作关系型数据库统一标准。一、SQL通用语…

阅读更多...

python练习题

python练习题

1. 找出1到20内的所有质数提示：质数是指大于1的自然数，除了1和它本身以外没有任何正因数（除了1和它本身外不能被其他整数整除）。换句话说，质数是只有两个正因数的数，这两个因数就是1和它自己。 for num …

阅读更多...

最新文章

推荐文章