kaggle新赛:写作质量预测大赛【数据挖掘】

赛题名称:Linking Writing Processes to Writing Quality

赛题链接:https://www.kaggle.com/competitions/linking-writing-processes-to-writing-quality

赛题背景

写作过程中存在复杂的行为动作和认知活动,不同作者可能采用不同的计划修订技术、展示不同的停顿模式或在全过程中策略性地分配时间,这些都可能影响写作质量。过去的研究探索了与停顿、添加删除和修订等行为相关的多种过程特征,但是使用的数据集较小,且只研究了少数特征。

本次竞赛使用键盘日志的数据过程特征来预测总体写作质量,可能识别学习者写作行为与表现之间的关系。鉴于当前写作评估工具主要关注最终产出,这可能帮助学习者关注文本产出过程,增强写作的自主性、元认知意识和自我调节。

赛题任务

本次竞赛的目标是预测写作整体质量。写作方式是否会影响作文结果?参赛者将在一个大规模键盘日志数据集上训练模型,该数据集捕获了书写过程特征。

参赛者的工作将帮助探索学习者的书写行为与书写表现之间的关系,这可能为书写指导、自动书写评估技术和智能辅导系统的发展提供有价值的见解。

评价指标

我们使用均方根误差来评分提交项,定义为:

其中是预测值,是n个实例中每个实例i的原始值。

提交文件

对测试集中的每个id,你必须预测对应的score(参见数据页面的描述)。文件应包含一个表头,格式如下:

id,score
0000aaaa,1.0
2222bbbb,2.0
4444cccc,3.0
...

数据描述

竞赛数据集包含了大约5000份用户输入日志,如键盘和鼠标点击,这些都是在作文过程中捕获的。每篇作文的评分在0到6的范围内。参赛者的目标是根据用户输入日志来预测一篇作文的评分。

文件和字段信息:

  • train_logs.csv - 用于训练的数据输入日志。
    • id - 文章的唯一ID

    • event_id - 事件的索引,按时间顺序排列

    • down_time - 键盘/鼠标按下的时间,毫秒

    • up_time - 键盘/鼠标释放的时间,毫秒

    • action_time - 事件持续时间(down_time和up_time之差)

  • activity - 事件所属的活动类别
    • Nonproduction - 事件不会改变文本

    • Input - 事件向文档添加文本

    • Remove/Cut - 事件从文档中删除文本

    • Paste - 事件通过粘贴输入改变文本

    • Replace - 事件用另一个字符串替换一段文本

  • Move From [x1, y1] To [x2, y2] - 事件将文本从字符索引x1,y1移动到新的位置x2,y2

  • down_event - 键盘/鼠标按下时的事件名称

  • up_event - 键盘/鼠标释放时的事件名称

  • text_change - 事件导致的文本更改(如果有)

  • cursor_position - 事件后文本光标的字符索引

  • word_count - 事件后文档的词数

注意测试集中可能存在训练集中没有出现过的事件。

  • test_logs.csv - 用于测试的数据输入日志。

  • train_scores.csv
    • id - 文章的唯一ID

    • score - 文章的分数(满分6分,预测目标)

  • sample_submission.csv - 正确格式的提交文件示例。

时间安排

  • 2023 年 10 月 2 日 - 开始日期

  • 2024 年 1 月 2 日 - 报名截止日期

  • 2024 年 1 月 2 日 - 合并截止日期

  • 2024 年 1 月 9 日 - 提交截止日期

赛题奖金

排行榜

  • 第一名 - 12,000美元

  • 第二名 - 8,000美元

  • 第三名 - 5,000美元

效率奖

  • 第一名 - 15,000美元

  • 第二名 - 10,000美元

  • 第三名 - 5,000美元

关注下方【学姐带你玩AI】🚀🚀🚀

回复“比赛”获取190+场比赛top方案(kaggle、天池、ccf...)

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/154033.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Godot 添加信号

前言 Godot 里面C#和GDScirpt 的用法完全不一样,网上相关资料太少了。 什么是信号 信号分为信号源,触发,目的节点。信号源在某些条件下触发信号,比如按钮点击,鼠标悬停等事件 #mermaid-svg-wyr9ARVcBFmUUu8y {font-…

JVM面试题:(二)内存结构和内存溢出、方法区的两种实现

内存结构: 方法区和对是所有线程共享的内存区域;而java栈、本地方法栈和程序员计数器是运行是线程私有 的内存区域。 Java堆(Heap),是Java虚拟机所管理的内存中最大的一块。Java堆是被所有线程共享的一块内 存区域,在…

2023年山东省安全员C证证考试题库及山东省安全员C证试题解析

题库来源:安全生产模拟考试一点通公众号小程序 2023年山东省安全员C证证考试题库及山东省安全员C证试题解析是安全生产模拟考试一点通结合(安监局)特种作业人员操作证考试大纲和(质检局)特种设备作业人员上岗证考试大…

C# 图解教程 第5版 —— 第1章 C# 和 .NET 框架

文章目录 1.1 在 .NET 之前1.2 .NET 时代1.2.1 .NET 框架的组成1.2.2 大大改进的编程环境 1.3 编译成 CIL1.4 编译成本机代码并执行1.5 CLR1.6 CLI1.7 各种缩写1.8 C# 的演化1.9 C# 和 Windows 的演化(*) 1.1 在 .NET 之前 MFC(Microsoft Fou…

论文解析——AMD EPYC和Ryzen处理器系列的开创性的chiplet技术和设计

ISCA 2021 摘要 本文详细解释了推动AMD使用chiplet技术的挑战,产品开发的技术方案,以及如何将chiplet技术从单处理器扩展到多个产品系列。 正文 这些年在将SoC划分成多个die方面有一系列研究,MCM的概念也在不断更新,AMD吸收了…

Docker-compose创建LNMP服务并运行Wordpress网站平台

一、部署过程 1.安装Docker #关闭防火墙 systemctl stop firewalld.service setenforce 0#安装依赖包 yum install -y yum-utils device-mapper-persistent-data lvm2 #设置阿里云镜像源 yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/d…

JavaEE-文件IO操作

构造方法 一般方法,有很多,我们以下只是列举几个经常使用的 注意在上述的操作过程中,无论是绝对路径下的这个文件还是相对路径下的这个文件,都是不存在的 Reader 使用 --> 文本文件 FileReader类所涉及到的一些方法 Fil…

【轻松玩转MacOS】安全隐私篇

引言 这一篇将介绍如何保护MacOS的安全,包括如何设置密码,使用防火墙,备份数据等重要环节,避免因不慎操作或恶意攻击带来的安全风险,让你的MacOS之旅更安心、更放心。 一、设置密码:保护你的MacOS的第一道…

关于神经网络的思考

关于感知机 感知机(Perceptron)和神经网络(Neural Network)之间有一定的关系,可以说感知机是神经网络的一个基本组成单元。 感知机: 感知机是一种简单的二分类线性分类器。它接受多个输入,对每…

【小记】Java将字符串中的EL表达式动态转换为Map中的值

项目中碰到了这样的问题&#xff0c;例如数据库中有一个字符串模版如下&#xff1a; ${userNamme}开启了一个新的${project}我们要替换里面的${}表达式&#xff0c;来实现动态的生成完整的信息~实现方式很简单如下&#xff1a; 引入pom依赖&#xff1a; <dependency>&l…

使用css制作3D盒子,目的是把盒子并列制作成3D货架

注意事项&#xff1a;这个正方体的其他面的角度很难调&#xff0c;因此如果想动态生成&#xff0c;需要很复杂的设置动态的角度&#xff0c;反正我是折腾了半天没继续搞下去&#xff0c; 1. 首先看效果&#xff08;第一个五颜六色的是透明多个面&#xff0c;第2-3都是只有3个面…

自动拟人对话机器人在客户服务方面起了什么作用?

在当今数字时代&#xff0c;企业不断寻求创新的方法来提升客户服务体验。随着科技的不断进步和消费者期望的提升&#xff0c;传统的客户服务方式逐渐无法满足现代消费者的需求。因此&#xff0c;许多企业正在积极探索利用新兴技术来改进客户服务&#xff0c;自动拟人对话机器人…

MongoDB——window11安装mongodb5.0.21版本服务端(图解版)

目录 一、mongodb官网下载地址二、安装步骤三、配置环境变量四、运行mongodb 一、mongodb官网下载地址 mongodb官网下载地址&#xff1a;https://www.mongodb.com/try/download/community 二、安装步骤 双击运行下载好的mongodb-windows-x86_64-5.0.21-signed.msi安装包&am…

ELementUI之CURD及表单验证

一.CURD 1.后端CURD实现 RequestMapping("/addBook")ResponseBodypublic JsonResponseBody<?> addBook(Book book){try {bookService.insert(book);return new JsonResponseBody<>("新增书本成功",true,0,null);} catch (Exception e) {e.p…

bin-editor-next实现josn序列化

线上链接 BIN-EDITOR-NEXThttps://wangbin3162.gitee.io/bin-editor-next/#/editor gitee地址bin-editor-next: ace-editor 的vue3升级版本https://gitee.com/wangbin3162/bin-editor-next#https://gitee.com/link?targethttps%3A%2F%2Funpkg.com%2Fbin-editor-next%2F 实现…

23年基因蓝皮书略读

2023年基因慧蓝皮书略读 1.发展环境1.1 宏观环境1.2 基因产业内涵 2 应用场景2.1 生育支持与生育健康筛查2.2 老龄化与肿瘤精准防控2.2.1 肿瘤早筛2.2.2 肿瘤伴随诊断2.2.3 MRD检测2.2.4 生物药研发及基因科技 3 产业发展3.1 产业图谱及产业链分析拟上市肿瘤检测公司上市基因企…

大数据要怎么样学才可以到企业级实战

大数据在企业级实战中扮演着重要角色&#xff0c;因此掌握大数据技术和应用是非常有价值的。下面将详细介绍学习大数据并达到企业级实战水平的步骤和方法。 一、基础知识准备 1. 数据基础知识&#xff1a;了解数据的概念、类型、结构等基本概念&#xff0c;并熟悉常见的数据处…

一个命令让redis服务端所有信息无所遁形~(收藏吃灰系列)

Redis服务器是一个事件驱动程序&#xff0c;它主要处理两类事件&#xff1a;文件事件和时间事件。这些事件的处理和Redis命令的执行密切相关。下面我将以Redis服务端命令为切入点&#xff0c;深入解析其工作原理和重要性。 首先&#xff0c;我们先了解Redis服务端有哪些命令。…

IDEA的使用(二)快捷键 (IntelliJ IDEA 2022.1.3版本)

1. IDEA中的常用快捷键 1.1 通用型快捷键 1.2 提高编写速度 ctrl shift ↑或↓ 只能在方法里面移动代码。 alt shift ↑或↓ 可以向方法外移动代码。 设置过自动导包&#xff0c;所以不用批量导包啦。 1.3 类结构、查找和查看源码 1.4 查找、替换和关闭 1.5 调整格式 1.6 De…