《文心一言插件设计与开发》赛题三等奖方案 | NoteTable

一年一度的 CCF大数据与计算智能大赛(简称2024 CCF BDCI大赛)又开始啦~~
程序员们可冲一波嗷~
大赛地址:http://go.datafountain.cn/6506
现在我们再次释放往届获奖方案,
为新一届大赛的同学们提供一些方案和灵感参考~
大家借鉴借鉴,好好加油哇~
期待你今年能在大赛中斩获满意的奖项哟~

本篇内容为2023 CCF 大数据与计算智能大赛

《文心一言插件设计与开发》赛题

三等奖获奖方案

方案名称:NoteTable

赛题地址:https://www.datafountain.cn/competitions/977

获奖团队:AD_F

本团队成员由辽宁大学计算机科学与技术专业的三名学生组成。

队长于荣辉,参加过包括程序设计、网络安全、数学建模等多个领域20余项竞赛,获国家级奖项3项,省奖10余项,有丰富的软件开发和数据分析算法经验。

队员刘佩萱、马福旺也曾参加过多次数学竞赛、数学建模竞赛,并获得奖项。

在这样的前提下,整个团队以文心一言大模型为根基,以优秀算法为保障,结合自己的理解,开发了文心一言插件NoteTable,力求拓展多模态能力。

摘要

NoteTable是一款个性化的Excel处理工具,专注于简化数据分析和处理流程。使用Python Statsmodels中的ARIMA模型,以及Pandas、Requests库进行数据分析,提供灵活的数据处理能力。弥补文心一言模型容易计算偏差,难以作微观分析的缺点,发扬了文心一言优秀的解释能力和多模态功能,省去编程,让零基础的人也可以完成并且读懂科学的数据分析,让有基础的人实现更便捷的绘图。

该插件提供了多种功能,使用户能够轻松上传CSV文件,进行数据分析,实现高效数据处理和绘图。成功实现了文心一言上科学准确的数据分析。

关键词

数据分析 数据处理 绘图 ARIMA预测模型

1 作品背景

1.1 作品简介

NoteTable是一款个性化的Excel处理工具,专注于简化数据分析和处理流程。使用Python的Statsmodels中ARIMA模型,以及Pandas,Requests库进行数据分析,提供灵活的数据处理能力,该插件提供了多种功能,使用户能够轻松上传CSV文件,进行数据分析,并通过内部模型实现高效数据处理。

1.2 作品价值

应用场景:NoteTable适用于需要进行数据分析和处理的用户,尤其在处理CSV文件、进行时间序列数据分析以及进行数据可视化方面具有广泛应用。

商业/社会价值: 该插件为用户提供了一个灵活而强大的工具,可以提高编程和数据分析的效率。在商业上,可以帮助企业更好地理解和利用其数据资源,从而做出更明智的决策。

1.3 作品创新点

  • 利用Python的ARIMA库进行精准的时间序列数据分析。
  • 提供了绘图功能,直观展示数据分析结果。
  • 可以通过API端点以字典和文件形式上传数据等,为用户提供了更灵活的操作方式。

2 工具类的实现和原理

2.1 工具类的原理

2.1.1 时间序列分析方法

时间序列分析法中的移动平均法可以作为一种数据平滑的方式,我们计划使用它来对csv文件中的数据进行预测。

设观测序列为时间序列,取移动平均的项数N<t>。一次移动的平均值计算公式为:

当预测目标的大致趋势是在某一水平上下波动时,我们可以采用一次移动平均的方法来建立预测分析模型进行预测分析

其预测标准误差为

2.1.2 ARIMA模型的建立与预测

ARIMA模型全称是自回归差分移动平均模型,主要由自回归模型AR,差分过程和移动平均模型MA三部分构成。

其中,AR部分用来处理时间序列的自回归部分,考虑了过去一些时期的观测值对目前值的影响。部分用来使非平稳时间序列达到平稳,通过一阶或者二阶等差分处理,消除了时间序列中的趋势和季节性因素。MA部分用来处理时间序列的移动平均部分,考虑了过去的预测误差对目前值的影响。

ARIMA模型可以被看作是AR模型和MA模型的直接结合,从形式上来看,可以将ARIMA模型的公式表示为:

Yt是我们正在考虑的时间序列数据。

是AR模型的参数,这些参数用来描述当前值与过去p个时间点值之间的关系。

是MA模型的参数,这些参数用来描述当前值与过去q个时间点的误差之间的关系。

是在t时间点的误差项。

c是一个常数项。

2.2. 工具类的实现

Statsmodels是一个用于进行统计分析和建模的Python库,主要用于对时间序列数据进行分析,比如预测未来的趋势。Statsmodels提供了一系列实用的工具,特别适用于处理统计模型,其主要特点包括时间序列分析,支持各种统计模型的拟合,提供假设检验工具,以及可视化工具。这些功能帮助我们分析数据、建立模型,以及验证模型的有效性。

该代码通过采用Statsmodels对ARIMA模型的残差进行了一系列严格的统计检验,以验证模型的拟合效果和残差的随机性。其中,Jarque-Bera检验通过对残差的偏度(Skewness)和峰度(Kurtosis)进行综合评估,评估了残差是否符合正态分布。Ljung-Box检验则用于检测残差序列是否存在自相关性,即序列中的值是否与其自身在不同时间点上存在显著相关性。最后,Durbin-Watson检验用于检测残差序列中是否存在自相关性。

这些高级的残差检验不仅可以提供有关模型拟合质量的信息,还能帮助确定模型是否足够捕捉时间序列中的信息。通过这些检验,可以更全面地评估ARIMA模型的适用性和性能,从而提高时间序列预测的可靠性和准确性。

3 插件设计说明

3.1 插件功能点

功能点功能描述
数据展示与上传通过/get_Data端点,展示数据列表,支持上传CSV文件进行更复杂操作。
数据分析利用ARIMA库,/analyze_from_csv端点从URL中进行时间序列数据分析。
绘图功能/draw_from_csv端点允许用户进行数据可视化,展示分析结果。

3.2 插件工作流程

插件流程图1

3.3 数据和信息说明

插件涉及的数据包括上传的CSV文件数据、远程文件URL地址,以及通过API端点传递的字典格式数据。

3.4 能力和服务说明

NoteTable插件使用Python的statsmodels中ARIMA模型,以及pandas,requests库进行数据分析,提供灵活的数据处理能力。通过API端点,用户可以方便地上传、分析、绘图和管理数据。

4 插件成熟度

4.1 多模态输入能力

本插件具有多种输入能力,支持文件,字典自动识别,进行数据导入,有良好的数据兼容性。

图1:文件输入

图2:字典输入

4.2 绘图能力

具有矢量图适配功能,单独支持折线图柱状图等,可结合E言易图支持饼图、雷达图、散点图、漏斗图、思维导图(树图),图片可以保存导出。由于篇幅限制,不过多展示。

4.3 多模型的分析能力

模型目前包括预测模型ARIMA,具有多种输出模式。

图4:图表返回

图5:表格返回

图6:专业返回

5 作品总结与展望

在NoteTable插件的开发过程中,我们成功实现了数据分析、绘图等核心功能。未来,我们计划优化用户界面,增加更多数据处理功能,并考虑与其他数据分析工具集成,以提供更全面的解决方案。

未来我们将做出更优秀的模型,关联分析,聚类分析,神经网络分析等,也会提供更多的图片类型,如热力图,箱线图等,提供更多的数据适配方式,如文本,json文件等,最重要的是,我们将利用AI去实现自适应,自适配,提供合理的数据分析建议。

6 致谢

目前NoteTable还有很多可能等着我们去开发,感谢您的使用和理解。未来,NoteTable将实现聚类、关联分析等数据分析模式,也会添加更多的数据处理方式。我们团队将不忘初心,牢记初衷,将它打造成大模型分析的利器。

参考

[1] Statsmodels:Econometric and statistical modeling with PythonStatsmodels

[2] Jones, E., Oliphant, T., & Peterson, P. (2001)

[3] Enders, W. (2014). Applied Econometric Time Series. [Enders, W. (2014). Applied Econometric Time Series. John Wiley & Sons.]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/460879.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

el-dialog支持全局拖拽功能

1.首先在全局的组件实现拖拽功能&#xff0c;结构如下 dialogDrag.vue的内容 <script>export default {mounted() {// 获取当前的dialog及其headerlet aimDialog this.$el.getElementsByClassName(el-dialog)[0];let aimHeader this.$el.getElementsByClassName(el-d…

XCode16中c++头文件找不到解决办法

XCode16中新建Framework&#xff0c;写完自己的c代码后&#xff0c;提示“<string> file not found”等诸如此类找不到c头文件的错误。 工程结构如下&#xff1a; App是测试应用&#xff0c;BoostMath是Framework。基本结构可以参考官方demo&#xff1a;Mix Swift and …

开源代码管理平台Gitlab如何本地化部署并实现公网环境远程访问私有仓库

文章目录 前言1. 下载Gitlab2. 安装Gitlab3. 启动Gitlab4. 安装cpolar5. 创建隧道配置访问地址6. 固定GitLab访问地址6.1 保留二级子域名6.2 配置二级子域名 7. 测试访问二级子域名 前言 本文主要介绍如何在Linux CentOS8 中搭建GitLab私有仓库并且结合内网穿透工具实现在公网…

JavaEE初阶---网络原理(四)--IP协议/DNS协议

文章目录 1.初识网络层&#xff08;了解即可&#xff09;2.地址管理2.1动态分配2.2网络地址转换2.3IP-v6最终解 3.网段划分4.以太网协议--数据链路层5.DNS应用层协议 1.初识网络层&#xff08;了解即可&#xff09; 网络层做的事情就是下面的两个&#xff1a; 1&#xff09;地…

4.2-6 使用Hadoop WebUI

文章目录 1. 查看HDFS集群状态1.1 端口号说明1.2 用主机名访问1.3 主节点状态1.4 用IP地址访问1.5 查看数据节点 2. 操作HDFS文件系统2.1 查看HDFS文件系统2.2 在HDFS上创建目录2.3 上传文件到HDFS2.4 删除HDFS文件和目录 3. 查看YARN集群状态4. 实战总结 1. 查看HDFS集群状态 …

EMS专题 | 5个必须知道的温度监测系统入门知识

在保护温度敏感资产方面&#xff0c;可靠的温度监测技术扮演着至关重要的角色。为了帮助您深入了解这一关键技术&#xff0c;我们特别推出了EMS&#xff08;环境监测系统&#xff09;专题文章系列。内容将由浅入深&#xff0c;从基础原理到实际应用&#xff0c;从行业标准到解决…

代码随想录-字符串-反转字符串中的单词

题目 题解 法一:纯粹为了做出本题&#xff0c;暴力解 没有技巧全是感情 class Solution {public String reverseWords(String s) {//首先去除首尾空格s s.trim();String[] strs s.split("\\s");StringBuilder sb new StringBuilder();//定义一个公共的字符反转…

关于Android Studio Koala Feature Drop | 2024.1.2下载不了插件的解决办法

解决 androidStudio Settings->Plugins下载插件&#xff0c;点击install后没反应&#xff0c;同时插件描述相关显示不出来 第一步&#xff1a; 第二步&#xff1a; 点击设置&#xff0c;勾选Auto-detect proxy settings&#xff0c;输入网址 https://plugins.jetbrains.com…

[论文阅读] Improved Baselines with Visual Instruction Tuning

启发&#xff1a; 1、LLaVA-1.5和LLaVA以及其他大模型相比&#xff0c;做出了哪些改进&#xff1f; &#xff08;1&#xff09;使用CLIP-ViT-L-336px作为视觉编码器&#xff0c;使模型能处理336px的高分辨率图像&#xff0c;这使得模型能从图像中提取出更多细节信息。此外&am…

大语言模型(LLM)快速理解

自2022年&#xff0c;ChatGPT发布之后&#xff0c;大语言模型&#xff08;Large Language Model&#xff09;&#xff0c;简称LLM掀起了一波狂潮。作为学习理解LLM的开始&#xff0c;先来整体理解一下大语言模型。 一、发展历史 大语言模型的发展历史可以追溯到早期的语言模型…

「C/C++」C++标准库之#include<fstream>文件流

✨博客主页何曾参静谧的博客&#x1f4cc;文章专栏「C/C」C/C程序设计&#x1f4da;全部专栏「VS」Visual Studio「C/C」C/C程序设计「UG/NX」BlockUI集合「Win」Windows程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「PK」Parasoli…

十六:Python学习笔记-- 爬虫(2)requests 模块详解

目录 安装 requests 模块 基本请求方法 GET 请求 POST 请求 PUT 请求 DELETE 请求 添加请求头&#xff1a; 处理查询参数&#xff1a; 文件上传&#xff1a; 常见响应状态码 访问超时 cookie的查询和设置 查询 Cookies 设置 Cookies 设置爬虫代理 小试牛刀 安装 …

无人机敏捷反制技术算法详解!

一、技术概述 无人机敏捷反制技术算法主要通过对非法入侵的无人机进行快速、精准的探测、识别、干扰和摧毁等操作&#xff0c;从而消除无人机威胁&#xff0c;保障人员和财产安全。这一技术涵盖了多种技术手段&#xff0c;如无线电干扰、激光打击、网捕等&#xff0c;并需要综…

8个最佳iMacros替代方案(2024)

1、前言 iMacros是web自动化、抓取和测试的领先工具&#xff0c;它提供了一个浏览器扩展和桌面工具&#xff0c;可以轻松地自动化你的日常任务&#xff0c;然而&#xff0c;自动化所需的关键功能仅在高级版本中可用&#xff0c;iMacros几乎没有其他缺点。 如图所示&#xff1…

数据库数据恢复—Oracle ASM磁盘组掉线 ,ASM实例无法挂载的数据恢复案例

Oracle数据库数据恢复环境&故障&#xff1a; Oracle ASM磁盘组由4块磁盘组成。Oracle ASM磁盘组掉线 &#xff0c;ASM实例不能mount。 Oracle数据库故障分析&恢复方案&#xff1a; 数据库数据恢复工程师对组成ASM磁盘组的磁盘进行分析。对ASM元数据进行分析发现ASM存储…

解决电脑突然没有声音

问题描述&#xff1a;电脑突然没有声音了&#xff0c;最近没有怎么动过系统&#xff0c;没有安装或者卸载过什么软件&#xff0c;也没有安装或者卸载过驱动程序&#xff0c;怎么就没有声音了呢&#xff1f; 问题分析&#xff1a;仔细观察&#xff0c;虽然音量按钮那边看不到什…

filebeat+elasticsearch+kibana日志分析

1 默认配置 1.1 filebeat filebeat-7.17.yml,从网关中下载k8s的配置&#xff0c;指定es和kibana的配置 通过kibana查询可以查询到日志了&#xff0c;但此时还不知道具体怎么用。 1.2 kibana 在Discover中创建索引格式&#xff1a;filebeat-*&#xff0c;得到如下图&#xf…

【书生.浦语实战营】——入门岛

【书生.浦语实战营】——入门岛_第一关_Linux基础 任务分布1. 本地vscode远程连接并进行端口映射端口映射What——何为端口映射How——怎么进行端口映射 2. Linux基础命令touch &#xff1a;创建文件mkdir &#xff1a;创建目录cd:进入 退出 目录pwd :确定当前所在目录cat:可以…

Metasploit(MSF)使用

目录 Metasploit简要介绍 主要功能 漏洞利用&#xff1a; Payload 生成&#xff1a; 辅助模块&#xff1a; 后渗透模块&#xff1a; 报告生成&#xff1a; 使用教程以及案例 基础命令使用 生成被控端 命令介绍 kali启动主控端 1.启动以及设置载荷等配置 漏洞检测…

zynq PS端跑Linux响应中断

这篇文章主要是讲述如何在Zynq的PS上跑Linux启动IRQ&#xff0c;环境为vivado2019.1&#xff0c;petalinux2019.1 ubuntu20.04&#xff0c;本人初学者&#xff0c;欢迎批评指正 1. Vivado硬件设计 确保自定义IP的中断信号通过 IRQ_F2P 连接到PS端。在开始Petalinux配置之前&a…