引言 kaggle作为一个数据分析竞赛平台不仅可以上传代码和数据集,参与一些公开的竞赛,同时也可以下载别人上传的数据集。本文着重介绍如何注册kaggle账号,在本地机上安装kaggle API,以及从kaggle数据集界面上下载想要的数据集到指定位置。
文章目录
- 1. 网站注册kaggle账户
- 2. 本地安装kaggle API
- 3. 加载数据集到本地机指定位置
- 4. 总结
1. 网站注册kaggle账户
要想使用kaggle平台上的某些代码和数据集,首先需要注册成为kaggle平台合法用户,注册网站:https://www.kaggle.com/。
选择Register
按钮,可以选择用google账户注册也可以选择邮箱注册,本人在文中用邮箱注册作为示例。
注意 填写完邮箱,用户名和密码信息后出现一条提示信息Captcha must be filled out.
,提示没有出现人机交互验证界面。解决此问题需要安装Header Editor
插件。
Header Editor
插件安装过程
在Microsoft Edge界面中,点击右上角的...
菜单列表中的扩展选项
,选择扩展管理
。
选择获取扩展,输入Header Editor
搜索到该插件并选择获取
。
安装完插件后,刷新Microsoft Edge浏览器,会弹出人机验证界面。勾选人机身份验证接口进行验证。
注册成功可以登录界面搜索需要的数据集,完成下面的本地kaggle API安装操作后就可以下载数据集到指定文件夹了。
2. 本地安装kaggle API
(1)安装kaggle API
进入Anaconda Prompt界面,创建一个合适的项目环境并激活该环境。conda 命令的使用可以参考我写的另外一篇博文【博文链接】。注意: 如果本地机器安装了python软件,也可以从cmd命令提示窗口安装kaggle API。
在激活的环境中调用命令安装kaggle软件,
pip install kaggle
受网速影响pip直接安装比较慢,可以选择清华源镜像安装的方式。
‘’’
pip install kaggle -i https://pypi.tuna.tsinghua.edu.cn/simple
‘’’
成功安装kaggle API之后打开C:\Users\***\
文件目录,没有发现.kaggle
文件夹。
此时,可以在Anaconda Prompt界面调用命令:
kaggle competitions list
界面虽然会报错,主要原因是没有从网站上加载kaggle.json
密钥文件到本地端,但是在C盘我们刷新界面后会发现已经有.kaggle
文件夹。
(2)安装密钥文件绑定用户
将提示的kaggle.json
文件从kaggle网站下载并放入.kaggle
文件夹后就可以畅通无阻的使用网站进行业务处理。
如何形成属于自己的密钥文件呢?
点击kaggle网页右上角的用户头像,选择Settings
设置,下拉界面到API部分,选择Create New Token
,确认继续之后电脑会自动下载一个kaggle.json
文件。
还没有完事!!!
需要将文件放置于C:\Users\***\
文件目录下的.kaggle
文件夹中。
调用刚才我们创建.kaggle
文件夹的命令
kaggle competitions list
此时命令窗口中会显示最近的竞赛信息,说明我们已经完成了kaggle的API安装和网站绑定工作!!
在耐心的看完下一章节内容,你就会的心应手的使用kaggle下载数据集了。
3. 加载数据集到本地机指定位置
在kaggle网站的datasets界面搜索自己想要的数据集,进入提供数据集的用户界面中。按照图示的顺序点击Copy API command
复制命令,粘贴到Anaconda Prompt命令行窗口中,同时可以追加-p选项
,指定数据文件下载到本地机的具体位置。
下面的命令是从kaggle上下载casia 篡改照片数据集
kaggle datasets download -d sophatvathana/casia-dataset -p E:\tamper_dataset
命令展示界面
数据集就会下载到指定文件夹当中。数据集下载速度超快呦!!!
4. 总结
从kaggle 网站上下载数据集既保证了速度又避免了网络的不稳定造成下载失败问题。该平台也可以上传代码作为自己的代码库,不过本人更习惯将代码上传到github上。希望本人整理的kaggle库使用技巧能够帮助到正在阅读本博客的你。如果有帮助,记得点赞和收藏呦😊
此外还有一篇博客针对kaggle数据集下载问题的几个问题的相关文章进行了整理【博客链接】。