Kaggle 命令行工具查看 AI 最新竞赛和下载数据集

3,831 阅读2分钟

1. 安装

1.1 普通安装

kaggle 命令行工具安装在系统搜索路径下。

pip install kaggle

1.2 Mac/Linux 推荐安装

kaggle 命令行工具安装在当前登陆用户目录 ~/.local/bin 下。

pip install --user kaggle

安装完成功后,确保 ~/.local/bin 添加到 PATH 环境变量中。

echo $PATH

如果未看到 ~/.local/bin 目录,执行一下命令添加:

echo 'export PATH=~/.local/bin:$PATH' >>  ~/.bash_profile
source ~/.bash_profile

再次确认是否成功添加:

echo $PATH

对于不太熟悉 linux 的读者,还是增加一点提示,这里看到的不是我们添加的 ~/.local/bin , 而是形如 /Users/ken/.local/bin/home/ken/.local/bin 的路径,因为 ~ 代表的是当前用户目录,在添加后,被实际用户目录替代了。

1.3 检查是否成功安装

kaggle -v

显示如下版本信息,代表已经正确安装。下面,一起 enjoy it !

Kaggle API 1.5.x

2. 账户授权

注册 Kaggle 账号。登陆账号,进入用户账户页面 https://www.kaggle.com/<username>/account , 在 API 栏目,点击 Create API Token 按钮,触发浏览器下载包含 API 凭证的 json 文件 kaggle.json 。将此文件放到 ~/.kaggle/kaggle.json 路径下(Windows 系统路径是 C:\Users\<Windows-username>\.kaggle\kaggle.json)。

在 linux 平台,安全起见,建议给 API 凭证设置权限:

chmod 600 ~/.kaggle/kaggle.json

3. Kaggle 支持命令总览

kaggle competitions {list, files, download, submit, submissions, leaderboard}
kaggle datasets {list, files, download, create, version, init}
kaggle kernels {list, init, push, pull, output, status}
kaggle config {view, set, unset}

4. Kaggle 竞赛

与 Kaggele 竞赛交互,使得参与竞赛和模型构建工作流无缝集成。

4.1 查看当前可以参与的竞赛

kaggle competitions list

输出如下:

ref                                            deadline             category            reward  teamCount  userHasEntered  
---------------------------------------------  -------------------  ---------------  ---------  ---------  --------------  
digit-recognizer                               2030-01-01 00:00:00  Getting Started  Knowledge       2680           False  
house-prices-advanced-regression-techniques    2030-01-01 00:00:00  Getting Started  Knowledge       4643           False  
imagenet-object-localization-challenge         2029-12-31 07:00:00  Research         Knowledge         51           False  
cat-in-the-dat                                 2019-12-09 23:59:00  Playground            Swag        553           False  
understanding_cloud_organization               2019-11-18 23:59:00  Research           $10,000        551           False  
3d-object-detection-for-autonomous-vehicles    2019-11-12 23:59:00  Featured           $25,000        141           False
...

按奖金排序:

kaggle competitions list --sort-by prize

输出如下:

ref                                          deadline             category      reward  teamCount  userHasEntered  
-------------------------------------------  -------------------  --------  ----------  ---------  --------------  
passenger-screening-algorithm-challenge      2017-12-15 23:59:00  Featured  $1,500,000        518           False  
zillow-prize-1                               2018-01-10 15:59:00  Featured  $1,200,000       3775           False  
data-science-bowl-2017                       2017-04-12 23:59:00  Featured  $1,000,000       1972           False  
hhp                                          2013-04-04 07:00:00  Featured    $500,000       1351           False  
second-annual-data-science-bowl              2016-03-14 23:59:00  Featured    $200,000        192           False
...

筛选大厂招聘类竞赛:

kaggle competitions list --category recruitment

将结果保存在 csv 文件里:

kaggle competitions list --csv > competitions_list.csv

通过关键词搜索竞赛:

kaggle competitions list -s "dog cat"

查看更多支持选项:

kaggle competitions list -h

4.2 查看指定竞赛排行榜

竞赛由命令 kaggle competitions list 结果的 ref 字段指定。

kaggle competitions leaderboard -s facebook-ii

5. Kaggle 数据集

与 Kaggele 数据集交互,使搜索和下载 Kaggle 数据集成为数据科学工作流程的一个无缝部分。

5.1 按关键词搜索数据集

格式:kaggle datasets list -s [KEYWORD]

kaggle datasets list -s "dog cat"

5.2 下载指定数据集

格式:kaggle datasets download -d [DATASET] 。目标下载数据集由命令 kaggle datasets list 输出的 ref 字段指定。

kaggle datasets download -d hocop1/cat-and-dog-breeds-parameters

数据集下载完成后,以 .zip 压缩格式保存在当前目录下。如:cat-and-dog-breeds-parameters.zip

6. 更多命令

本文只介绍了笔者认为最实用的命令。其他命令,建议读者在深入了解 Kaggle 平台后,自行探索尝试,使用方式大同小异。本文不再一一介绍。

获取更多帮助,也可以运行如下命令。

kaggle -h

或参考 Kaggle GitHub 主页,见【参考 2】。

参考


微信扫描二维码 获取最新技术原创