Kaggle+JupytoraNotebook使用指南

Kaggle+JupytoraNotebook使用指南

Kaggle界面概览


核心资源与算力限制 (Cloud Computing)

Kaggle 提供免费的算力资源,无需本地安装配置环境,通过浏览器即可使用。

资源类型周使用额度单次运行时长适用场景
CPU无限制12 小时数据清洗、统计分析、传统机器学习
GPU (T4 x2)约 30 小时12 小时深度学习训练、计算机视觉 (CV)、自然语言处理 (NLP)
TPU (v3-8)约 20 小时9 小时大规模深度学习模型、TensorFlow 优化任务

文件路径规范 (Path System)

在 Kaggle Notebook 中,文件系统分为三个主要区域:

  • 只读输入区 (/kaggle/input/):
    • 所有挂载的数据集、竞赛数据均存放在此。
    • 只能读取,不能修改。
  • 可写输出区 (/kaggle/working/):
    • 这是当前的工作目录。
    • 用于存放训练好的模型权重、导出的 CSV 提交文件等。
  • 临时存储区 (/kaggle/temp/):
    • 用于存放运行过程中的临时中间文件,会随会话结束被清空。

环境配置与关键设置 (Settings)

在 Notebook 右侧面板的 Settings 中,可以进行以下关键配置:

  • Accelerator: 切换 CPU、GPU 或 TPU。
  • Internet: 默认关闭。如需使用 pip install 或访问外部 API,必须手动开启。
  • Persistence: 设置是否在会话间保留文件。
  • Environment: 默认为 Always use latest environment

学习与查询他人代码 (Code/Kernels)

Kaggle 的核心价值在于社区分享,学习他人代码的步骤:

  1. 进入 Code 板块: 在竞赛或数据集页面点击 “Code” 标签。
  2. 筛选高价值内容:
    • Sort by: 选择 Most Votes(最高赞)。
    • Medal: 筛选 Gold(金牌)作品,通常具有极高的代码规范和参考价值。
  3. Copy & Edit: 点击右上角按钮,可一键克隆该 Notebook 到个人账户进行实时修改和运行。

典型操作流程 (Workflow)

  1. 创建/导入: 点击 Create -> New Notebook,或从本地上传 .ipynb
  2. 添加数据: 点击右侧 Add Data,搜索并挂载所需的数据集。
  3. 编写与调试: 使用 Jupyter 标准快捷键进行代码编写。
  4. 离线运行 (Save Version):
    • 点击右上角 Save Version
    • 选择 Save & Run All (Commit)
    • 即使关闭浏览器,代码也会在云端继续运行。
  5. 提交结果: 在 Output 栏找到生成的 .csv 文件,点击 Submit 即可参与排名。

使用技巧

  • 节省 GPU: 在编写代码、绘制图表或数据预览阶段,请关闭 Accelerator。仅在执行 model.fit() 等高强度训练任务时开启。
  • 查看路径: 在 Cell 中运行 !ls /kaggle/input/ 可快速确认数据文件夹名称。
  • 后台监控: 利用手机浏览器登录 Kaggle 官网,可以随时查看 Active Events 下的任务运行状态。