Как загрузить датасет в Google Colab?

Google Colab — это удобная облачная среда для работы с кодом на Python, анализа данных и машинного обучения. В этой статье мы рассмотрим несколько способов загрузки датасета в Google Colab:

  1. Загрузка напрямую из Kaggle
  2. Загрузка датасета с Google Drive

В качестве примера мы используем датасет Iris — классический набор данных, который широко применяется для демонстрации базовых алгоритмов и методов анализа данных.

Kaggle Iris Species dataset

Метод 1: Загрузка датасета в Google Colab из Kaggle 

Для работы с Kaggle вам потребуется учетная запись. Если у вас ее нет, зарегистрируйтесь, это бесплатно.

Настройка API-токена

  • Перейдите в ваш профиль Kaggle Настройки.
  • Найдите раздел API.
  • Нажмите «Create New Token».
Настройка API-токена
  • Файл kaggle.json автоматически скачается на ваш компьютер.

Загрузите скачанный файл API-ключа в Google Colab, используя иконку Папки, показанную ниже:

Загрузите скачанный файл API-ключа в Google Colab

После загрузки файл API-ключа появится в списке файлов:

API-ключ в списке файлов

Загрузка датасета

Теперь можно загружать датасет. Для этого необходимо:

  • Установить библиотеку kaggle.
  • Создать директорию для хранения API-ключа.
  • Скопировать API-ключ в созданную директорию.
  • Изменить права доступа к файлу.

Ваш код должен выглядеть так:

!pip install kaggle
!mkdir -p ~/.kaggle
!mv kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

После этого введите команду для загрузки датасета, указав его название:

!kaggle datasets download -d uciml/iris

По завершении загрузки появится сообщение о том, что файл загружен.

сообщение о том, что файл загружен.

Так как загруженный файл является архивом (zip), его необходимо распаковать:

!unzip iris.zip -d iris_dataset
распаковать архив zip

Чтение датасета

Чтобы убедиться, что датасет готов к работе, можно загрузить датасет в pandas и вывести первые несколько строк

import pandas as pd

df = pd.read_csv('iris_dataset/Iris.csv')
print(df.head())
первые несколько строк после загрузки датасета в pandas

Метод 2: Загрузка датасета в Google Colab с Google Drive

Если ваш датасет хранится на Google Drive, его также можно легко загрузить в Colab.

Подключение к Google Drive

Подключите Google Drive к Colab с помощью команды:

from google.colab import drive
drive.mount('/content/drive')

После выполнения кода появится следующее окно. Нажмите «Подключиться к Google Диску», войдите в аккаунт Google и разрешите доступ. 

разрешите доступ к Google Drive

После успешного подключения диска к Colab появится сообщение:

Mounted at /content/drive

Чтение датасета 

Когда диск подключен, укажите путь к нужному файлу в Google Drive:

drive_file_path = "/content/drive/MyDrive/Iris.csv"

И загрузите его в pandas:

df = pd.read_csv("/content/drive/MyDrive/Iris.csv" )
print(df.head())

Результат будет аналогичен первому методу:

первые несколько строк после загрузки датасета в pandas

Ваша заявка успешно отправлена!

Мы скоро свяжемся с вами для обсуждения деталей проекта