50+ датасетов для классификации в ML

Классификация — одна из ключевых задач машинного обучения. Ее цель — научить модель определять, к какому классу принадлежит объект: спам это или нет, кот или собака на фото, высокий или низкий доход у пользователя.

Чтобы решать такие задачи, модели нужны примеры — размеченные данные, на которых она сможет учиться.

В этой статье мы собрали более 50 датасетов для классификации в разных сферах: от компьютерного зрения до обработки естественного языка .

NLP

NLP датасеты

Спам и фейки

Spam Classification for Basic NLP — Набор электронных писем в формате CSV для определения спама. Данные представлены в исходном виде — с HTML-тегами и прочими особенностями,  требуют предварительной обработки.

Spam Email Classification — Содержит коллекцию электронных писем в формате CSV с двумя столбцами: метка и текст. Предназначен для задач бинарной классификации спам / не спам.

E‑Mail Classification NLP — Датасет для классификации электронных писем. Включает тексты сообщений и соответствующие метки (spam/ham).

Fake News Classification — Датасет для классификации фейковых новостей. Содержит около 72 000 новостных статей, из которых 35 000 — реальные и 37 000 — фейки.

Fake and Real News Dataset — Включает  более 45 000 новостных статей, разделенных на два класса (fake/true). Каждая статья содержит заголовок, текст, тему и дату публикации.

Эмоциональная окраска текста

Emotion Classification NLP — Текстовый датасет, основанный на сообщениях, где каждому присвоена одна из четырех эмоций: радость, печаль, гнев или страх. Подходит для обучения моделей классификации эмоциональной окраски текста.

Cyberbullying Classification — Датасет для обучения моделей, выявляющих и классифицирующих типы агрессивных сообщений в соцсетях. Содержит около 47 000 сообщений, размеченных по 6 классам. Данные сбалансированы: для каждого класса примерно по 8 000 примеров.

Тематическая классификация

Legal Text Classification Dataset — Датасет для классификации юридических текстов. Включает 25 000 юридических документов с аннотациями в формате CSV.

Russian Social Media Text Classification — Набор данных включает тексты постов на русском языке, относящихся к различным видам спорта

Text Document Classification Dataset — Набор данных содержит 2 225 текстовых документов, разделенных на 5 тем: бизнес, развлечения, политика, спорт и технологии. 

Классификация продуктов и товаров

Ecommerce Text Classification — Датасет для классификации товаров на основе их текстовых описаний. Содержит 50 425 описаний, разделенных на четыре категории: «Электроника», «Товары для дома», «Книги» и «Одежда и аксессуары». 
Massive Product Text Classification Dataset — Более 5 миллионов названий товаров с Amazon (США, Канада и Великобритания), размеченных по категориям. Предназначен для обучения крупных моделей классификации.

Компьютерное зрение

Датасеты компьютерное зрение (CV)

Большие наборы данных

ImageNet — Один из крупнейших наборов данных для классификации изображений. Содержит более 14 миллионов изображений и 20 000+ категорий объектов.

CIFAR-100 Python — Классика ML, 60 000 изображений различных повседневных объектов (100 классов, по 600 изображений каждый).

Caltech 256 Image Dataset — 30 607 изображений, 257 классов объектов. Минимальное количество изображений в каждом классе — 80. Охватывает широкий спектр объектов — животных, транспорт, бытовую технику и др.

Люди

Gender Detection & Classification — Face Dataset — Содержит более 200 000 изображений лиц. Предназначен для создания и оценки моделей, определяющих пол человека на фото.

6 Human Emotions for Image Cassification — Изображения лиц, предназначенные для классификации человеческих эмоций. Данные охватывают 6 классов: радость, грусть, страх, боль, гнев и отвращение.

Одежда 

DeepFashion — Более 800 000 изображений одежды, 46 классов объектов. 

Clothing & Models — Набор цветных изображений одежды. Подходит для задач классификации, сегментации, оценки позы и генерации изображений с помощью GAN.

Спорт

Sports Image Classification — Датасет состоит из двух частей: 8 000 размеченных изображений для обучения и 2 000 неразмеченных для тестирования. Классы представляют 7 видов спорта: крикет, борьба, теннис, бадминтон, футбол, плавание и карате.

Sport-Classification-Dataset — Датасет с изображениями спортсменов. Примерно 500–700 фото на каждый из 20 классов: плавание, бадминтон, футбол, хоккей и др. 

Медицина

Медицинские датасеты

Изображения

Leukemia Classification — Датасет состоит из 15 135 изображений клеток крови, классифицированных как нормальные или пораженные лейкемией. Изображения были размечены экспертом-онкологом и являются репрезентативными для реальных задач, поскольку содержат некоторые шумы.

Brain Tumor Classification (MRI) — Датасет для обнаружения и классификации типов опухоли головного мозга. Содержит более 7 000 МРТ-изображений, относящихся к четырем классам: глиома, менингиома, аденома гипофиза и отсутствие опухоли.

Retinal Disease Classification — Включает 3 200 изображений глазного дна, предназначенных для классификации более 40 офтальмологических заболеваний.

CT Medical Images — Результаты компьютерной томографии 69 пациентов. Данные включают сведения о возрасте и применении контрастного вещества.

Medical Scan Classification Dataset — Содержит различные медицинские изображения, включая рентгеновские снимки, КТ и МРТ.

Skin Cancer MNIST: HAM10000 — Содержит 10 000 дерматологических изображений для классификации кожных заболеваний.

NIH Chest X‑rays — Включает 11 120 фронтальных рентгеновских снимков грудной клетки, полученных в результате обследования 30 805 уникальных пациентов. Подходит для задач многоклассовой и мультиклассовой классификации.

MedMNIST: Standardized Biomedical Images — Большой набор стандартизированных биомедицинских изображений. В общей сложности содержит около 708 000 2D и 10 000 3D изображений.

Табличные данные

Heart Disease Classification — Датасет состоит из табличных данных и предназначен для обнаружения и классификации сердечно-сосудистых заболеваний. Включает различные признаки, такие как возраст, пол, давление, уровень сахара в крови, тип боли в груди и др. 

Anemia Types Classification — Результаты общего анализа крови, предназначенные для определения различных типов анемии. Данные вручную диагностированы и подходят для задач многоклассовой медицинской классификации.

Disease Diagnosis DatasetМедицинские показатели 2 000 пациентов. Включает демографические данные, симптомы, показания датчиков, диагноз и степень тяжести заболевания. 

Текстовые данные
Medical Text Dataset — Cancer Doc Classification — Датасет с биомедицинскими текстами, включает публикации о раке толстой кишки, легких и щитовидной железы. Предназначен для классификации научных документов.

Транспорт и дорожные объекты

Транспорт и дорожные обьекты

Изображения

Traffic Sign Dataset — Датасет для классификации дорожных знаков. Включает около 58 классов дорожных знаков, каждый из которых представлен примерно 120 изображениями.

Vehicle Image Classification — Набор данных предназначен для задач классификации транспортных средств. Содержит 5 600 изображений в 7 категориях (по 800 изображений каждая): авторикши, мотоциклы, велосипеды, автомобили, самолеты, корабли и поезда.

Vehicle Type Recognition — Датасет содержит изображения транспортных средств четырех типов: легковых автомобилей, грузовиков, автобусов и мотоциклов. Предназначен для разработки и оценки моделей классификации изображений.

5 Vehicles for Classification — Содержит изображения автомобилей, мотоциклов, автобусов, поездов и грузовиков. Все изображения получены из датасета COCO, структурированы, очищены от фона и приведены к размеру 192×192 пикселя.

Табличные данные

Car Classification Dataset — Содержит 1 728 записей с характеристиками автомобилей (цена покупки и обслуживания, число дверей, вместимость, размер багажника, уровень безопасности). Целевой признак — оценка автомобиля (от «неприемлемо» до «очень хорошо»).

Природа, экология и окружающая среда

Датасеты про природу и экологию

Изображения 

Animal Image Classification Dataset — Содержит около 3 000 изображений в формате JPG, разделенных на три класса: кошки, собаки и змеи. Подходит для базовой классификации животных в задачах компьютерного зрения.

Bird Species Classification — Небольшой датасет с изображениями 16 видов птиц, собранный с помощью краудсорсинга. Содержит около 150 изображений в высоком разрешении для обучения и 158 для тестирования.

Fish Species Image Data — Содержит около 3 960 изображений 468 видов рыб, снятых в условиях реальной подводной съемки.

Plants Classification — Изображения 30 видов растений: около 21 000 для обучения, 3 000 для валидации и 6 000 для тестирования. Общий объем данных — около 1,5 ГБ. Подходит для классификации различных растений и сельскохозяйственных культур.

Plant Seedlings Classification — Включает изображения 12 видов растений на разных стадиях роста. Данные разделены на обучающую и тестовую выборки, где каждое изображение снабжено уникальным идентификатором.

Agricultural Crops Image Classification — Изображения 30 сельскохозяйственных культур (включая кукурузу, рис, тростник и др). Формат данных позволяет обучать модели многоклассовой классификации.

New Plant Diseases Dataset — Данные для классификации заболеваний растений. Набор содержит около 87 000 цветных изображений листьев. Включает как здоровые, так и пораженные образцы.

PlantDoc Classification Dataset — Содержит 2 598 изображений листьев с признаками заболеваний. Данные охватывают 17 классов заболеваний, 16 видов растений, собраны из открытых источников и отражают реальные условия съемки.

Waste Classification Data — 6 800 изображений мусора. Всего 17 классов, включая стекло, металл, бумагу, пластик и др. Подходит для обучения моделей, распознающих типы бытовых отходов по фото.

Environmental Scenes Images Dataset — Коллекция из 492 изображений, представляющих различные сцены: городские улицы, леса, горы, озера.

Аудио

Environmental Sound Classification 50 — Датасет с 2 000 короткими аудиозаписями по 5 секунд, разделенными на 50 классов. Включает как звуки природы (дождь, лай собак), так и городские шумы (пожарная сирена, дрель). Подходит для задач классификации аудио.

Табличные данные
Mushroom Classification — Датасет для классификации грибов (съедобные и ядовитые). Содержит описания внешних признаков — форма шляпки, цвет, запах и др.

Социальные и демографические данные

Социальные и демографические данные

Финансы и маркетинг

Income Classification — Датасет для классификации и прогнозирования уровня дохода на основе социально-демографических характеристик. Целевая переменная — бинарная: получает ли человек больше 50 000$ в год.

Credit Score Classification — Данные для классификации кредитоспособности клиентов. Набор содержит более 100 000 записей с такими признаками, как возраст, доход и кредитная история.

Simple Loan Classification Dataset — Датасет для классификации заявок на кредит (одобрение или отказ). Подходит для построения базовой модели банковского скоринга.

Marketing Campaign Response Prediction — Данные о клиентах: возраст, доход, семейное положение, история покупок. Цель — классификация по признаку: откликнулся ли человек на маркетинговую кампанию.

Поведенческие и личностные особенности

Gender Classification — Небольшой CSV‑датасет, предназначенный для предсказания пола человека на основе его предпочтений (например, любимый цвет, музыка и др.). 

Extrovert vs. Introvert Behavior Data — Датасет с поведенческими характеристиками людей для классификации экстраверт/интроверт. Содержит около 2900 записей с такими признаками, как социальная активность, время в одиночестве и участие в мероприятиях.

Student Habits vs Academic Performance — Синтетический датасет, предназначен для задач классификации и регрессии, где цель — предсказать успеваемость учащегося на основе ежедневных привычек.

_________________________________________________________________________

Эти датасеты — отличный старт для построения моделей классификации в разных сферах. Выбирайте те, что ближе к вашей задаче, и не забывайте предварительно обрабатывать и очищать данные.

Ваша заявка успешно отправлена!

Мы скоро свяжемся с вами для обсуждения деталей проекта