
Классификация — одна из ключевых задач машинного обучения. Ее цель — научить модель определять, к какому классу принадлежит объект: спам это или нет, кот или собака на фото, высокий или низкий доход у пользователя.
Чтобы решать такие задачи, модели нужны примеры — размеченные данные, на которых она сможет учиться.
В этой статье мы собрали более 50 датасетов для классификации в разных сферах: от компьютерного зрения до обработки естественного языка .
NLP

Спам и фейки
Spam Classification for Basic NLP — Набор электронных писем в формате CSV для определения спама. Данные представлены в исходном виде — с HTML-тегами и прочими особенностями, требуют предварительной обработки.
Spam Email Classification — Содержит коллекцию электронных писем в формате CSV с двумя столбцами: метка и текст. Предназначен для задач бинарной классификации — спам / не спам.
E‑Mail Classification NLP — Датасет для классификации электронных писем. Включает тексты сообщений и соответствующие метки (spam/ham).
Fake News Classification — Датасет для классификации фейковых новостей. Содержит около 72 000 новостных статей, из которых 35 000 — реальные и 37 000 — фейки.
Fake and Real News Dataset — Включает более 45 000 новостных статей, разделенных на два класса (fake/true). Каждая статья содержит заголовок, текст, тему и дату публикации.
Эмоциональная окраска текста
Emotion Classification NLP — Текстовый датасет, основанный на сообщениях, где каждому присвоена одна из четырех эмоций: радость, печаль, гнев или страх. Подходит для обучения моделей классификации эмоциональной окраски текста.
Cyberbullying Classification — Датасет для обучения моделей, выявляющих и классифицирующих типы агрессивных сообщений в соцсетях. Содержит около 47 000 сообщений, размеченных по 6 классам. Данные сбалансированы: для каждого класса примерно по 8 000 примеров.
Тематическая классификация
Legal Text Classification Dataset — Датасет для классификации юридических текстов. Включает 25 000 юридических документов с аннотациями в формате CSV.
Russian Social Media Text Classification — Набор данных включает тексты постов на русском языке, относящихся к различным видам спорта.
Text Document Classification Dataset — Набор данных содержит 2 225 текстовых документов, разделенных на 5 тем: бизнес, развлечения, политика, спорт и технологии.
Классификация продуктов и товаров
Ecommerce Text Classification — Датасет для классификации товаров на основе их текстовых описаний. Содержит 50 425 описаний, разделенных на четыре категории: «Электроника», «Товары для дома», «Книги» и «Одежда и аксессуары».
Massive Product Text Classification Dataset — Более 5 миллионов названий товаров с Amazon (США, Канада и Великобритания), размеченных по категориям. Предназначен для обучения крупных моделей классификации.
Компьютерное зрение

Большие наборы данных
ImageNet — Один из крупнейших наборов данных для классификации изображений. Содержит более 14 миллионов изображений и 20 000+ категорий объектов.
CIFAR-100 Python — Классика ML, 60 000 изображений различных повседневных объектов (100 классов, по 600 изображений каждый).
Caltech 256 Image Dataset — 30 607 изображений, 257 классов объектов. Минимальное количество изображений в каждом классе — 80. Охватывает широкий спектр объектов — животных, транспорт, бытовую технику и др.
Люди
Gender Detection & Classification — Face Dataset — Содержит более 200 000 изображений лиц. Предназначен для создания и оценки моделей, определяющих пол человека на фото.
6 Human Emotions for Image Cassification — Изображения лиц, предназначенные для классификации человеческих эмоций. Данные охватывают 6 классов: радость, грусть, страх, боль, гнев и отвращение.
Одежда
DeepFashion — Более 800 000 изображений одежды, 46 классов объектов.
Clothing & Models — Набор цветных изображений одежды. Подходит для задач классификации, сегментации, оценки позы и генерации изображений с помощью GAN.
Спорт
Sports Image Classification — Датасет состоит из двух частей: 8 000 размеченных изображений для обучения и 2 000 неразмеченных для тестирования. Классы представляют 7 видов спорта: крикет, борьба, теннис, бадминтон, футбол, плавание и карате.
Sport-Classification-Dataset — Датасет с изображениями спортсменов. Примерно 500–700 фото на каждый из 20 классов: плавание, бадминтон, футбол, хоккей и др.
Медицина

Изображения
Leukemia Classification — Датасет состоит из 15 135 изображений клеток крови, классифицированных как нормальные или пораженные лейкемией. Изображения были размечены экспертом-онкологом и являются репрезентативными для реальных задач, поскольку содержат некоторые шумы.
Brain Tumor Classification (MRI) — Датасет для обнаружения и классификации типов опухоли головного мозга. Содержит более 7 000 МРТ-изображений, относящихся к четырем классам: глиома, менингиома, аденома гипофиза и отсутствие опухоли.
Retinal Disease Classification — Включает 3 200 изображений глазного дна, предназначенных для классификации более 40 офтальмологических заболеваний.
CT Medical Images — Результаты компьютерной томографии 69 пациентов. Данные включают сведения о возрасте и применении контрастного вещества.
Medical Scan Classification Dataset — Содержит различные медицинские изображения, включая рентгеновские снимки, КТ и МРТ.
Skin Cancer MNIST: HAM10000 — Содержит 10 000 дерматологических изображений для классификации кожных заболеваний.
NIH Chest X‑rays — Включает 11 120 фронтальных рентгеновских снимков грудной клетки, полученных в результате обследования 30 805 уникальных пациентов. Подходит для задач многоклассовой и мультиклассовой классификации.
MedMNIST: Standardized Biomedical Images — Большой набор стандартизированных биомедицинских изображений. В общей сложности содержит около 708 000 2D и 10 000 3D изображений.
Табличные данные
Heart Disease Classification — Датасет состоит из табличных данных и предназначен для обнаружения и классификации сердечно-сосудистых заболеваний. Включает различные признаки, такие как возраст, пол, давление, уровень сахара в крови, тип боли в груди и др.
Anemia Types Classification — Результаты общего анализа крови, предназначенные для определения различных типов анемии. Данные вручную диагностированы и подходят для задач многоклассовой медицинской классификации.
Disease Diagnosis Dataset — Медицинские показатели 2 000 пациентов. Включает демографические данные, симптомы, показания датчиков, диагноз и степень тяжести заболевания.
Текстовые данные
Medical Text Dataset — Cancer Doc Classification — Датасет с биомедицинскими текстами, включает публикации о раке толстой кишки, легких и щитовидной железы. Предназначен для классификации научных документов.
Транспорт и дорожные объекты

Изображения
Traffic Sign Dataset — Датасет для классификации дорожных знаков. Включает около 58 классов дорожных знаков, каждый из которых представлен примерно 120 изображениями.
Vehicle Image Classification — Набор данных предназначен для задач классификации транспортных средств. Содержит 5 600 изображений в 7 категориях (по 800 изображений каждая): авторикши, мотоциклы, велосипеды, автомобили, самолеты, корабли и поезда.
Vehicle Type Recognition — Датасет содержит изображения транспортных средств четырех типов: легковых автомобилей, грузовиков, автобусов и мотоциклов. Предназначен для разработки и оценки моделей классификации изображений.
5 Vehicles for Classification — Содержит изображения автомобилей, мотоциклов, автобусов, поездов и грузовиков. Все изображения получены из датасета COCO, структурированы, очищены от фона и приведены к размеру 192×192 пикселя.
Табличные данные
Car Classification Dataset — Содержит 1 728 записей с характеристиками автомобилей (цена покупки и обслуживания, число дверей, вместимость, размер багажника, уровень безопасности). Целевой признак — оценка автомобиля (от «неприемлемо» до «очень хорошо»).
Природа, экология и окружающая среда

Изображения
Animal Image Classification Dataset — Содержит около 3 000 изображений в формате JPG, разделенных на три класса: кошки, собаки и змеи. Подходит для базовой классификации животных в задачах компьютерного зрения.
Bird Species Classification — Небольшой датасет с изображениями 16 видов птиц, собранный с помощью краудсорсинга. Содержит около 150 изображений в высоком разрешении для обучения и 158 для тестирования.
Fish Species Image Data — Содержит около 3 960 изображений 468 видов рыб, снятых в условиях реальной подводной съемки.
Plants Classification — Изображения 30 видов растений: около 21 000 для обучения, 3 000 для валидации и 6 000 для тестирования. Общий объем данных — около 1,5 ГБ. Подходит для классификации различных растений и сельскохозяйственных культур.
Plant Seedlings Classification — Включает изображения 12 видов растений на разных стадиях роста. Данные разделены на обучающую и тестовую выборки, где каждое изображение снабжено уникальным идентификатором.
Agricultural Crops Image Classification — Изображения 30 сельскохозяйственных культур (включая кукурузу, рис, тростник и др). Формат данных позволяет обучать модели многоклассовой классификации.
New Plant Diseases Dataset — Данные для классификации заболеваний растений. Набор содержит около 87 000 цветных изображений листьев. Включает как здоровые, так и пораженные образцы.
PlantDoc Classification Dataset — Содержит 2 598 изображений листьев с признаками заболеваний. Данные охватывают 17 классов заболеваний, 16 видов растений, собраны из открытых источников и отражают реальные условия съемки.
Waste Classification Data — 6 800 изображений мусора. Всего 17 классов, включая стекло, металл, бумагу, пластик и др. Подходит для обучения моделей, распознающих типы бытовых отходов по фото.
Environmental Scenes Images Dataset — Коллекция из 492 изображений, представляющих различные сцены: городские улицы, леса, горы, озера.
Аудио
Environmental Sound Classification 50 — Датасет с 2 000 короткими аудиозаписями по 5 секунд, разделенными на 50 классов. Включает как звуки природы (дождь, лай собак), так и городские шумы (пожарная сирена, дрель). Подходит для задач классификации аудио.
Табличные данные
Mushroom Classification — Датасет для классификации грибов (съедобные и ядовитые). Содержит описания внешних признаков — форма шляпки, цвет, запах и др.
Социальные и демографические данные

Финансы и маркетинг
Income Classification — Датасет для классификации и прогнозирования уровня дохода на основе социально-демографических характеристик. Целевая переменная — бинарная: получает ли человек больше 50 000$ в год.
Credit Score Classification — Данные для классификации кредитоспособности клиентов. Набор содержит более 100 000 записей с такими признаками, как возраст, доход и кредитная история.
Simple Loan Classification Dataset — Датасет для классификации заявок на кредит (одобрение или отказ). Подходит для построения базовой модели банковского скоринга.
Marketing Campaign Response Prediction — Данные о клиентах: возраст, доход, семейное положение, история покупок. Цель — классификация по признаку: откликнулся ли человек на маркетинговую кампанию.
Поведенческие и личностные особенности
Gender Classification — Небольшой CSV‑датасет, предназначенный для предсказания пола человека на основе его предпочтений (например, любимый цвет, музыка и др.).
Extrovert vs. Introvert Behavior Data — Датасет с поведенческими характеристиками людей для классификации экстраверт/интроверт. Содержит около 2900 записей с такими признаками, как социальная активность, время в одиночестве и участие в мероприятиях.
Student Habits vs Academic Performance — Синтетический датасет, предназначен для задач классификации и регрессии, где цель — предсказать успеваемость учащегося на основе ежедневных привычек.
_________________________________________________________________________
Эти датасеты — отличный старт для построения моделей классификации в разных сферах. Выбирайте те, что ближе к вашей задаче, и не забывайте предварительно обрабатывать и очищать данные.