50+ датасетов для машинного обучения — российские данные

В этой статье собраны более 50 датасетов с российскими данными, которые можно использовать для обучения моделей машинного обучения. Независимо от того, работаете ли вы с текстами, изображениями, аудиозаписями или статистическими данными, здесь вы можете найти подходящий набор данных для своего проекта.

Обработка естественного языка (NLP) 

NLP датасеты

Литература и художественные тексты

  • Russian Child Tales — Набор данных, предназначенный для обучения LLM генерировать простые рифмы и детские стихотворения.
  • 19,000 Russian Poems — Набор данных, содержащий 19 тысяч стихотворений на русском языке.
  • Russian Novels — Большой корпус русских классических романов, включает около 100 произведений. 

Параллельные и специализированные корпусы

  • English-Russian Parallel Corpus Data — Двуязычный корпус текстов на английском и русском языках для обучения систем машинного перевода.
  • Ophthalmology Russian/English Translations — Датасет параллельных англо-русских предложений, специально подобранных для обучения языковых моделей профессионального медицинского перевода в области офтальмологии.
  • RuAdapt: A Parallel Russian-Simple Russian Dataset — Параллельный корпус, содержащий тексты на русском языке и их упрощенные версии, используемый в задачах автоматического упрощения текста.
  • Gazeta Summaries — Коллекция статей и их кратких аннотаций на русском языке, полезная для задач суммаризации.
  • Russian Corpus of Biographical Texts — Корпус биографических текстов из Википедии для задачи автоматического поиска фрагментов в тексте.
  • Movie Plots from Wikipedia in Russian — Датасет с краткими пересказами сюжетов фильмов, мультфильмов, аниме, сериалов на русском языке.
  • Kinopoisk Top 250 Russian Dataset — Датасет, содержащий информацию о 250 лучших фильмах по версии Кинопоиска, включая их названия, рейтинги, жанры, год выпуска.
  • Russian Financial News — Датасет с текстами финансовых новостей на русском языке.

Анализ тональности 

  • Russian Sentiment Dataset — Датасет русскоязычных отзывов на различные услуги и заведения, включая рестораны, медицинские учреждения и др.
  • Russian-language Reviews — Датасет русскоязычных отзывов о покупках одежды и заказах в интернет-магазинах.
  • RuReviews — Разнообразные русскоязычные отзывы для анализа тональности.
  • Отзывы на мобильные телефоны — Датасет русскоязычных отзывов на мобильные телефоны, содержащий рейтинговые оценки (от 1 до 5).
  • Kinopoisk’s movies reviews — Коллекция рецензий пользователей на фильмы с Кинопоиска, включает более 130 тысяч записей.
  • Reviews Dataset — Датасет русскоязычных отзывов, охватывающий 17 категорий товаров, включая электронику, косметику, бытовую технику и другие.
  • KartaSlovSent — Датасет слов и выражений русского языка с разметкой тональности («положительное», «отрицательное», «нейтральное»). 

Лингвистика и языковой анализ

  • Open Semantics — Корпус русскоязычных слов и выражений с семантической разметкой.
  • Assoc — Содержит ассоциации к словам и выражениям русского языка, придуманные реальными людьми.
  • Orfo and Typos — Набор данных, состоящий из слов на русском языке и вариантов их неправильного написания (включая ошибки и опечатки).
  • Russian Event2Mind — Аннотированные данные о намерениях и реакциях.
  • RULEC-GEC — Набор предложений, написанных людьми, изучающий русский язык как иностранный, аннотированный на предмет грамматических ошибок.
  • Russian News Corpus — Лемматизированные (морфологически нормализованные) тексты новостей российских СМИ.

Жестовый язык

  • Russian Sign Language Alphabet — Датасет с изображениями алфавита жестового русского языка.
  • Slovo — Russian Sign Language Dataset — Крупномасштабный видеодатасет для задач распознавания жестов русского жестового языка. Содержит 20 400 RGB-видео, охватывающих 1 000 жестов, выполненных 194 исполнителями, по 20 видео на каждый жест.
  • Datasets for Russian Sign Language — Алфавит жестов русского жестового языка.

Визуальное распознавание текста

Аудиоданные

  • Russian Emotional Speech Dialogs (RESD) — Аудиозаписи эмоциональной русской речи с различными метками тональности.
  • Russian Speech Disorder Audio (RSDA) — Датасет аудиозаписей русскоязычной речи с нарушениями, предназначенный для диагностики гиперкинетической дизартрии.
  • Russian Open Text To Speech (TTS) Dataset — Масштабный аудиодатасет для задач обучения и тестирования моделей синтеза речи (TTS).
  • Russian Open Speech To Text (STT/ASR) Dataset — Датасет русскоязычных аудиозаписей с транскрипциями, предназначенный для обучения и тестирования систем автоматического распознавания речи (ASR).
  • Golos — 1240 часов аннотированных аудиозаписей на русском языке.
  • Speech Recognition Dataset — Датасет включает видеоролики, в которых различные спикеры произносят фразы на русском языке. 
  • Russian Single Speaker Speech Dataset — Аудиозаписи речи одного носителя русского языка.

Компьютерное зрение (CV)

Датасеты для компьютерного зрения (CV)

Транспорт и автономное вождение 

Искусство и культура

  • Russian Classic Painting Dataset — Набор изображений русской классической живописи с автоматически сгенерированными описаниями на русском и английском языках, предназначенный для разработки моделей генерации изображений. 
  • Museum exhibits dataset — Датасет, содержащий около 16 000 изображений музейных экспонатов. Полезен для разработки систем классификации, поиска объектов на изображениях и анализа визуального сходства.

Медицина

Природа и окружающая среда

  • Urban Underlying Surfaces in Winter Dataset — Включает размеченные (сегментированные) изображения покрытий городских улиц зимой.
  • Mushroom Species — Более 50 000 фотографий 100 видов грибов, сделанных в России.
  • Flower from Shops Classification — Масштабный набор фотографий растений, продающихся в российских цветочных магазинах.

Статистика, анализ, прогнозирование

Датасеты для статистики и анализа

Финансы и экономика

Социальные исследования

Ваша заявка успешно отправлена!

Мы скоро свяжемся с вами для обсуждения деталей проекта