В этой статье собраны более 50 датасетов с российскими данными, которые можно использовать для обучения моделей машинного обучения. Независимо от того, работаете ли вы с текстами, изображениями, аудиозаписями или статистическими данными, здесь вы можете найти подходящий набор данных для своего проекта.
Обработка естественного языка (NLP)

Литература и художественные тексты
- Russian Child Tales — Набор данных, предназначенный для обучения LLM генерировать простые рифмы и детские стихотворения.
- 19,000 Russian Poems — Набор данных, содержащий 19 тысяч стихотворений на русском языке.
- Russian Novels — Большой корпус русских классических романов, включает около 100 произведений.
Параллельные и специализированные корпусы
- English-Russian Parallel Corpus Data — Двуязычный корпус текстов на английском и русском языках для обучения систем машинного перевода.
- Ophthalmology Russian/English Translations — Датасет параллельных англо-русских предложений, специально подобранных для обучения языковых моделей профессионального медицинского перевода в области офтальмологии.
- RuAdapt: A Parallel Russian-Simple Russian Dataset — Параллельный корпус, содержащий тексты на русском языке и их упрощенные версии, используемый в задачах автоматического упрощения текста.
- Gazeta Summaries — Коллекция статей и их кратких аннотаций на русском языке, полезная для задач суммаризации.
- Russian Corpus of Biographical Texts — Корпус биографических текстов из Википедии для задачи автоматического поиска фрагментов в тексте.
- Movie Plots from Wikipedia in Russian — Датасет с краткими пересказами сюжетов фильмов, мультфильмов, аниме, сериалов на русском языке.
- Kinopoisk Top 250 Russian Dataset — Датасет, содержащий информацию о 250 лучших фильмах по версии Кинопоиска, включая их названия, рейтинги, жанры, год выпуска.
- Russian Financial News — Датасет с текстами финансовых новостей на русском языке.
Анализ тональности
- Russian Sentiment Dataset — Датасет русскоязычных отзывов на различные услуги и заведения, включая рестораны, медицинские учреждения и др.
- Russian-language Reviews — Датасет русскоязычных отзывов о покупках одежды и заказах в интернет-магазинах.
- RuReviews — Разнообразные русскоязычные отзывы для анализа тональности.
- Отзывы на мобильные телефоны — Датасет русскоязычных отзывов на мобильные телефоны, содержащий рейтинговые оценки (от 1 до 5).
- Kinopoisk’s movies reviews — Коллекция рецензий пользователей на фильмы с Кинопоиска, включает более 130 тысяч записей.
- Reviews Dataset — Датасет русскоязычных отзывов, охватывающий 17 категорий товаров, включая электронику, косметику, бытовую технику и другие.
- KartaSlovSent — Датасет слов и выражений русского языка с разметкой тональности («положительное», «отрицательное», «нейтральное»).
Лингвистика и языковой анализ
- Open Semantics — Корпус русскоязычных слов и выражений с семантической разметкой.
- Assoc — Содержит ассоциации к словам и выражениям русского языка, придуманные реальными людьми.
- Orfo and Typos — Набор данных, состоящий из слов на русском языке и вариантов их неправильного написания (включая ошибки и опечатки).
- Russian Event2Mind — Аннотированные данные о намерениях и реакциях.
- RULEC-GEC — Набор предложений, написанных людьми, изучающий русский язык как иностранный, аннотированный на предмет грамматических ошибок.
- Russian News Corpus — Лемматизированные (морфологически нормализованные) тексты новостей российских СМИ.
Жестовый язык
- Russian Sign Language Alphabet — Датасет с изображениями алфавита жестового русского языка.
- Slovo — Russian Sign Language Dataset — Крупномасштабный видеодатасет для задач распознавания жестов русского жестового языка. Содержит 20 400 RGB-видео, охватывающих 1 000 жестов, выполненных 194 исполнителями, по 20 видео на каждый жест.
- Datasets for Russian Sign Language — Алфавит жестов русского жестового языка.
Визуальное распознавание текста
- Handwritten Russian Letters — Изображения рукописных русских букв.
- RusTitW: Russian Language Visual Text Recognition — Датасет для задачи распознавания печатного и рукописного текста на русском языке в реальных условиях.
- Kazakh, Russian and English Glyph Images Dataset — Коллекция изображений символов казахского, русского и английского алфавитов.
Аудиоданные
- Russian Emotional Speech Dialogs (RESD) — Аудиозаписи эмоциональной русской речи с различными метками тональности.
- Russian Speech Disorder Audio (RSDA) — Датасет аудиозаписей русскоязычной речи с нарушениями, предназначенный для диагностики гиперкинетической дизартрии.
- Russian Open Text To Speech (TTS) Dataset — Масштабный аудиодатасет для задач обучения и тестирования моделей синтеза речи (TTS).
- Russian Open Speech To Text (STT/ASR) Dataset — Датасет русскоязычных аудиозаписей с транскрипциями, предназначенный для обучения и тестирования систем автоматического распознавания речи (ASR).
- Golos — 1240 часов аннотированных аудиозаписей на русском языке.
- Speech Recognition Dataset — Датасет включает видеоролики, в которых различные спикеры произносят фразы на русском языке.
- Russian Single Speaker Speech Dataset — Аудиозаписи речи одного носителя русского языка.
Компьютерное зрение (CV)

Транспорт и автономное вождение
- Traffic Signs in Post-Soviet States — Датасет с изображениями дорожных знаков.
- Car Crash Dataset Russia 2022–2023 — Видеозаписи различных сценариев вождения.
Искусство и культура
- Russian Classic Painting Dataset — Набор изображений русской классической живописи с автоматически сгенерированными описаниями на русском и английском языках, предназначенный для разработки моделей генерации изображений.
- Museum exhibits dataset — Датасет, содержащий около 16 000 изображений музейных экспонатов. Полезен для разработки систем классификации, поиска объектов на изображениях и анализа визуального сходства.
Медицина
- MosMedData — Chest CT Scans with COVID-19 — Компьютерные томограммы легких пациентов с COVID-19.
Природа и окружающая среда
- Urban Underlying Surfaces in Winter Dataset — Включает размеченные (сегментированные) изображения покрытий городских улиц зимой.
- Mushroom Species — Более 50 000 фотографий 100 видов грибов, сделанных в России.
- Flower from Shops Classification — Масштабный набор фотографий растений, продающихся в российских цветочных магазинах.
Статистика, анализ, прогнозирование

Финансы и экономика
- Moscow Housing Price Dataset — Данные о ценах на жилье в Москве.
- Real Estate Saint Petersburg — Данные о рынке недвижимости Санкт-Петербурга за 5 лет.
- Bond Market Volume — Russia — Данные об объеме российского рынка облигаций.
- Macroeconomic data on the Russian economy — Макроэкономическая статистика России.
- B2B Technographic Data in Russia — Данные о российских компаниях, полезны для маркетингового анализа и B2B-исследований.
- Auction prices for Russian Empire coins — Аукционные цены на старинные российские монеты.
Социальные исследования
- The Number of Crimes in Russia (2008–2023) — Статистика преступности в России за 15 лет.
- University Admission in Russia (2014–2023) — Данные о поступлении в вузы.
- Russian Demography Data (1990–2017) — Демографическая статистика России.
- Consumption of Alcohol in Russia (2017–2023) — Данные о потреблении алкоголя в России.