Сбор данных для машинного обучения

Начальный этап любого ML проекта. Поиск и подготовка обучающих данных
для нейронных сетей. 

Методы сбора

Рендеринг синтетических данных

Создание данных по заданным параметрам для моделирования несуществующих
сценариев и для обучения модели без риска нарушения правил работы с персональными
данными

Парсинг и веб-скрапинг

Автоматический процесс сбора и сортировки данных с
определенными параметрами и заданными атрибутами. Поиск необходимых данных на сайтах, форумах, порталах, онлайн-магазинах и пр. с помощью написанных нами парсеров

Краудсорсинг

Запуск проектов по сбору данных на Toloka, Mechanical Turk, UHRS, OneForma и др., а
также проведение пешеходных заданий

Отбор open source датасетов

Запуск проектов по сбору данных на Toloka, Mechanical Turk, UHRS, OneForma и др., а
также проведение пешеходных заданий

Сбор

Структурирование и классификация данных по заданным атрибутам для создания датасета высокого качества и обучения нейронной сети на чистых данных

Очистка

Подбор подходящих инструментов и методов поиска данных, согласно техническому
заданию и целей бизнеса

Подготовка

Подготовка датасета и метаданных в запрашиваемом формате. Передача исключительных прав на использование и подписание всех закрывающих документов

Аугментация

Генерация данных на основе имеющихся датасетов с применением различных способов искажения (форма, цвет, наклон и пр.), добавления и смешивания объектов