Начальный этап любого ML проекта. Поиск и подготовка обучающих данных
для нейронных сетей.
Методы сбора
Рендеринг синтетических данных
Создание данных по заданным параметрам для моделирования несуществующих
сценариев и для обучения модели без риска нарушения правил работы с персональными
данными
Парсинг и веб-скрапинг
Автоматический процесс сбора и сортировки данных с
определенными параметрами и заданными атрибутами. Поиск необходимых данных на сайтах, форумах, порталах, онлайн-магазинах и пр. с помощью написанных нами парсеров
Краудсорсинг
Запуск проектов по сбору данных на Toloka, Mechanical Turk, UHRS, OneForma и др., а
также проведение пешеходных заданий
Отбор open source датасетов
Запуск проектов по сбору данных на Toloka, Mechanical Turk, UHRS, OneForma и др., а
также проведение пешеходных заданий
Сбор
Структурирование и классификация данных по заданным атрибутам для создания датасета высокого качества и обучения нейронной сети на чистых данных
Очистка
Подбор подходящих инструментов и методов поиска данных, согласно техническому
заданию и целей бизнеса
Подготовка
Подготовка датасета и метаданных в запрашиваемом формате. Передача исключительных прав на использование и подписание всех закрывающих документов
Аугментация
Генерация данных на основе имеющихся датасетов с применением различных способов искажения (форма, цвет, наклон и пр.), добавления и смешивания объектов