Чем занимаются разметчики данных?

В последние годы мы все больше слышим об искусственном интеллекте. Мы постоянно встречаемся с ним в повседневной жизни: от сложных чат-ботов и персонализированных рекомендаций в социальных сетях до умных систем, встроенных в наши автомобили и бытовые приборы.

Но для успешной работы искусственного интеллекта требуется огромное количество данных. Как алгоритмы обрабатывают такой поток информации?

Сегодня мы поговорим о профессии, которая делает все это возможным, подготавливая данные, на которых обучается искусственный интеллект. Называется она разметчик данных. Разметчики помогают искусственному интеллекту идентифицировать изображения, интерпретировать аудио и анализировать текст.

Разметка данных: что это такое

Про разметку данных не так много говорят, а ведь это огромная индустрия: Мировой рынок услуг по разметке достиг оценки 15 млрд. долл. США в 2023 году. По прогнозам аналитиков он вырастет до 305 млрд. к 2030 году.

Разметка данных — это ключевой этап в разработке моделей искусственного интеллекта. Она помогает гарантировать, что данные, используемые для обучения и тестирования алгоритмов, являются точными. А еще благодаря ей можно улучшить производительность моделей, так им предоставляется более точный контекст и больше информации о данных, которые они обрабатывают. 

Объясним разметку на простом примере: мы хотим научить алгоритм отличать собак от кошек. Для этого сначала необходимо обработать данные и добавить специальные метки: вот на этом изображении собака, а здесь кошка. Этот процесс проставления специальных меток мы и называем разметкой. Размеченные данные загружают в алгоритм и на их базе он учится самостоятельно делать точные оценки предметов.

Результаты разметки данных мы постоянно встречаем в повседневной жизни:

  • Социальные сети: Разметка нужна для создания алгоритмов персонализированных рекомендаций контента, что помогает платформам предлагать посты и рекламу на основе ваших предпочтений.
  • Медицина: В здравоохранении размеченные данные помогают в диагностике заболеваний по медицинским изображениям, что облегчает и ускоряет работу врачей.
  • Автономные транспортные средства: Разметчики данных помогают обучать системы автономного вождения, реагировать на дорожные знаки, пешеходов и машины, повышая безопасность на дорогах.
  • Ритейл: Работа разметчиков помогает давать точные рекомендации товаров, делая онлайн-шоппинг более персонализированным для каждого покупателя.

Так как рынок машинного обучения сейчас растет со скоростью 50% в год, спрос на таких специалистов также повышается. Но в чем состоит работа разметчика данных?

Чем занимается разметчик данных

В обязанности разметчика входит выполнение различных заданий, связанных с данными для машинного обучения. В зависимости от проекта это может быть:

  • транскрибация, то есть перевод речи в текст. Чаще всего ее заказывают для редких языков. К примеру, совсем недавно мы закончили проект по транскрибации таджикского.
  • разметка объектов на изображениях и в видео. К примеру, иногда нужно обвести машины на трассе или выделить какие-то части фотографии. У нас были проекты, где нужно было размечать животных, растения, родинки, камни на конвейере и даже бактерий под микроскопом.
  • выделение ключевых слов, к примеру, когда нужно найти наиболее значимые и информативные фразы из текста.

Некоторые задания может выполнить любой человек, другие под силу только узкоспециализированным специалистам. В любом случае самое главное здесь — строго придерживаться ТЗ, то есть технического задания. Причем оно может занимать несколько страниц, поэтому для успешной работы важно уметь обрабатывать такой объем информации. Точность аннотации имеет первостепенное значение. 

Любые ошибки могут повлиять на работу модели машинного обучения, поэтому часто разметчикам приходится исправлять все неточности. Хотя есть и проекты, где исправить разметку не получится. Если разметчик превысит лимит ошибок, то руководители будут разбираться, почему это произошло.

Какие задачи может выполнять разметчик данных?

Разметка видео

Для этого вида разметки требуется выделить на видео различные объекты или события, их свойства или характеристики. Разметка может включать информацию о расположении, классе, форме или динамике объектов. Среди самых распространенных типов задач для разметки видео можно отметить следующие:

Сегментация видео

Для сегментации разметчики присваивают видео метки с разной информацией или категорией.

Трекинг движущихся объектов

Так называется определение пути движения объектов на видео с течением времени. При этом объектам присваивается уникальное ID, чтобы анализировать их перемещение или состояние.

Классификация

Для задачи классификации разметчики должны присваивать категории разным объектам, используя заданные характеристики. К примеру, они могут выделять растения на поле или машины на парковке.

Разметка изображений

При разметке изображений объектам присваиваются метки или категории пикселей, чтобы обучить компьютерную модель распознавать или классифицировать эти объекты и понимать их содержимое. Когда мы говорим про разметку изображений, часто мы говорим про два типа разметки:

Выделение и классификация объектов

В этом случае в задачи аннотаторов входит выделение объектов на изображении. К примеру, они могут размечать растения на поле или машины на парковке.

Сегментация изображения

Так называется разделение изображения на сегменты и классификацию каждого сегмента. Этот тип разметки используется для того, чтобы выделить объекты и их границы.

Аннотирование текста

Разметка текста требует от аннотаторов извлечения конкретной информации из языкового материала. Эти данные чаще всего нужны для обучения моделей обработки естественного языка (NLP), которые используются в поисковых системах, голосовых помощниках, автоматизированных переводчиках или анализе документов.

Часто разметчикам приходится выполнять следующие задачи:

Распознавание сущностей

Для этой задачи разметчику нужно определить и классифицировать конкретные элементы. Это могут быть названия локации, даты или какие-либо другие значимые атрибуты.

Классификация текста

В таких задачах разметчику нужно будет проанализировать, соответствует ли данный ему текст предоставленной теме, или присвоить ему определенную категорию.

Анализ тональности

Для анализа тональности аннотатор должен проанализировать текст и определить его настроение. Такие данные часто используются для мониторинга отзывов или модерации контента.

Разметка аудио

Этот вид разметки данных очень важен для построения хорошо работающих моделей обработки естественного языка (NLP). Так, он используется для обучения голосовых помощников, разметки тональности и тайминга, а также качественной транскрибации аудиозаписей.

Речевая аналитика

Так называется задача по анализу и интерпретации речи. Одна из задач этого типа разметки – собирать и систематизировать данные о звонках, к примеру, проанализировать разговоры менеджеров с клиентами.

Speech-to-Text

Для этой задачи разметчику потребуется прослушать аудио и транскрибировать то, что он слышит. Такие размеченные данные часто используются в технологиях распознавания речи.

Сколько зарабатывает разметчик данных

Согласно данным сервисов по поиску работу, разметчик данных в России в среднем зарабатывает 38 тыс. руб., работая на полную ставку.

В среднем за неполный рабочий день (4 часа) разметчик может получать до 20 тысяч руб., хотя это зависит и от процента ошибок в работе: чем лучше выполнена разметка, тем выше оплата.

Также стоимость разметки будет отличаться на разных проектах: за проекты, где требуются уникальные навыки, а также за более сложные задачи по ML могут платить в два раза больше, чем за простую разметку. Так, за транскрибацию таджикского языка мы платили 240 руб. за час, за большинство простых CV проектов от 140 руб. в час.

Какие перспективы есть у разметчика данных

Во-первых, со временем разметчик обучается работать быстрее, качественнее выполнять задачи и может больше зарабатывать. Хороший совет тут  — практиковаться в одном направлении, к примеру, разметке изображений. Тогда вы сможете быстрее приспособиться, запомнить все горячие клавиши и найти свои приемы, чтобы ускорить работу.

Еще в профессии есть хорошая перспектива карьерного роста, как горизонтального, так и вертикального. Со временем разметчик может набраться опыта и управлять собственной командой на позиции тимлида. Для этого важно показать ответственность, проявлять интерес к работе, углубляться в свое направление и стараться учиться новому. А еще будет большим преимуществом, если вы знакомы с Microsoft Office, особенно таблицами Excel. Если вы проявляете инициативу, со временем ваш менеджер вас отметит и порекомендует на более высокую позицию.

В Data Light сейчас есть менеджеры, руководители направлений и даже сотрудники HR-отдела, которые начали свою карьеру с этой профессии. Другая опция для опытных специалистов — перейти в отдел контроля качества и проверять готовую разметку.

Пример вакансии тимлида по разметке данных:

Что должен уметь разметчик данных

Отсутствие опыта не является проблемой при устройстве на работу. Большинство разметчиков приходят к нам без опыта, но очень быстро разбираются в инструментах и ТЗ благодаря курсам и интенсивам.

Один из руководителей проекта в Data Light даже провел эксперимент: он показал обучающий курс своему 12-летнему сыну, а потом дал ему тест, который проходят все разметчики для доступа на проект. Мальчик посмотрел все обучение, с легкостью справился с финальным заданием, и, если бы не ограничения по возрасту для трудоустройства, смог бы работать разметчиком.

Хотя эту профессию легко освоить, чтобы добиться успеха в сфере, нужно обладать определенными навыками:
 

Высокий уровень ответственности и внимание к деталям: хотя встречаются и интересные, креативные проекты, разметка может быть очень монотонной работой. На протяжении нескольких часов нужно выполнять одно и то же действие, к примеру, размечать машины на дороге. Поэтому она подойдет усидчивым людям, которых не пугают однообразные задания.

Навыки работы с компьютером: для работы в разметке не нужно иметь опыт в IT или владеть специальными знаниями, но очень важно быть уверенным пользователем ПК.

Иногда на вакансии откликаются люди, которые почти не пользовались компьютером, к примеру, пенсионеры. Им намного сложнее приспособиться к программе, все задачи они выполняют в 3 раза медленнее коллег. Большинство таких асессоров самостоятельно покидают проект, так как не справляются с объемом работы и сроками.

Готовность работать с инструментами разметки данных: на проектах разметчик учится работать с инструментами разметки данных: создавать метки, аннотации, настраивать параметры разметки и использовать интерфейс для визуализации и проверки размеченных данных. Как правило, разметчики данных работают с таким софтом как CVAT, LabelImg, LabelMe,  Supervise.ly или Labelbox.

Навыки организации: это удаленная работа, поэтому разметчик сам должен организовать свой день и найти время, когда он сможет выполнить задачи.
 Обучаемость: разметчику придется работать с новыми программами и внимательно читать техническое задание к каждому проекту. Важно, чтобы исполнитель был готов учиться новому, прислушиваться к обратной связи менеджера и принимать ее во внимание. А если ваш проект закончился, нужно быть готовым заново читать ТЗ и учиться работать над необычными задачами, что может потребовать времени и сил.

Сложности, с которыми сталкиваются разметчики данных

Хотя этой профессии несложно обучиться, у нее есть своя специфика.

  1. Монотонность и усталость: разметка данных – это очень монотонный процесс. Такое длительное выполнение однотипных задач снижает концентрацию и утомляет исполнителей. Некоторые разметчики жалуются, что по ощущениям час работы часто тянется как целый день.
  2. Высокий уровень ответственности: точность разметки – это ключевой фактор успеха любой модели машинного обучения. Ошибки в разметке могут привести к снижению точности модели, что может повлиять на результаты конечного продукта, поэтому разметчику важно ответственно подходить к работе и не терять концентрацию.
  3. Специфика некоторых проектов: многие задачи по разметке данных требуют глубокого понимания контекста. Например, для разметки медицинских изображений или юридических текстов нужны специальные знания и навыки.

Автоматическая разметка vs разметчики: что ждет профессию в будущем

Некоторые могут задаться вопросом: но будет ли актуальна профессия разметчика в ближайшем будущем, если эту работу может выполнять искусственный интеллект? Давайте разберемся.

Конечно, искусственный интеллект уже несколько лет используется в разметке и с каждым годом справляется с ней все лучше. Если раньше мы очень много размечали лица на изображениях, то теперь это часто неактуально. Такие задачи в любой индустрии легко решают специальные модели. Даже на «КиноПоиск» сейчас появилась возможность просто нажать на паузу и навести на лицо персонажа. Программа автоматически найдет его в своей библиотеке актеров.

Для таких простых задач сейчас обычно используется автоматическая разметка, когда метки проставляет искусственный интеллект: это быстрее, дешевле и прекрасно подходит даже для больших объемов данных.

Но не стоит бояться, что автоматическая разметка отнимет работу у людей, ведь, чтобы система могла все это делать, ее нужно обучать. А обучается она только благодаря разметчикам, которые выполняют задачи правильно.

Кроме того, машина не всегда может выполнить эту работу так эффективно, как разметчик: она не всегда понимает контекст и плохо распознает эмоции людей. Поэтому на многие задачи требуются разметчики, чтобы проверять и исправлять уже готовую разметку.

Но, вероятно, в будущем разметчики будут более квалифицированными, так как для эффективной работы потребуется больше специальных знаний.

Как начать карьеру в разметке данных

Самый простой способ — связаться с Data Light. Для этого можно откликнуться на одну из наших открытых вакансий , а также написать на почту [email protected] или в Telegram: https://t.me/VolyevichO нашему HR-менеджеру.

После небольшой анкеты вам отправят ссылку на чат-бот, который позволит попробовать себя в разных типах разметки. По результатам теста каждого соискателя направят на проект, который подойдет ему лучше всего: на разметку изображений, текста, видео или транскрибацию. 

Но если хотите сначала попробовать себя в разметке и понять, насколько вам интересна сфера, то можете начать с этих простых шагов:

Ознакомиться с теоретической базой разметки данных

Хотя разметчику данных не требуется глубокое понимание всех аспектов машинного обучения, базовые знания в этой области будут полезны. 

Изучите основные концепции классификации, детекции объектов, сегментации изображений, чтобы понимать, какие именно данные могут потребоваться для обучения моделей машинного обучения.

Пройти онлайн-курсы или тренинги

Сейчас существует множество обучений и тренингов, посвященных Machine Learning. Найдите курсы, где готовят к работе с разметкой данных и пройдите их, чтобы освоить основные навыки и концепции. Например, Нетология разработала бесплатный курс по разметке данных для людей с ограниченными возможностями, а мы в Data Light подготовили серию вебинаров в рамках “Академии разметчиков”. 

Получить практический опыт

Помимо выполнения учебных проектов, попробуйте найти возможности для практического опыта работы с данными, чтобы понять, интересна ли вам сфера и подходит ли эта профессия. Это может быть стажировка в компании, занимающейся машинным обучением или выполнение задач на фрилансе, к примеру, на Toloka.

После приобретения навыков и опыта ищите вакансии разметчика данных в компаниях, занимающихся машинным обучением, анализом данных или в других организациях, использующих данные в своей деятельности. К примеру, мы публикуем все наши вакансии на HH.ru.

У вас все получится. Удачи!