Кейс: Сбор и разметка документов для распознавания текста

Всего за два месяца мы собрали и разметили 5.000 рукописных документов. Инновационный подход с краудсорсингом, Telegram-ботом и автоматической валидацией обеспечил высокое качество и точность данных.

ellipse
  • Данные:
    5000 документов
  • Сроки:
    2 месяца.
  • Задача:

    Когда мы начали проект, перед нами поставили интересную задачу: собрать и аннотировать 5000 рукописных документов для обучения системы распознавания текста. Цель клиента заключалась в создании модели, которая могла бы эффективно обрабатывать различные типы документов, включая трудовые книжки, заявления и служебные расписки. Всего на эту задачу у нас было два месяца.

    Ключевые требования к документам были такими:
    1. Максимальное разнообразие почерков.
    2. Минимизация ошибок и обеспечение высокого качества аннотированных данных.
    3. В основном использование рукописного текста по сравнению с печатным.
  • Решение:

    Подготовка шаблонов:

    Мы столкнулись с интересным вопросом: какие документы собирать? Сначала мы планировали использовать трудовые книжки для сбора данных.

    Это было бы удачной идеей: в них можно встретить большое количество почерков, что было особенно важно для заказчика. Мы хотели попросить участников отправлять первый разворот для проверки, а затем и остальные страницы. Однако из-за требований к защите персональных данных пришлось отказаться от этого подхода.

    Но мы нашли новое решение, которое решало проблему: участники переписывали заявление по подготовленному шаблону. Это позволило собрать нужное разнообразие почерков без использования личной информации, упростило процесс и обеспечило соблюдение конфиденциальности.

    Организация краудсорсинга:

    Мы разработали стратегию сбора данных с использованием краудсорсинга через платформу заданий и собственный Telegram-канал. Наши шаги включали:

    • Планирование заданий: Исполнители получали шаблоны документов для заполнения рукописным текстом.  Использование краудсорсинга обеспечило широкий спектр почерков
    • Оптимизация процесса: Исполнители, успешно выполнившие первое задание, могли продолжить работу с новыми документами, что увеличивало их вовлеченность и снижало вероятность ошибок.
    Решение проблем с персональными данными:

    Для соблюдения конфиденциальности мы изменили подход:использование шаблонов. Вместо реальных трудовых книжек предлагались безопасные для заполнения шаблоны документов.

    Разработка Telegram-бота:

    Мы создали Telegram-бота, который значительно улучшил взаимодействие с исполнителями:

    • Инструкции и обратная связь: Бот предоставлял четкие указания и давал обратную связь, что способствовало улучшению качества выполнения заданий.
    • Ускорение процесса: Интерактивность бота упростила передачу данных и взаимодействие, минимизируя ошибки.
    Платформа для автоматической валидации данных:

    Для повышения точности и эффективности мы интегрировали систему автоматической проверки:

    • Автоматическая проверка: Каждый присланный документ проходил проверку на соответствие требованиям.
    • Мониторинг и отчетность: Платформа предоставляла статистику в реальном времени, что позволяло отслеживать и корректировать процесс.
    Качество и контроль данных:

    Постоянный контроль: Регулярные проверки позволили избежать дублирования и фальсификаций.

  • Результаты:

    1. Объем:

      Собрано и аннотировано 5000 уникальных рукописных документов за два месяца. Причем качество данных, как отметил клиент, было очень высоким.

    2. Повышение конверсии:

      Внедрение Telegram-бота увеличило конверсию с 60% до 85%.

    3. Своевременное выполнение:

      Проект успешно завершен в срок. Заказчик остался доволен результатом и эффективностью взаимодействия.

Другие кейсы

Сбор данных для задач антиспуфинга

Для крупной биометрической компании мы собрали 2 000 фотографий, необходимых для защиты от спуфинг-атак. Благодаря широкой базе исполнителей клиент получил данные быстро, все они соответствовали строгим стандартам качества.

Подробнее

Семантическая сегментация для разметки стен интерьеров

Мы помогли создать систему для автоматической разметки интерьеров, разметив 12 000 изображений с использованием методов семантической сегментации. Наш подход позволил повысить точность алгоритмов распознавания и ускорить процесс аннотации, что привело к улучшению классификации поверхностей и элементов стен.

Подробнее
Все кейсы

Оставьте
заявку

Мы обязательно
свяжемся с вами!
Дмитрий, менеджер по работе с клиентами Дмитрий,
менеджер по работе с клиентами
Дмитрий, менеджер по работе с клиентами

    Нажимая кнопку «Оставить заявку», я даю согласие на отправку и обработку своих персональных данных

    Ваша заявка успешно отправлена!

    Мы скоро свяжемся с вами для обсуждения деталей проекта