Кейс: Сбор и разметка документов для распознавания текста

Всего за два месяца мы собрали и разметили 5.000 рукописных документов. Инновационный подход с краудсорсингом, Telegram-ботом и автоматической валидацией обеспечил высокое качество и точность данных.

ellipse
  • Данные:
    5000 документов
  • Сроки:
    2 месяца.
  • Задача:

    Когда мы начали проект, перед нами поставили интересную задачу: собрать и аннотировать 5000 рукописных документов для обучения системы распознавания текста. Цель клиента заключалась в создании модели, которая могла бы эффективно обрабатывать различные типы документов, включая трудовые книжки, заявления и служебные расписки. Всего на эту задачу у нас было два месяца.

    Ключевые требования к документам были такими:
    1. Максимальное разнообразие почерков.
    2. Минимизация ошибок и обеспечение высокого качества аннотированных данных.
    3. В основном использование рукописного текста по сравнению с печатным.
  • Решение:

    Подготовка шаблонов:

    Мы столкнулись с интересным вопросом: какие документы собирать? Сначала мы планировали использовать трудовые книжки для сбора данных.

    Это было бы удачной идеей: в них можно встретить большое количество почерков, что было особенно важно для заказчика. Мы хотели попросить участников отправлять первый разворот для проверки, а затем и остальные страницы. Однако из-за требований к защите персональных данных пришлось отказаться от этого подхода.

    Но мы нашли новое решение, которое решало проблему: участники переписывали заявление по подготовленному шаблону. Это позволило собрать нужное разнообразие почерков без использования личной информации, упростило процесс и обеспечило соблюдение конфиденциальности.

    Организация краудсорсинга:

    Мы разработали стратегию сбора данных с использованием краудсорсинга через платформу заданий и собственный Telegram-канал. Наши шаги включали:

    • Планирование заданий: Исполнители получали шаблоны документов для заполнения рукописным текстом.  Использование краудсорсинга обеспечило широкий спектр почерков
    • Оптимизация процесса: Исполнители, успешно выполнившие первое задание, могли продолжить работу с новыми документами, что увеличивало их вовлеченность и снижало вероятность ошибок.
    Решение проблем с персональными данными:

    Для соблюдения конфиденциальности мы изменили подход:использование шаблонов. Вместо реальных трудовых книжек предлагались безопасные для заполнения шаблоны документов.

    Разработка Telegram-бота:

    Мы создали Telegram-бота, который значительно улучшил взаимодействие с исполнителями:

    • Инструкции и обратная связь: Бот предоставлял четкие указания и давал обратную связь, что способствовало улучшению качества выполнения заданий.
    • Ускорение процесса: Интерактивность бота упростила передачу данных и взаимодействие, минимизируя ошибки.
    Платформа для автоматической валидации данных:

    Для повышения точности и эффективности мы интегрировали систему автоматической проверки:

    • Автоматическая проверка: Каждый присланный документ проходил проверку на соответствие требованиям.
    • Мониторинг и отчетность: Платформа предоставляла статистику в реальном времени, что позволяло отслеживать и корректировать процесс.
    Качество и контроль данных:

    Постоянный контроль: Регулярные проверки позволили избежать дублирования и фальсификаций.

  • Результаты:

    1. Объем:

      Собрано и аннотировано 5000 уникальных рукописных документов за два месяца. Причем качество данных, как отметил клиент, было очень высоким.

    2. Повышение конверсии:

      Внедрение Telegram-бота увеличило конверсию с 60% до 85%.

    3. Своевременное выполнение:

      Проект успешно завершен в срок. Заказчик остался доволен результатом и эффективностью взаимодействия.

Другие кейсы

Модерация комментариев для новостного портала

Благодаря сотрудничеству с Data Light клиент обеспечил эффективную и оперативную модерацию комментариев, что помогло улучшить качество дискуссий на портале.

Подробнее

Тайные проверки для выкупа смартфонов

Мы провели серию тайных проверок пунктов выкупа техники в городах по всей России, чтобы выявить нарушения в оценке устройств. 

Подробнее
Все кейсы

Оставьте
заявку

Мы обязательно
свяжемся с вами!
Дмитрий, менеджер по работе с клиентами Дмитрий,
менеджер по работе с клиентами
Дмитрий, менеджер по работе с клиентами

    Нажимая кнопку «Оставить заявку», я даю согласие на отправку и обработку своих персональных данных

    Ваша заявка успешно отправлена!

    Мы скоро свяжемся с вами для обсуждения деталей проекта