
Что такое 3D-кубоид?
3D-кубоид — это объемная рамка в форме прямоугольного параллелепипеда, которая используется для разметки объектов в трехмерном пространстве. Такая рамка полностью охватывает объект, учитывая его ширину, высоту и глубину. Благодаря этому нейросеть точнее распознает размер и положение размеченного объекта относительно других элементов сцены.
Каждый кубоид задается восемью ключевыми точками — по одной на каждом углу. Эти точки определяются координатами по трем осям:
- X — положение объекта относительно горизонтальной оси.
- Y — положение объекта по вертикальной оси.
- Z — координата, отвечающая за глубину, то есть удаленность объекта от точки наблюдения.
Также при аннотации указывается угол поворота кубоида относительно осей. Это важно для того, чтобы алгоритм понимал, как именно объект ориентирован в пространстве.

В отличие от ограничивающих рамок (bounding boxes), часто применяемых в разметке двумерных изображений, 3D-кубоиды позволяют моделям воспринимать объекты именно как объемные тела. Это особенно важно для задач, связанных с автономным транспортом, робототехникой и дополненной реальностью.
Где используются 3D-кубоиды?
3D-кубоиды — это основа для детекции объектов в компьютерном зрении. Алгоритмы машинного обучения используют размеченные данные, чтобы научиться находить и классифицировать объекты в окружающем мире. Чем точнее разметка, тем лучше нейросети справляются с задачами распознавания и анализа.
Разметка 3D-кубоидами используется как для двухмерных изображений, так и для трехмерных данных.
3D-кубоиды в разметке 2D-изображений
В этом случае размечаются обычные изображения или видео. Хотя такие данные являются плоскими, аннотация с помощью 3D-кубоидов помогает алгоритму точнее оценить пространственное расположение объекта, его глубину и угол поворота.
3D-кубоиды в разметке 3D-объектов
Для этого типа разметки используются данные, которые изначально объемны. Это могут быть облака точек, полученные с помощью лидаров (LiDAR), виртуальные среды или симуляции.
Однако такие сцены могут быть сложными для загрузки. Объемы данных зачастую настолько велики, что требуют значительных вычислительных ресурсов и могут перегружать компьютер. Поэтому для работы с 3D-кубоидами необходимы как мощное оборудование, так и специальные методики предварительной обработки данных.
Например, уменьшение плотности облаков точек, уменьшение размера сцены, путем разделения ее на несколько частей, оптимизация форматов и т. д. Все это помогает снизить нагрузку на систему, упростить визуализацию и обеспечить корректную работу инструмента разметки.
Применение 3D-кубоидов
Автономный транспорт

В беспилотных автомобилях точность оценки расстояний и ориентации объектов является критически важной. Разметка 3D-кубоидами позволяет нейросетям распознавать и отслеживать другие транспортные средства, пешеходов, дорожные знаки и препятствия. Благодаря этому система автономного вождения способна принимать правильные и безопасные решения в реальном времени.
Робототехника

Роботы должны хорошо понимать пространственное расположение объектов и людей вокруг себя. Аннотация 3D-кубоидами помогает им точно определять, где находятся препятствия и предметы, с которыми предстоит взаимодействовать. Это делает возможными точную навигацию и эффективное выполнение задач роботами в складской логистике, промышленности и медицине.
AR/VR
В AR- и VR-приложениях важно максимально реалистично вписывать виртуальные объекты в реальный мир. 3D-кубоиды позволяют системам более точно понимать реальные физические размеры и расположение предметов в пространстве. Благодаря этому виртуальные элементы естественно выглядят и взаимодействуют с окружением.
Картография
В современной картографии и геоинформационных системах (ГИС) трехмерные модели городских пространств, зданий и рельефа помогают более точно отображать территорию и анализировать ее особенности. Разметка 3D-кубоидами упрощает работу с объемными объектами — например, сооружениями или элементами инфраструктуры, — позволяя автоматически определять их пространственные координаты и форму.
Как размечать изображения с помощью 3D-кубоидов?
Процесс аннотирования изображений с помощью 3D-кубоидов состоит из нескольких последовательных шагов:
1. Выбор инструмента для разметки
Аннотация 3D-кубоидами выполняется в специальных инструментах, поддерживающих объемную разметку.
- CVAT (Computer Vision Annotation Tool). Поддерживает разметку кубоидами в 2D и 3D-данных (фото, видео, облака точек LiDAR). Удобный интерфсейс для командной работы и контроля качества разметки.
- Supervisely. Облачная платформа с широким набором функций для разметки изображений, видео и облаков точек. Поддерживает аннотацию 3D-кубоидами, включая работу с LiDAR-данными.
- Label Studio. Гибкий инструмент с открытым исходным кодом, поддерживающий различные типы аннотаций, включая 3D-кубоиды для изображений и видео. Подходит для небольших проектов и кастомизации под собственные задачи.
- Labelbox. Одна из наиболее популярных платформ для профессиональной разметки данных. Поддерживает 3D-кубоиды на фото, видео и LiDAR-данных, обеспечивает высокую точность и автоматизацию.
- V7 Labs. Продвинутый инструмент с интуитивно понятным интерфейсом и мощными функциями автоматизации. Отлично подходит для аннотации данных с камер и лидаров, используемых в автономном транспорте.
2. Определение объекта для аннотации
Загрузив изображение в выбранный инструмент, на нем выбирают объект, который нужно разметить. Например, автомобиль на дороге, человека в помещении, мебель в комнате и так далее.
3. Настройка координат кубоида
На изображении вручную задаются ключевые точки, которые определяют границы кубоида. Обычно это 8 точек — по одной на каждый угол параллелепипеда. После установки точек задается ориентация, длина, ширина и высота кубоида относительно координатных осей X, Y и Z.
4. Проверка и коррекция
Кубоид внимательно проверяют, убеждаясь, что он плотно и точно охватывает объект. При необходимости проводят корректировку положения точек или размеров кубоида.
5. Экспорт аннотаций
После завершения разметки данные сохраняются и экспортируются в подходящем формате (например, JSON, XML, Datumaro 3D, Kitty Raw Format, Sly Point Cloud Format и другие).
Основные вызовы при работе с 3D-кубоидами

- Высокие требования к оборудованию
Работа с трехмерными данными может перегружать даже современные компьютеры. Для быстрой и корректной визуализации, а также удобной разметки 3D-объектов, зачастую требуется мощная видеокарта и достаточный объем оперативной памяти. Если аппаратные ресурсы ограничены, приходится идти на компромиссы (уменьшать разрешение, разрезать сцены на мелкие фрагменты), что повышает сложность реализации проекта.
- Трудоемкость
Ручная расстановка 3D-кубоидов требует больше времени и внимания по сравнению с обычной 2D-разметкой, так как необходимо учитывать глубину и ориентацию каждого объекта.
- Точность и согласованность разметки
Разные аннотаторы могут устанавливать кубоиды неодинаково, особенно если объект сложной формы. В результате появляется риск несогласованности и ошибок, которые снижают качество данных и последующего обучения моделей.
- Работа с закрытыми и частично видимыми объектами
Сложно точно определить границы кубоида, если объект частично закрыт другим предметом или находится под сложным углом. В таких случаях часто возникают ошибки и необходимость уточнения ТЗ.
Например, в одном из проектов мы столкнулись с тем, что изображения имели нестандартный наклон, а выбранный инструмент не позволял гибко настраивать форму кубоида. Решением стало использование полилиний для прорисовки только отдельных граней кубоида, что позволило сохранить необходимую точность разметки, несмотря на сложный ракурс.
- Ограниченность автоматизации
Несмотря на развитие полуавтоматических инструментов, аннотация 3D-кубоидами все еще во многом зависит от ручного труда. Полностью автоматизированные решения часто не обеспечивают достаточной точности, особенно в сложных сценах.
Эти вызовы делают работу с 3D-кубоидами трудоемкой, но при грамотном подходе и правильной организации процессов результаты оправдывают вложенные усилия.
Ключевые выводы
3D-кубоид — это объемная «рамка», которая полностью охватывает объект с учетом его высоты, ширины и глубины. В отличие от обычных 2D-боксов, он дает моделям машинного обучения и компьютерного зрения больше информации о положении, координатах, форме и габаритах объектов.
Несмотря на то, что аннотация 3D-кубоидами — трудоемкий процесс, ее преимущества очевидны: модели машинного обучения лучше понимают реальные пропорции и координаты предметов, что делает их работу точнее и эффективнее.