Cистема обнаружения препятствий на железной дороге, основанная на Semi-supervised Segmentation и оптических потоках
В связи с быстрым развитием высокоскоростных поездов обеспечение безопасности железнодорожных систем стало одной из важнейших общественной проблемой. Одной из основных задач является обнаружение препятствий, которое играет решающую роль в обеспечении безопасности на железной дороге. Разработка надежной и масштабируемой системы обнаружения препятствий позволит машинистам и диспетчерам принимать упреждающие меры и предотвращать возможные аварии. Методы глубокого обучения получили широкое распространение в различных сферах безопасности, включая мобильные платежи, обнаружение стихийных бедствий и мошенничество. Эта технология открывает широкие возможности для повышения безопасности на железных дорогах за счет сложных возможностей обнаружения препятствий. В последнее время значительные усилия были направлены на обнаружению препятствий с помощью методов глубокого обучения. Хотя эти подходы достигли определенных успехов, они также имеют заметные недостатки:
- Неустойчивость к сложным условиям окружающей среды
- Требование обширных ручных аннотаций
- Сложность расширения для различных сценариев Рисунок 1. Схема создания синтетических данных с использованием SAM и YOLO для извлечения целевых объектов из галереи и наложения их на базовое изображение (в частности, на изображение железной дороги).
SAM (Segment Anything Model) — это продвинутая модель сегментации изображений, разработанная для выполнения задач сегментации в компьютерном зрении. Модель обучена на большом количестве изображений с использованием различных методик аннотации и сегментации, что позволяет ей эффективно распознавать и выделять объекты. SAM универсальна и способна работать с изображениями из различных областей и с различными типами объектов. Это делает ее полезной в разнообразных применениях — от медицинской диагностики до анализа спутниковых снимков. SAM построен на основе современных архитектур глубокого обучения, таких как свёрточные нейронные сети (CNN) и трансформеры, что обеспечивает высокую точность и производительность. Модель может быть использована в интерактивных приложениях, где пользователи могут настраивать и корректировать сегментацию в реальном времени, улучшая конечный результат.
YOLO (You Only Look Once) — это метод обнаружения объектов в изображениях и видео в реальном времени, который использует глубокое обучение. YOLO является одной из самых популярных и эффективных моделей для задач компьютерного зрения. Основная концепция YOLO заключается в том, что модель рассматривает все изображение за один проход. В отличие от других методов, таких как R-CNN, которые проходят несколько этапов обработки, YOLO выполняет обнаружение объектов в один этап, что значительно ускоряет процесс. Одним из ключевых преимуществ YOLO является его скорость. Благодаря своей архитектуре, YOLO может обрабатывать изображения в реальном времени, что делает его идеальным для применения в системах, требующих быстрой реакции, таких как автономные транспортные средства, системы видеонаблюдения и робототехника. Разработка расширяемой модели без аннотаций с высокой способностью к обобщению остается важной задачей как в как в промышленности, так и в научных кругах. Чтобы смягчить проблему нехватки данных, используют SAM и YOLO для создания высокореалистичных псевдоизображений для обучения. Вместо того чтобы вручную собирать и аннотировать изображения пиксель за пикселем, готовят два набора изображений: базовые изображения (менее 100 фоновых изображений, на которых аннотированы только участки железной дороги) и изображения объектов аннотированные) и изображения объектов. Изображения объектов включают такие категории, как пешеходы, животные и текстуры.
Используя SAM и YOLO, получают маски для предполагаемых объектов на этих изображениях. Затем эти объекты накладываются на базовые в соответствии с масками. Весь процесс показан на рис. 1. Этот процесс одновременно генерирует пары изображений и масок без ручного труда Для решения проблем, связанных с изменением погодных условий реализуют две взаимодополняющие стратегии. Во-первых, мы собирают базу данных базовых изображений, сделанных при различных погодных условиях, включая дождливую, туманную и ясную (солнечную) погоду. Во-вторых, используют оптический поток для получения информации о местоположении в качестве предварительного получения данных. Для прогнозирования оптического потока генерируют псевдопоследовательности препятствий. Для этого создается начальный псевдокадр в точке Pi(x, y) и последующую генерацию нового кадра в точке Pi+1(x + δ, y + δ) с наложенным на него тем же объектом. Экспериментальные результаты показывают, что подход обеспечивает удовлетворительную производительность в различных погодных сценариях. Решение этой задачи сводится к следующему: — Формулируют задачу обнаружения препятствий как задачу бинарной проблему сегментации, различая железнодорожные и нежелезнодорожные районы. — Представляют простой, но эффективный механизм генерации данных для синтеза реалистичных изображений с помощью SAM и YOLO. — Оптический поток используется для генерирования предварительных данных которые направляют сеть сегментации.
2. Сопутствующие работы
2.1. Обнаружение препятствий на железнодорожных путях
Многие специалисты предлагают обучать неглубокую сеть для обучения сегментации железных дорог на обычных изображениях. Они исследуют контролируемое включение глобальной информации путем обучения на изображениях без препятствий. Или объединяют модель сегментации с LiDAR в своей системе обнаружения препятствий и предлагают модели без контроля, основанные на большом наборе сгенерированных конволюционных автокодирующих моделей для обнаружения препятствий на уровне железнодорожного полотна.
2.2. Сегментация с помощью оптического потока
Специалисты использующие оптические потоки демонстрируют эффективность совместной оптимизации оптического потока и сегментации видео с помощью итерационной схемы:
- Совместная оптимизация: Одновременная оптимизация оптического потока и видео сегментации.
- Итеративная схема: Использование итеративного подхода для улучшения результатов, где выводы из одного процесса используются для улучшения другого.
- Архитектура Video Object Segmentation: Разработка архитектуры, которая сочетает различные методы для сегментации объектов на видео.
- Memory-based matching: Использование памяти для сопоставления информации об объектах между кадрами.
- Motion-guided propagation: Направляемая движением пропагация, которая помогает сохранять временную согласованность и стабильность модели в течение длительного времени.
3. Метод
Процесс проиллюстрирован на Рисунке 2. Имея набор базовых изображений B и целевых изображений T, наша цель заключается в выявлении потенциальных препятствий в определённых областях η. В отличие от традиционных методов обнаружения, которые категорически обнаруживают каждое препятствие, мы переформулируем задачу как задачу бинарной сегментации. Вместо того чтобы пытаться обнаружить все потенциальные препятствия, что является непрактичным, мы делаем акцент на сегментации железнодорожной области, региона, который остаётся постоянным со временем по сравнению с препятствиями. Чтобы эффективно моделировать эти сценарии, мы создаем высокореалистичные псевдоизображения, используя метод копирования-вставки. Кроме того, чтобы справиться с проблемами, вызванными экстремальными погодными условиями, которые могут затруднить сегментацию объектов, мы вводим оптический поток для предоставления предварительной информации, направляющей модель сегментации. Псевдоизображения It и It+δ создаются путем применения небольшого смещения δ к целевому объекту, имитируя его движение. Выходной сигнал модели оптического потока включается вместе с псевдоизображениями в качестве входных данных для облегчения точных прогнозов. В этом разделе будет подробно рассмотрена методология, применяемая на протяжении всего процесса.
Рисунок 2: Схема предложенного метода.
3.1. Сбор данных
Базовые изображения, используемые в экспериментах, собираются на объекте в Чэнду, который включает железнодорожный участок протяженностью более 60 метров и симуляторы условий тумана и дождя. Для обеспечения разнообразия в нашем наборе данных мы захватываем изображения в разных погодных условиях, а именно в дождливую, туманную и солнечную погоду (Рис. 3). Из-за фиксированного положения камеры для аннотации требуется только одна маска. Важно отметить, что железнодорожные участки на базовых изображениях не содержат никаких потенциальных препятствий. Все присутствующие препятствия создаются с использованием метода копирования-вставки.
Рисунок 3: Примеры базовых изображений, отображающие различные погодные условия. Слева направо изображения иллюстрируют сцены, захваченные в условиях тумана, нормальной погоды и дождя.
Набор данных изображений объектов Для обеспечения полностью автоматизированного применения методологии мы исходим из предположения, что маски изначально отсутствуют. Мы сосредоточены на выборе категорий, которые могут встречаться в нашем сценарии, таких как животные (например, олень, лошадь, корова) и транспортные средства (например, грузовик). Это гарантирует, что наш подход адаптирован для эффективной обработки соответствующих объектов.
Рисунок 4: Примеры сгенерированных пар изображение-маска. Слева направо: пешеход, животное и текстура.
Весь процесс можно разделить на последовательные шаги: Изначально изображения объектов подаются на вход модели YOLO, которая возвращает список ограничивающих прямоугольников, идентифицирующих обнаруженные цели. Эти ограничивающие прямоугольники служат входными данными для SAM, которая генерирует маски сегментации для выделения пикселей объекта. Впоследствии эти сегментированные пиксели объекта интегрируются в базовые изображения на основе руководства маски сегментации. Здесь мы подробно описываем методологию.
Обнаружение объектов с помощью YOLO: Изображения объектов подаются на вход модели YOLO, специально обученной на Obj365 (крупномасштабный набор данных изображений, который используется для обучения моделей компьютерного зрения), для обнаружения объектов, принадлежащих к заранее определенным целевым категориям, соответствующим нашему сценарию.
Сегментация с помощью SAM: Ограничивающие прямоугольники из YOLO используются в качестве подсказок для SAM для генерации масок сегментации. Эти маски выделяют пиксели объекта, облегчая их извлечение из изображений объектов.
Интеграция с базовыми изображениями: Извлеченные пиксели объекта плавно интегрируются в соответствующие области базовых изображений в соответствии с руководством, предоставляемым масками сегментации. На этапе SAM, хотя не каждая маска сегментации достигает совершенства, каждая из них вносит вклад в общую цель точной сегментации железнодорожной зоны, а не фокусируется на препятствиях. Для решения проблем, связанных со сценариями распределения вне данных (OOD), мы вводим генерацию случайных полигонов с рендерингом текстур из DTD. Кроме того, применяется изменение размера и масштабирование объектов для обогащения содержимого изображения и повышения устойчивости модели. Масштабирование выполняется по следующей формуле:
(1)\[ h = \alpha \cdot y + \beta \](2) \[ w = \frac{h}{H} \cdot W \] где \( h \), \( w \) и \( H \), \( W \) — размеры целевого объекта и исходного объекта соответственно. \( \alpha \) и \( \beta \) — это гиперпараметры для регулировки масштаба. В нашем проекте мы установили \( \alpha \) равным 0.6 и \( \beta \) равным 30. Эти значения должны изменяться в зависимости от положения камеры и её параметров. Окончательные сгенерированные образцы показаны на Рисунке 4.
3.2. Оптический поток
Оптический поток основывается на предположении, что интенсивность точки на изображении остаётся постоянной при её перемещении с одного кадра на другой. (3)\[ I(x, y, t) = I(x + \Delta t, y + \Delta t, t + \Delta t) \] В данном сценарии мы используем модель RAFT (Recurrent All-Pairs Field Transforms), которая демонстрирует высокую производительность в широком диапазоне масштабов от малых до крупных объектов. Размеры препятствий в нашем наборе данных варьируются от сотен пикселей до менее 50 пикселей. Использование модели RAFT требует двух последовательных кадров для оценки оптического потока. Соответственно, мы генерируем два псевдоизображения \( I_t \) и \( I_{t+1} \), где те же целевые объекты вставлены с небольшим смещением позиции (4)\( \eta \). \[ Motion = \phi(I_t, I_{t+1}) \] (5) \[ I_{t+1} = I_t(obj_{x} + \Delta x, obj_{y} + \Delta y) \] Мы устанавливаем диапазон \(\Delta x\) и \(\Delta y\) от 5 до 10. Прогноз движения будет использоваться как априорная информация, совмещенная с псевдоизображением для обучения модели.
4. Эксперименты
4.1. Набор данных и метрики оценки
Набор данных: Тренировочный набор данных состоит из трех частей: obs person, obs animals и obs textures, а именно препятствия в виде людей, животных и препятствия, созданные из текстурных полигонов. Подробности описаны ниже: Для тестового набора данных мы повторно собираем изображения с различными препятствиями в разных погодных условиях и на различном расстоянии от камеры. Метрики: Для оценки производительности нашей модели используется mIoU. mIoU означает среднее значение пересечения на объединение (Mean Intersection over Union), что является широко используемой метрикой в задачах сегментации. Она может быть рассчитана следующим образом: (7)\[ mIoU = \frac{1}{N} \sum_{i=1}^{N} \frac{|A_i \cap B_i|}{|A_i \cup B_i|} \] (6) \[ IoU_i = \frac{TP_i}{TP_i + FP_i + FN_i} \] (8) \[ Pixel\_accuracy = \frac{N_{corr}}{N_{total}} \] где
— количество правильно классифицированных пикселей, а — общее количество пикселей.4.2. Детали реализации
Данный метод реализован с использованием фреймворка PyTorch, а модель обучается на GPU RTX 4070Ti. В качестве функции потерь мы выбираем Jaccard loss, а в качестве оптимизатора — AdamW. Размер батча установлен на 8, а количество эпох — на 20. Преобразования данных включают горизонтальное отражение, грубое исключение и случайные настройки яркости и контрастности.
Name | Volume | Dis (m) | Category |
---|---|---|---|
obs_person | 4000 | 0-70 | person |
obs_animal | 4000 | 0-70 | cow, horse, deer |
obs_texture | 2000 | 0-70 | see DTD |
val_near | 200 | 0-20 | person, rock, board |
val_middle | 200 | 20-50 | person, rock, board |
val_far | 200 | 50-70 | person, rock, board |
4.3 Результаты
Для проверки эффективности нашего подхода мы проводим эксперименты на трёх наших собственных наборах данных: val near, val mid и val far. Подробности описаны в Таблице 1. Базовый тренировочный набор данных содержит 10,000 изображений (4,000+4,000+2,000). Для полного оценки влияния количества сгенерированных изображений мы увеличиваем размер набора данных на 10% и 50% в строках 4 и 5. Результаты показаны в Таблице 2, которые демонстрируют, что как подходы, основанные на RAFT, так и подходы на основе сегментации, могут эффективно сегментировать препятствия в наших экспериментах на железнодорожной территории. Комбинирование RAFT и псевдоизображений улучшает производительность модели. С добавлением большего количества сгенерированных изображений в тренировочный набор данных, производительность модели постепенно достигает своего предела.
Method | val_near | val_mid | val_far |
---|---|---|---|
yolov5 | 0.744 | 0.623 | 0.457 |
Raft | 0.717 | 0.636 | 0.585 |
DeepLab | 0.825 | 0.817 | 0.747 |
DeepLab+Raft | 0.843 | 0.828 | 0.709 |
DeepLab+Raft+10% | 0.837 | 0.843 | 0.724 |
DeepLab+Raft+50% | 0.863 | 0.851 | 0.802 |
4.4. Исследование методом исключения
Мы проводим эксперименты методом исключения, чтобы оценить влияние различных целевых объектов. Результаты представлены в Таблице 3. Сравнивая строки 1, 2, 3 со строкой 4, можно увидеть, что каждый набор данных obs вносит вклад в повышение устойчивости и точности модели.
obs_person | obs_animal | obs_texture | mIoU |
---|---|---|---|
✓ | ✓ | ✗ | 0.781 |
✓ | ✗ | ✓ | 0.817 |
✗ | ✓ | ✓ | 0.732 |
✓ | ✓ | ✓ | 0.849 |
5. Заключение
В данной работе представлена универсальная модель сегментации, основанная на полунезависимом подходе. Для решения проблем, связанных со сценариями вне распределения (OOD — это обозначения данных, которые значительно отличаются от тех данных, на которых модель обучалась. Иными словами, это данные, которые не принадлежат к той же статистической популяции, что и тренировочные данные.), мы генерируем высокореалистичные псевдоизображения вместо использования ручной пиксельной аннотации. Дополнительно, мы повышаем производительность, интегрируя техники оптического потока. Экспериментальные результаты демонстрируют удовлетворительную производительность при работе с различными потенциальными объектами.
(Материал на основании A Universal Railway Obstacle Detection System based on Semi-supervised Segmentation And Optical Flow Qiushi Guo CSRD)