Preview

Вестник Концерна ВКО «Алмаз – Антей»

Расширенный поиск

Некоторые результаты экспериментального исследования прототипа автономной инфракрасной системы распознавания наземных объектов

https://doi.org/10.38013/2542-0542-2021-1-93-102

Полный текст:

Аннотация

Представлены результаты экспериментов с прототипом автономной инфракрасной системы распознавания наземных объектов на базе отечественных физических компонентов и открытой архитектуры сверточной нейронной сети YOLOv3. Объект распознавания – легковой автофургон. Нейронная сеть обучена на наборе изображений, снятых в видимом диапазоне. Анализируются инфракрасные видеокадры неидеального качества, снятые на двигающемся и вибрирующем воздушном носителе – октокоптере.

Для цитирования:


Мальцев А.И., Откупман Д.Г., Осташенкова В.К., Останин М.В. Некоторые результаты экспериментального исследования прототипа автономной инфракрасной системы распознавания наземных объектов. Вестник Концерна ВКО «Алмаз – Антей». 2021;(1):93-102. https://doi.org/10.38013/2542-0542-2021-1-93-102

For citation:


Maltsev A.I., Otkupman D.G., Ostashenkova V.K., Ostanin M.V. Experimental study of a prototype for an autonomous infrared system for ground object recognition. Journal of «Almaz – Antey» Air and Space Defence Corporation. 2021;(1):93-102. https://doi.org/10.38013/2542-0542-2021-1-93-102

Введение

Развитие теории и практики сверточных нейронных сетей (Convolutional Neural Network) обеспечило значительный прогресс алгоритмов автоматического распознавания объектов для различных гражданских и военных приложений. Типичный процесс построения системы распознавания с алгоритмом на базе нейронной сети предполагает наличие базы (dataset) изображений с маркированными (labeled) типовыми объектами в различных ракурсах и условиях. Алгоритм нейронной сети, реализованный в виде программы для ЭВМ, настраивается для обнаружения и распознавания заданного типа объектов путем обучения (training) на большой базе изображений объектов, распознавание которых должна обеспечить система. Предполагается, что изображения должны быть сняты в том же диапазоне, в котором будет работать приемная часть системы распознавания. Однако для инфракрасной (ИК) области спектра подходящие наборы изображений, особенно для объектов, представляющих интерес в военных приложениях, малодоступны или имеют ограниченный объем и часто сняты в неподходящем ракурсе. Поэтому представляет интерес исследование возможностей распознавания при использовании базы изображений другого диапазона.

Применение различных архитектур сверточных нейронных сетей в системах, работающих в ИК диапазоне, было исследовано рядом авторов. В том числе в [1] было рассмотрено применение различных архитектур, обученных на наборе данных видимого диапазона и на наборе данных, предоставленных компанией FLIR. Однако в статье не рассматривалась возможность использования архитектуры YOLO.

Для того чтобы заранее рассмотреть все возможности архитектуры YOLOv3, авторами данной статьи были изучены материалы, представленные в [2][3]. Однако, несмотря на схожесть исследований с нашим исследованием в части обучения известной архитектуры YOLOv3 на наборе изображений видимой области электромагнитного спектра для применения в ИК системах, в большинстве зарубежных публикаций основное внимание уделяется распознаванию людей, что не представляло интереса для нас, к тому же в известных публикациях не уделено внимание анализу результатов обработки видеопотока, снятого с колеблющегося и вибрирующего носителя.

В доступных отечественных публикациях представленный в настоящей работе подход также не отражен. Рассматриваются либо автоматические тепловизионные системы распознавания с другими архитектурами, либо иные средства распознавания [4][5].

Основная часть

Проведено экспериментальное исследование прототипа автономной системы распознавания наземных объектов со стороны верхней полусферы, построенной на основе приемной части (объектив, матрица) длинноволновой части ИК диапазона и алгоритма распознавания на базе нейронной сети. Для практической реализации приемной части выбраны отечественные компоненты компании «ОКБ «Астрон» [6] – микроболометрический модуль на оксиде ванадия с разрешением 640×480, шагом 17 мкм и беззатворной калибровкой, а также тепловизионный германиевый объектив с пассивной атермализацией, фокусным расстоянием 100 мм, относительным отверстием 1:1,4 и качеством изображения близким к дифракционному пределу. Приемная часть с аппаратурой передачи данных размещалась на беспилотном летательном аппарате (БЛА) – октокоптере. Упрощенная схема эксперимента представлена на рисунке 1. Общий вид полетной части экспериментального оборудования представлен на рисунке 2.


Рис. 1
. Упрощенная схема эксперимента

Рис. 2
. Трехмерная модель беспилотного носителя с аппаратурой

Для разработки алгоритма распознавания выбрана описанная в открытых источниках архитектура сверточной нейронной сети YOLO (You Only Look Once), обеспечивающая распознавание множественных объектов на изображениях и работающая с многочисленными классификациями объектов. По сравнению с другими известными архитектурами YOLOv3 является одной из наиболее точных и быстродействующих [7].

Если говорить о теоретических основах работы алгоритма YOLOv3, то стоит упомянуть, что классификатор любой сверточной нейронной сети обычно при каждой интерпретации делает предположение того, какой тип объекта находится в окне. Для каждого изображения приходится выполнять большое количество прогнозов, характеризуемое четырехзначными числами. В связи с этим работа алгоритма проходит довольно медленно. Именно эту отрицательную черту помогает устранить архитектура YOLO, преимущество которой в том числе отражено в названии – «You Only Look Once».

Сверточная нейронная сеть YOLO использует все изображение для предопределения каждой ограничивающей рамки (bounding box). Она также прогнозирует все рамки для каждого класса изображений одновременно. Это означает, что YOLO за один раз анализирует все изображение и все объекты, присутствующие на нем. Этот факт становится ключевым для продолжительности обработки кадра. Подтверждением преимуществ варианта архитектуры YOLOv3 является график, представленный на рисунке 3, где показано быстродействие YOLOv3 в сравнении с другими известными архитектурами. Как следует из данных, приведенных на рисунке 3, при обучении на одном и том же наборе данных COCO dataset и при сравнимой средней точности обнаружения объекта (mAP – mean Average Precision) YOLOv3 превосходит остальные рассмотренные сети по скорости нахождения объекта.

Для создания специализированной программы, реализующей нейронную сеть, выбран высокоуровневый язык программирования Python с дополнениями в виде открытых библиотек (модулей) для научных вычислений, глубокого обучения и компьютерного зрения (NumPy, TensorFlow, Keras, OpenCV).

В качестве объекта наблюдения был выбран легковой автофургон (4150×1960× 1820 мм).

Для выбора оптимальной дальности распознавания объекта определенного размера можно воспользоваться упрощенным критерием, рассмотренным в [8]:

где L – дальность распознавания (дистанция до объекта), м;
v = 58,82 1/мм – пространственная частота;
f ' = 100 мм – фокусное расстояние;
hкр = 2,7 м – критический размер объекта;
N – количество активных элементов (пикселей), шт.

На рисунке 4 приведена определенная в геометрическом приближении зависимость дальности обнаружения нашего объекта от числа пикселей разрешения, заданного критерием обнаружения.


Рис. 4
. Теоретическая зависимость дальности обнаружения от заданного критерием обнаружения числа пикселей разрешения на изображении объекта при критическом размере объекта 2,75 м. Зависимость получена для выбранной конфигурации приемной системы в геометрическом приближении

Исходя из допущения о разрешении, заведомо достаточном для обнаружения рассматриваемого объекта, а также исходя из удобства работы на площадке, выбранной для экспериментов, съемку объекта наблюдения было решено проводить с борта БЛА на дальности около 250 м. Для того чтобы оценить вероятности распознавания объекта на других дальностях, полученные исходные изображения обрабатывались путем объединения пикселей разрешения, кратного изменению дальности.

Представленные ниже результаты съемок получены в дневное время на фоне подстилающей поверхности типа «неоднородный луг – грунтовая дорога». Объект наблюдения (автофургон) в процессе съемки разворачивался, соответственно менялся ракурс наблюдения объекта. Начальный и конечный кадры необработанной (без цифровых улучшений) видеозаписи наблюдаемого сюжета в длинноволновой части ИК диапазона представлен на рисунке 5.


Рис. 5
. Начальный и конечный кадры съемки сюжета с объектом наблюдения

В связи с отсутствием доступных достаточно объемных баз изображений объектов в длинноволновой части ИК диапазона обучение нейросети проводилось по открытой базе изображений видимого диапазона COCO dataset [9] с маркированными объектами типов «автомобиль», «автобус», «грузовой автомобиль». Отметим, что создатели YOLO предоставляют открытый исходный код и подробное описание для обучения собственной модели на различных наборах данных, в том числе на наборе данных COCO dataset [10]. Таким образом, при обучении использовались изображения видимого диапазона форматом 416×416, количество которых составляло более 10 000, точность распознавания при обучающей выборке составляла более 0,8 (80 %).

Обученной таким образом программе, реализующей нейросеть, предъявлялись кадры видеосюжета с объектом, разворачивающимся от положения «сверху под углом – в лоб» до положения «сверху под углом – в борт». Программа обнаруживала объект на кадре и распознавала его, определяя тип объекта из набора «автомобиль», «автобус», «грузовой автомобиль» и оценивая вероятность распознавания типа объекта (рис. 6).


Рис. 6
. Визуализация процесса распознавания для одного из кадров. Над рамкой, которой выделен обнаруженный объект, показан тип объекта, распознанного на кадре с максимальной вероятностью, и значение вероятности

Соответственно, для типа «автомобиль» это будет вероятность правильного распознавания, а применительно к двум другим типам – вероятность принятия действительного объекта за объект другого типа, то есть вероятность ложного распознавания. Для иллюстрации того, как меняются точечные оценки вероятностей от кадра к кадру при развороте наблюдаемого объекта, был построен график, на котором ось абсцисс – номер кадра, ось ординат – вероятность. Пример, поясняющий структуру графика, приведен на рисунке 7.

Следует отметить сильный разброс оценок вероятности от кадра к кадру при достаточно устойчивом характере аппроксимирующих оценок, что свидетельствует о целесообразности накопления оценок по нескольким кадрам для повышения вероятности правильного принятия решения алгоритмом распознавания, реализуемом в конечном изделии.

Результаты обработки последовательных кадров от положения «в лоб» до положения «в борт» представлены на рисунке 8.

Для оценки вероятности распознавания объекта на дальностях 500 и 1000 м проводилась цифровая обработка полученного видеофайла с целью имитации увеличения дальности наблюдения (объединение 2×2 и 4×4 соседних пикселей изображения в кадре с усреднением яркости). Результаты анализа для обработанных последовательностей кадров представлены на рисунке 9.

Сравнение результатов, представленных на рисунках 8 и 9, показывает, что при увеличении дальности (ухудшении разрешения) происходит существенное снижение вероятности правильного распознавания объекта при неблагоприятном ракурсе наблюдения.

Для качественной иллюстрации этого в таблице для разных дальностей приведены результаты линейной аппроксимации оценки вероятности в начале анализируемой записи при расположении «сверху под углом – в лоб» и для конца записи при расположении «сверху под углом – в борт».

Таблица

Результаты линейной аппроксимации вероятности правильного распознавания для разных дальностей и ракурсов наблюдения

Для проверки работоспособности обученной программы распознавания в сложной фоновой обстановке при наличии дрожаний камеры и «смаза» изображения была проведена видеосъемка сюжета пригородной застройки «одно-двухэтажные дома – заборы – дороги с покрытием – легковые автомобили» при произвольных движениях БЛА – носителя аппаратуры. Фрагмент полученной видеозаписи в исходном виде и с обнаруженными программой распознавания объектами приведен на рисунке 10.


Рис. 10
. Фрагмент видеозаписи сюжета «одно-двухэтажные дома – заборы – дороги с покрытием – легковые автомобили»: а) исходная видеозапись; б) видеозапись с распознаванием.

Реализованный в программе распознавания алгоритм сети продемонстрировал в условиях смаза и дрожания уверенное распознавание визуально хорошо различимого на фоне объекта. Но даже более важным представляется то, что, во-первых, была получена ненулевая оценка вероятности правильного распознавания в сложных фоновых условиях визуально плохо различимого объекта (ближе к левому верхнему углу картинки), и, во-вторых, ни разу комбинация контрастных фоновых участков не была принята за искомый объект.

Выводы

1. Разработан прототип автономной системы распознавания наземных объектов на основе отечественного матричного приемника длинноволновой части ИК диапазона, отечественного объектива и программы, реализующей алгоритм сверточной нейронной сети с архитектурой типа YOLOv3, взятой из открытых источников.

2. Экспериментальное исследование разработанного прототипа видеосъемкой с воздушного носителя и последующей наземной обработкой кадров показало его работоспособность, т.е. способность, при размещении на движущемся воздушном носителе, выдавать ИК изображения с разрешением, достаточным для обнаружения и распознавания заданного объекта, а также способность программы распознавания обеспечивать распознавание типа объекта.

3. Нейронная сеть, обученная на наборе изображений типовых объектов в видимом диапазоне, показала достаточно высокую вероятность распознавания объектов на изображениях, полученных в длинноволновой части ИК диапазона, что упрощает подготовку баз изображений при разработках реальных прикладных устройств.

4. Обработка видеопотока, снятого с воздушного носителя, подверженного колебаниям и вибрациям, показала наличие существенного разброса оценок вероятности распознавания объекта для соседних кадров видеосъемки, поэтому при разработке алгоритма функционирования реального прикладного устройства целесообразно проводить совместную обработку серии последовательных кадров с накоплением оценки вероятности.

5. Созданный прототип системы распознавания в составе приемной части, выполненной на отечественной элементной базе, и открытого алгоритма сверточной нейронной сети YOLOv3 может служить основой для решения прикладных задач, в том числе для разработок координаторов, способных автономно обнаруживать заданные объекты.

Список литературы

1. Devaguptapu Ch., Akolekar N., Sharma M.M., Balasubramanian V.N. Chaitanya Devaguptapu Borrow from Anywhere: Pseudo Multimodal Object Detection in Thermal Imagery [Electronic resource] // IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshop (CVPRW). 2019. 10 p. URL: https://www.semanticscholar.org/paper/Borrow-From-Anywhere%3A-Pseudo-Multi-Modal-Objectin-Devaguptapu-Akolekar/b95ce8e6249302e9f-4c88248ab587f43760d88b1 (date of request: 01.10.2020). DOI: 10.1109/CVPRW.2019.00135

2. Kristo M., Ivasic-Kos M., Pobar M. Thermal Object Detection in Difficult Weather Conditions Using YOLO // IEEE Access. 2020. Vol. 8. P. 125459–125476. DOI: 10.1109/ACCESS.2020.3007481

3. Ivašić-Kos M., Kristo M., Pobar M. Human detection in thermal imaging using YOLO // Conference Paper. April, 2019. 5 p. URL: https://www.researchgate.net/publication/333360405 (date of request: 01.10.2020). DOI: 10.1145/3323933.3324076

4. Мингалев А.В., Белов А.В., Габдуллин И.М., Агафонова Р.Р., Шушарин С.Н. Распознавание тест-объектов на тепловизионных изображениях // «Компьютерная оптика». 2019. Т. 43, № 3. С. 402–411. DOI: 10.18287/2412-6179-2019-43-3-402-411

5. Фомичева О.А., Стреляев С.И. Методы распознавания ИК-изображения // Известия ТулГУ. Технические науки. 2018. Вып. 11. С. 207–213.

6. Оптико-механическое конструкторское бюро «Астрон»: сайт. – МО, г. Лыткарино, 2020. URL: https://astrohn.ru (дата обращения: 01.09.2020).

7. Redmon J., Farhadi А. YOLOv3: An Incremental Improvement. 8 April, 2018. arXiv:1804.02767v1 [cs.CV]. URL: https://arxiv.org/pdf/1804.02767.pdf (date of request: 01.09.2020).

8. Якушенков Ю.Г., Тарасов В.В. Инфракрасные системы «смотрящего» типа. М.: Логос, 2004. 444 с.

9. COCO – Common Objects in Context: website. 2015. URL: https://cocodataset.org (date of request: 01.09.2020).

10. Survival Strategies for the Robot Rebellion: website. 2015. URL: https://pjreddie.com/ (date of request: 01.09.2020).


Об авторах

А. И. Мальцев
Публичное акционерное общество «Научно-производственное предприятие «Импульс»
Россия

Мальцев Андрей Иванович – кандидат технических наук, старший научный сотрудник, главный научный со
трудник – заместитель главного конструктора. Область научных интересов: высокоточное вооружение, системы самонаведения.

Москва, Российская Федерация



Д. Г. Откупман
Публичное акционерное общество «Научно-производственное предприятие «Импульс»; Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский государственный университет геодезии и картографии» (МИИГАиК)
Россия

Откупман Дмитрий Григорьевич – старший инженер-исследователь; преподаватель кафедры оптико-электронных приборов. Область научных интересов: синтез оптических систем, тепловидение, компьютерное зрение, фотоника, лазерная техника.

Москва, Российская Федерация



В. К. Осташенкова
Публичное акционерное общество «Научно-производственное предприятие «Импульс»
Россия

Осташенкова Виктория Константиновна – инженер-исследователь. Область научных интересов: инфракрасная техника, искусственные интеллектуальные системы.

Москва, Российская Федерация



М. В. Останин
Публичное акционерное общество «Научно-производственное предприятие «Импульс»
Россия

Останин Михаил Васильевич – начальник отдела. Область научных интересов: инфракрасная техника, оптико-электронные системы, лазерная дальнометрия.

Москва, Российская Федерация



Рецензия

Для цитирования:


Мальцев А.И., Откупман Д.Г., Осташенкова В.К., Останин М.В. Некоторые результаты экспериментального исследования прототипа автономной инфракрасной системы распознавания наземных объектов. Вестник Концерна ВКО «Алмаз – Антей». 2021;(1):93-102. https://doi.org/10.38013/2542-0542-2021-1-93-102

For citation:


Maltsev A.I., Otkupman D.G., Ostashenkova V.K., Ostanin M.V. Experimental study of a prototype for an autonomous infrared system for ground object recognition. Journal of «Almaz – Antey» Air and Space Defence Corporation. 2021;(1):93-102. https://doi.org/10.38013/2542-0542-2021-1-93-102

Просмотров: 1082


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2542-0542 (Print)