Rambler's Top100
 
 
Статьи
Алексей НОВАК  26 августа 2021

Искусственный интеллект в видеоаналитике. Реальные возможности

Благодаря использованию технологии машинного обучения для аналитической обработки видеоизображений организации действительно смогут вывести свою систему безопасности на новый функциональный уровень – но, вероятно, не так, как они представляют себе это сейчас. 

Искусственный интеллект – просто хорошая имитация

Применяемый в видеоаналитике искусственный интеллект в общих чертах можно описать как алгоритм машинного обучения, который обрабатывает видеоизображения или фотографии и распознает объекты на них, используя комбинации существующих визуальных характеристик. В этом, наверное, и коренится львиная доля заблуждений: мы привыкли воспринимать «интеллект» в контексте человеческого интеллекта, основанного на сознании, мышлении, креативности, – и стремимся наделить машину теми же качествами. К сожалению или к счастью, искусственный интеллект применительно к машине – это только имитация человеческого мышления. Он действует не самостоятельно и свободно, а лишь с помощью тех алгоритмов, которые в машину вложили. В случае глубокого обучения алгоритмы (нейросеть) создают новые знания на основе уже полученного и проанализированного материала.
 
Соотношение технологий искусственного интеллекта, машинного и глубокого обучения

Иными словами, научить машину обрабатывать изображения нетрудно, но заставить ее мыслить как человек и безошибочно распознавать объекты гораздо сложнее. Первая сложность заключается в создании большого объема релевантных данных. Пояснить это можно на простом примере. Допустим, мы загрузили изображение кошки и попросили машину воспринимать все похожие объекты как кошек. Но что будет, если машине предъявить кошку со стороны хвоста, кошку в траве, бегущее животное или только его голову? Для точного распознавания всех кошек алгоритму потребуется иметь как можно больше входных данных, вариаций одних и тех же объектов, а также признаков, по которым можно отличить кошку, например, от собаки или лисы. Более того, если кошка на какой-то части выборки будет случайно маркирована как собака, система в рабочем режиме может повести себя неадекватно. 

Программа обучения

Разработка аналитического приложения на основе машинного обучения состоит из нескольких этапов. В первую очередь необходимо четко определить цель приложения: скажем, распознавание людей или животных, транспортных средств и номерных знаков на них. Ведь даже для того, чтобы правильно считать номерной знак, система должна идентифицировать объект как транспортное средство (отличить его, например, от человека, несущего табличку с цифрами) и найти на нем область, где этот знак расположен. 

Один из самых трудоемких процессов – сбор большого объема данных, отдельных снимков и видеоматериалов и их аннотирование. Как правило, при машинном обучении оперируют несколькими тысячами изображений, а при глубоком обучении – миллионами. Аннотирование – это классификация и маркировка объектов. С целью исключения ошибок оно выполняется в основном вручную. Затем аннотированные данные загружаются в обучаемую модель, и она итеративно изменяется и оптимизируется до тех пор, пока не станет соответствовать поставленным задачам.

На определенных этапах обучения, а также по его окончании модель тестируют сперва в лабораторном режиме (загружают ранее не использованные данные и наблюдают за реакцией), а потом в условиях реальной нагрузки. Если результат проверки оказывается неудовлетворительным, то весь процесс, включая сбор обучающих данных, приходится начинать заново. Если же модель соответствует ожиданиям, переходят к этапу развертывания. В ходе него делают выводы и прогнозы в отношении выполнения обученной моделью своих функций в рамках системы видеонаблюдения с соответствующей производительностью. 

Чего мы не могли себе представить

Аналитике на основе искусственного интеллекта специалисты в области видеонаблюдения уже находят самые разные применения. Типичный пример – более точное распознавание транспортных объектов в системах управления трафиком, идентификация грузовиков, автобусов, автомобилей и мотоциклов, уменьшение количества ложных срабатываний (тревожных сигналов). Аналитический модуль также может зафиксировать движущийся объект на запрещенной для прохода территории, распознать в нем человека (а не животное) и выдать предупредительный сигнал.

Однако этим возможности машинного обучения не ограничиваются. Более того, это только начало. С развитием технологии, особенно на уровне глубокого обучения, мы сможем добиться от системы видеонаблюдения еще более интересных вещей. Система способна в течение долгого времени накапливать, обрабатывать и анализировать огромный объем данных – такой анализ физически невозможно произвести вручную – и выявить некие закономерности и аномалии в контролируемых процессах, о которых мы и не подозревали. Использовать такие системы можно не только для охраны, но и для мониторинга условий труда, улучшения сервиса, анализа бизнес-процессов, прогнозирования инцидентов (например, задымлений). 

К слову, в США медицинский алгоритм глубокого обучения Etemadi научился самостоятельно диагностировать рак легких гораздо точнее и на более ранних стадиях, чем если бы просто сопоставлял загруженные в модель снимки. Даже по этому примеру можно судить о том, насколько важны для общества исследования в области искусственного интеллекта, глубокого обучения, видеоаналитики, машинного зрения. 

Ограничения и перспективы видеоаналитики

Очевидно, что какую бы задачу видеоанализа на базе искусственного интеллекта мы ни рассматривали, обучение модели и ее работа должны основываться на наборе данных хорошего качества. Упомянутая выше медицинская система оперирует снимками компьютерной томографии, сделанными с высоким разрешением. Обычно же нам приходится иметь дело с видеокамерами и сценариями, которые не позволяют аналитической системе проявить весь заложенный в нее потенциал. 

Так, качество изображения зависит от расположения камеры, ее разрешения и светочувствительности, освещения и наличия хорошей подсветки в ночное время, воздействия внешних факторов – таких как падающие листья, дождь или снег. На точность распознавания влияют расстояние от камеры до объекта, скорость и направление его движения, а также настройка параметров записи. Известны случаи, когда камера обладала высоким разрешением, но все равно упускала часть объектов из виду – просто потому, что система анализировала кадры, сделанные с низкой частотой. Возможно, для полноценной работы видеоаналитики камеру придется настроить на непрерывную съемку, без какой-либо фильтрации исходной записи. Разумеется, нельзя недооценивать и постоянное обслуживание устройств, поскольку обычная грязь или паутина (бывает и такое) на объективе делают работу камеры бесполезной.

Многое зависит от производительности системы и качества сети, которая должна быть способной без задержек и сбоев передавать видеопоток. Сегодня, впрочем, мы больше ориентируемся на периферийную аналитику, когда вычисления производятся «на борту» камеры, а на сервер отправляется уже результат анализа – метаданные. Используемые камерой алгоритмы машинного обучения требуют от устройства больших вычислительных ресурсов. Нужная производительность достигается с помощью графических процессоров с особой архитектурой ядра и дополнительных специализированных модулей обработки данных с поддержкой технологий машинного и глубокого обучения.
 
Видеоанализ на основе технологий искусственного интеллекта и машинного обучения –несомненное будущее отрасли видеонаблюдения. Он даст возможность расширить функциональность и область применения систем видеонаблюдения, автоматизировать и качественно улучшить многие бизнес-процессы. Особую роль будет играть периферийная аналитика – она позволит в условиях потребления все большего объема данных оптимизировать системы хранения и снизить нагрузку на сетевую инфраструктуру.

Алексей Новак, инженер комплексных решений, Axis
Поделиться:
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!