Рубрикатор |
Статьи | ИКС № 2 2021 |
Сергей ПОБЕЖИМОВ  | 01 февраля 2021 |
Искусственный интеллект как поводырь
Один из путей к созданию «автопилота» для слабовидящих лежит через использование свойств пластичности человеческого мозга наряду с возможностями ассистивных технологий, опирающихся на искусственный интеллект.
Сегодня мы все чаще слышим об автономных автомобилях и других робототехнических устройствах, способных самостоятельно передвигаться даже по дорогам общего пользования. В них применяются системы машинного зрения на основе нейронных сетей, одного из наиболее продвинутых направлений ИИ. Эти системы осуществляют распознавание и идентификацию людей и предметов по фотографиям, изображениям с видеокамер и лидаров. Нельзя ли эти же технологии использовать для помощи слепым и слабовидящим?
Планирование траектории для автопилота робототехнического устройства схоже с задачей программного ассистента слабовидящего: необходимо определять местоположение человека/устройства и оценивать окружающую его среду, т.е. решать задачу одновременной навигации и построения карты (Simultaneous Localization and Mapping, SLAM). При этом подразумевается, что о среде нет никакой валидной информации. Можно использовать только бортовые приборы, фиксирующие изменения в окружающем пространстве. Для того чтобы перемещаться из начального положения в заданное, необходимо создать и все время поддерживать в актуальном состоянии карту местности и получать точную оценку траектории своего движения.
Ограничения использования нейронных сетей
Казалось бы, описанный подход может быть использован для помощи слабовидящим и можно ожидать, что скоро будет создан «умный» ассистент для них. Но пока никаких сообщений об испытаниях систем со схожим функционалом нет.
Почему? В качестве одной из причин можно назвать малую емкость рынка. Рынок (если иметь в виду количество слабовидящих и слепых людей) действительно невелик – около 300 млн человек во всем мире. Но, согласно тревожным данным ВОЗ, это число имеет устойчивую тенденцию к росту. Встречаются оценки об увеличении количества слепых и слабовидящих до 500 млн к 2030 году. Получается, что задача – во многом социального плана. Но тогда финансирование таких разработок это уже филантропия, а не бизнес. С точки зрения бизнеса – рынка нет, есть только социальная потребность.
Все верно, но посмотрим также на SLAM-решения. Чем ИИ-ассистент слабовидящего отличается от ИИ-автопилота робототехнических устройств? По функционалу только типом конечных – управляющих – команд. ИИ-автопилот вырабатывает команды для управления отдельными механизмами и блоками робота, а ИИ-ассистент синтезирует вербальные голосовые команды (рекомендации). Значит, разработки систем для управления беспилотным автомобилем в городе могут быть адаптированы для ИИ-ассистентов слабовидящих, а рынок робототехнических систем – это сотни миллиардов долларов.
Если бы этот вывод был верным, то на рынке, наверное, уже были бы прототипы или даже готовые решения для ИИ-ассистентов слабовидящих. В действительности автопилоты робототехнических устройств не очень подходят для создания «умных» ассистентов слабовидящих. И дело тут, скорее, в завышенных ожиданиях в отношении возможностей нейронных сетей.
Мозг работает по-другому
Чего же не умеют нейронные сети и как это неумение ограничивает возможности их использования в ИИ-ассистентах слабовидящих?
Исследователи Сергей Николенко, Артур Кадурин и Екатерина Архангельская сформулировали целый ряд различий в функционировании человеческого мозга и нейронных сетей. В своей книге «Глубокое обучение. Погружение в мир нейронных сетей» они пишут: «Во-первых, у человека еще в раннем детстве появляется понимание нескольких крайне важных для нормального функционирования основных предметных областей... Понимание того, как работает окружающий нас физический мир… Это нечто вроде логических рассуждений, построенных на модели физической симуляции... Модель эта, конечно, крайне приблизительная, …но достаточно точная для повседневных выводов и, главное, способна к очень мощным обобщениям и переносу на новые визуальные входы.
Во-вторых, люди очень хороши в том, что называется переносом обучения: мы можем быстро построить модель нового объекта или процесса, порождая правильные абстракции из очень малого числа обучающих примеров.
В-третьих, настоящим камнем преткновения для искусственного интеллекта остается причинность, т.е. способность распознавать и выделять “истинные причины” наблюдаемых эффектов, строить модели процессов, которые могли бы привести к таким наблюдениям. Когда человек смотрит на фотографию, в его воображении обычно создается некий нарратив, объясняющий происходящее на снимке как связанную последовательную историю. А когда нейронная сеть порождает подписи к фотографиям, ничего подобного не происходит; часто сеть корректно распознает все ключевые объекты на фото, но не может связать их правильным логическим образом».
Посмотрим, какое влияние эти ограничения оказывают на возможность создать ИИ-ассистента слабовидящего.
Нейронная сеть не понимает, что изображено на фотографии или видео с камеры. Для нее это всего лишь набор оттенков от белого до черного, которые сохраняются в виде градиентов цветов. И для того чтобы идентифицировать объект видео, нужно обработать миллионы пикселей, различая их по градиенту цвета, и запомнить верно опознанные сочетания. Нейронным сетям нужна память, чтобы хранить входные данные, весовые параметры и функции активации. Поэтому потребности в вычислительных ресурсах для этих систем очень велики.
Для реализации компьютерного зрения автопилотов робототехнических устройств более всего подходят сверточные нейронные сети (ResNet). Именно эти сети демонстрируют наилучшие показатели точности и быстроты. Однако их потребности в вычислительных ресурсах весьма велики. Например, 50-слойная сеть ResNet имеет около 26 млн весовых параметров и вычисляет 16 млн активаций в прямом направлении. Если для хранения каждого веса и активации использовать 32-разрядное число с плавающей запятой, то потребуется около 168 Mбайт. Дополнительная память также нужна для хранения входных данных, временных значений и инструкций программы. Замеры использования памяти при обучении ResNet-50 на высокопроизводительном графическом процессоре показали, что ей требуется более 7,5 Гбайт локальной DRAM-памяти.
Из этого можно сделать вывод: с ростом сложности задачи компьютерного зрения растет вычислительная сложность. Идентификация лица на фотографии несравнима по вычислительной сложности с распознаванием изображений на видео с нескольких камер автомобиля, движущегося со скоростью несколько десятков километров в час. Нейронная сеть автомобиля «Тесла» выполняет 35 млрд операций для обработки изображений с восьми камер со скоростью 2,1 тыс. кадров в секунду. Вычислитель «Теслы» – это компьютер, созданный специально для автопилота. Его характеристики вызывают уважение и одновременно понимание, что это не решение для слабовидящего. В автомобиле разместить специализированный вычислитель для работы нейронных сетей не проблема. Но слабовидящего с подобным ассистентом придется снабжать отдельным блоком размером с сумку или чемодан.
Тем не менее такие устройства уже тестируются. Идею превратить в ассистента чемодан, оснастив его необходимыми датчиками, предложила сотрудница IBM Japan Чиеко Асакава, имеющая проблемы со зрением. В проекте приняли участие несколько компаний – IBM Japan (ИИ), Alps Alpine (тактильные технологии), Omron (распознавание изображений и датчики), Shimizu (навигационная система) и Mitsubishi (технологии автоматизации).
Чемодан-поводырь Чиеко Асакавы
Чтобы принимать правильные решения при ориентировании человека в пространстве, нужно понимать ситуацию. Мозг обрабатывает поток зрительной информации не так, как нейронная сеть. Он в основном опирается на уже имеющиеся знания, которые помогают понять ситуацию даже при небольшом количестве зрительной информации. А для нейронной сети именно симуляция «понимания» – задача, требующая колоссальных ресурсов вычислителя и памяти, и не только в процессе обучения.
Отчасти эту проблему могут решить рекуррентные ассоциативные нейронные сети, которые можно обучить запоминанию образцов. Для этого приходится строить сложные комбинации из сетей различного типа. В результате вычислительная сложность еще больше увеличивается. Но именно по такому пути идут все лидеры в создании автопилотов – Tesla, Goolgle и пр.
Возможно, нейронные сети в чистом виде действительно не подходят для нашей задачи. Возможно, более подходящим окажется гибридное решение. Кроме того, нужно обратить внимание на человеческую способность к забыванию, которая позволяет не хранить в памяти устаревшую информацию. Так можно будет уменьшить объем требуемых для работы ИИ вычислительных ресурсов, повысив при этом скорость принятия решений.
Примером движения в этом направлении, правда, без решения задач машинного зрения может быть робот, который учится во взаимодействии со средой. Для того чтобы научиться выполнять простые задачи, ему не нужны дополнительные данные.
RealAnt: четвероногий робот с открытым исходным кодом для исследований в области обучения с подкреплением
В гибридной системе нейронная сеть будет делать то, что она умеет лучше всего, – решать задачу компьютерного зрения. А вот «осмысление» изображения можно переложить на семантическую сеть. Тогда запоминать огромное количество данных не придется. Конечно, обучение такой гибридной сети останется процессом долгим, требующим огромных вычислительных мощностей и больших наборов данных и, возможно, даже более ресурсоемким, чем обучение нейронной сети.
Нужна семантическая сеть
Но дело не только в ограниченности вычислительных ресурсов. Необходимо извлечь данные из нейронной сети и создать на их основе семантическую сеть окружающего пространства, на которой каждый объект получит соответствующие смысловые метки, перестав быть просто набором цветовых градиентов.
Автомобиль с закрепленным на нем велосипедом важно распознать как один объект
Например, нейронная сеть автопилота «Тесла» учится различать идущий впереди автомобиль с велосипедом, закрепленным на заднем бампере, принимая сначала один объект за два – собственно автомобиль и велосипед. Если данные организованы в семантическую сеть, смысловая нагрузка редуцируется из двух объектов в один и, следовательно, в режиме эксплуатации не требуется дополнительное «узнавание». Самое важное здесь –именно редуцирование. Вследствие такого редуцирования отпадает необходимость в получении и обработке детального изображения. Фиксируются лишь основные признаки.
Представим себе, что детальная семантическая сеть, описывающая все возможные виды рекламных щитов, стягивается в один-единственный узел с меткой «рекламный щит». Вычислительная сложность в режиме эксплуатации кардинально уменьшится, и значит, при использовании сравнительно недорогих вычислительных ресурсов скорость обработки и принятия решений об управлении повысится.
Подобная модель создается в Массачусетском технологическом институте под руководством Луки Карлона, доцента кафедры аэронавтики и астронавтики. «Чтобы принимать какие-либо решения, нужно иметь мысленную модель окружающей вас среды, – говорит Лука Карлон. – Люди справляются с этим легко. Но роботам очень трудно преобразовать значения пикселей, которые они видят через камеру, в понимание мира».
Унифицированное представление пространственного восприятия в модели 3D Dynamic Scene Graphs
В МТИ разрабатывается модель представления пространственного восприятия 3D Dynamic Scene Graphs, с помощью которой робот может быстро создать 3D-карту своего окружения, включающего объекты и их семантические метки (например, стул против стола), а также людей, комнаты, стены и другие видимые им конструкции. Модель также позволит роботу извлекать соответствующую информацию из 3D-карты, запрашивать местоположение объектов и помещений или движение людей на своем пути. «По сути, мы даем роботам ментальные модели, аналогичные тем, которые используют люди», – поясняет Лука Карлон.
Пока модель работает в тестовом режиме в фотореалистическом симуляторе. В нем все окружение робота представляется в виде сцен с разным уровнем детализации от mesh-сети изображений, принятых камерой, до отдельных объектов, снабженных семантическими метками.
Возможно, будущее именно за такой технологией, в которой нейронные сети выполняют задачу машинного зрения и фиксации окружающей среды, а интерпретатор, использующий семантическую сеть как базу данных (знаний), хранящую «смысловую нагрузку объектов», вырабатывает команды управления.
Предлагаемый подход
ИИ-ассистента слабовидящего предлагается реализовать в виде системы поддержки принятия решений (СППР). Эта система, основу которой составит единая интеграционная программная платформа (ИПП), соединит в себе сильные стороны нейронных и семантических сетей и будет опираться как на свойства пластичности головного мозга, так и на достижения ассистивных технологий.
Пластичность мозга позволит с помощью специальных алгоритмов заменить зрение слухом (восприятием изменяющегося по частоте и амплитуде звука) и/или тактильной чувствительностью (восприятием изменяющегося вибрационного воздействия на кожу). Для ориентации слабовидящего в пространстве будут задействованы его координаты, технологии машинного зрения и трехмерная модель окружающего пространства.
Принципиальная схема решения для слабовидящих на основе ИПП
Такая система может предоставлять слабовидящему дружественный интерфейс со звуковыми командами (рекомендациями) на естественном языке. Она может служить резервной и страхующей системой помощи, особенно на первом этапе обучения работе с модулями альтернативного зрения (звукового и/или тактильного).
Подобный ИИ-ассистент слабовидящий может использовать для самостоятельного обучения звуковому и тактильному зрению при помощи специально разработанной методики в качестве замены работы с методистом. Это существенно повысит мобильность слабовидящего. Ассистивная технология, которая переводит изображение окружающей среды в текст, транслируемый через наушники, позволит слабовидящему сразу ориентироваться и самостоятельно передвигаться в пространстве до полного освоения звукового и/или тактильного зрения.
Архитектура решения
Конструктивно комплекс может состоять из следующего оборудования и программного обеспечения:
- смартфон с установленной в него ИПП;
- голосовой ассистент с дружественным интерфейсом;
- наушники с закрепленным на них лидаром;
- очки с двумя встроенными и максимально широко разнесенными камерами;
- GPS-навигатор, возможно, в смартфоне;
- акселерометр в смартфоне;
- жилет, перчатки или надеваемые на предплечья манжеты с встроенными вибраторами;
- трость с камерой, встроенной в утолщение.
Все устройства по беспроводному каналу связи соединены со смартфоном для передачи в ИПП генерируемой информации.
Система будет строиться по модульному принципу. Интеграционная программная платформа будет связывать компоненты в единое целое, подключая к системе различные модули управления робототехническими устройствами и модули нейропластики. Кроме того, она будет обладать самостоятельной функциональностью.
С помощью камер и лидаров ИПП будет строить 3D-модель окружающего пространства, а с помощью инерционных датчиков (гироскопов и акселерометров) уточнять местоположение слабовидящего в привязке к карте этой 3D-модели. Важной особенностью ИПП должна стать семантическая сегментация визуального контента (изображений, получаемых с камер, и облака точек, получаемых с лидаров). ИПП будет не просто строить 3D-модель окружающего пространства, но и делать его смысловую оценку, присваивая семантические метки всему, что окружает слабовидящего. Таким образом, ИПП будет строить метрико-семантическую 3D-модель окружающего пространства, давая описания не только с помощью координат, но и в терминах улиц, зданий, помещений и объектов.
Еще одной важной особенностью этой модели будет возможность опознавать и помечать не только статичные объекты, но и движущиеся, как-то люди, животные, транспортные средства, подвижные элементы интерьера. Для движущихся объектов будут определяться траектории их движения.
Такую модель будет легко понять человеку, поскольку это не просто информация «до препятствия такое-то расстояние». Модель не только облегчит ориентацию в пространстве, но и будет способствовать более точному принятию решений, например, выбору оптимального маршрута передвижения. Метрико-семантическая модель будет разбиваться на отдельные слои, и слабовидящий будет получать описание окружающего пространства в разных ракурсах, т.е. полную смысловую картину окружающего мира.
Для семантической сегментации будут использоваться нейронные сети, обученные на начальном этапе на открытых наборах данных. Для известных объектов могут заранее готовиться компьютерные модели с помощью CAD-систем. Неизвестные объекты будут «отрисовываться» посредством центроидов и ограничивающих контуров. Точно детектировать объект не всегда возможно, поэтому ИПП будет давать вероятностную оценку того, какова ее «уверенность», что объект определен правильно.
Доносить до слабовидящего информацию, собираемую в метрико-семантической модели, ИПП может как с помощью интерфейса в виде ассистента, способного к генерации аудиосообщений, так и через каналы модулей нейропластики с целью формирования «альтернативного зрения» при помощи аудио- или тактильного сенсорного замещения.
Подобную ИПП можно использовать и для управления робототехническим устройством. Наличие семантической модели позволяет вырабатывать команды для определения траектории движения устройства в режиме реального времени с определением цели движения, препятствия на пути движения и оценкой возможного влияния этого препятствия на выбранный маршрут для того, чтобы определить вероятность выбора альтернативного маршрута. В этом случае из системы (см. рисунок) модули 1, 2 и 6 изымаются, а модуль 5 заменяется на генератор управляющих команд автопилота робототехнического устройства. Команды будут формироваться в нотациях, принятых для программного обеспечения управляющего роботом.
Создание интеграционной программной платформы с использованием искусственного интеллекта, реализованного на основе нейронных сетей, позволит адаптировать подходы, применяемые в разработках ИИ для машинного зрения, для ассистивной помощи слабовидящим, а также для создания робототехнических систем, ориентирующихся в пространстве без человеческого вмешательства и управления. Наличие подобных систем существенно повысит социализацию и уровень благополучия слабовидящих.
В перспективе может быть разработано ПО для эффективного распознавания окружающего пространства и окружающих объектов. В качестве направления развития рассматривается создание полноценной семантической сети, которая постоянно совершенствует модель окружающей среды с целью повышения точности не только распознания объекта, но и качества смысловой оценки этого объекта и его потенциальных возможностей влиять на окружающую
среду.
Заметили неточность или опечатку в тексте? Выделите её мышкой и нажмите: Ctrl + Enter. Спасибо!
Читайте также:
Специфика сетей для искусственного интеллекта
ЦОД-2024. Инфраструктура для облака
Искусственный интеллект в здравоохранении: от анализа медицинских снимков к расшифровке СЭМД
Серверы для ИИ: что предлагают российские производители
Экосистемы и сервисы ИБ станут основными драйверами роста выручки российской телеком-индустрии