Реконструкция изображения: 1 км оптоволокна, искусственная нейронная сеть и глубокое обучения

Реконструкция изображения: 1 км оптоволокна, искусственная нейронная сеть и глубокое обучения

В наше время оптические волокна стали неотъемлемой частью самых разных сфер жизни человека: от домашнего интернета до эндоскопии. Использование оптических волокон обусловлено целым рядом преимуществ: скорость передачи, физическая прочность, пропускная способность, информационная безопасность и т.д.

Дабы увеличить пропускную способность было создано многомодовое оптоволокно (MMF), когда информация передается по нескольким параллельным каналам. Несмотря на все свои достоинства, MMF имеет и ряд недостатков, один из которых исследователи решили ликвидировать, дабы усовершенствовать процесс передачи изображений. Суть такова: когда образец проецируется на проксимальную сторону MMF, изображение, которое мы получаем на дистальной стороне, представляет собой спекл, поскольку его входящие данные распределяются по множеству мод с разной степенью распространения вдоль длины волокна. Ученые предлагают использовать комбинацию многомодового волокна и глубокое обучение для искусственных нейронных сетей, чтобы получать точные изображения, в том числе и при использовании эндоскопии. Давайте покопаемся в отчете исследователей и попробуем понять как это работает и какие дает результаты. Поехали.

Основа исследования

Техники использования искусственных нейронных сетей для расшифровки изображений, переданных через MMF, разрабатывались уже давно. Так в ранних работах описывалась двухслойная сеть, способная распознать около 10 изображений, прошедших через 10 метров ступенчатого волокна.

В данном же исследовании система гораздо сложнее, но и, по заявлению ученых, гораздо эффективнее. Начальным этапом был сбор большого числа образцов спеклов, полученных путем пропускания изображения через MMF. Они стали базой знаний для обучения DNN (искусственная нейронная сеть на базе глубокого обучения*).


Пример спекл-изображения

Глубокое обучение* — комбинация методов машинного обучения на базе представления, а не специализированного алгоритма под конкретную задачу.

Архитектура DNN весьма сложна и насчитывает порядка 14 скрытых слоев*.

Скрытый слой* — искусственная нейронная сеть состоит из вычислительных единиц (нейронов), которые делятся на 3 категории: входные, скрытые и выходные. Входные принимают информацию, скрытые производят различные вычисления, а выходные передают информацию дальше.

Для проведения экспериментов над DNN была создана база из 20 000 вручную написанных цифр. Далее базу в случайном порядке разделении на группы:

  • 16 000 цифр — тренировочная;
  • 2 000 цифр — проверочная;
  • 2 000 цифр — тестовая.

Подготовка к эксперименту

На изображении ниже представлена схема оптической системы, которая использовалась для сбора данных.


Изображение №1: схема установки:
Laser source — источник лазерного излучения (луча);
HWP — полуволновая пластина;
M1 — зеркало;
SLM — пространственный модулятор света;
P — линейный поляризатор;
L — линза;
BS — разделитель луча;
OBJ — объектив микроскопа;
OF — оптическое волокно;
CCD — ПЗС-камера.

А теперь по порядку. Лазерный луч с длиной волны 560 нм направляет свет через градиентное оптоволокно* с диаметром сердцевины 62.5 мкм и числовой апертурой* 0.275.

Градиентное MMF* — оптоволокно с неоднородным профилем преломления, когда коэффициент преломления плавно уменьшается от края к оси волокна.
Сравнение типов оптоволокна: ступенчатое многомодовое, градиентное многомодовое и одномодовое (сверху вниз).

Числовая апертура* — синус максимального угла между лучом и осью. При этом есть полное внутреннее отражение при распределении излучения по волокну.

При конкретной длине волны волокно способно поддерживать порядка 4500 пространственных мод. Входные образцы (изображения) отображаются на пространственном модуляторе света, после чего перенаправляются посредством 4f-системы на проксимальную (близкую к центру) грань MMF. На дальнем конце волокна другая 4f-система визуализирует спекл, исходящий из дистальной (дальней от центра) грани волокна, на ПЗС-камеру.

ПЗС* — прибор с зарядовой связью, в котором реализована технология управляемого переноса заряда в объёме полупроводника.

Для проверки фазовых и амплитудных моделей, как входных сигналов для градиентного MMF, до SLM была установлена полуволновая пластина, а после SLM — линейный поляризатор.

Как уже было сказано ранее, в качестве образцов выступали вручную написанные цифры. Они были взяты из базы MNIST.

Прежде чем быть обработанным DNN, каждое из изображений, записанное на CCD1 или CCD2, обрезалось до размеров 1024 × 1024 пикселя. Далее полученные изображения спеклов уменьшались до размеров 32 × 32 пикселя и использовались как входные для DNN.

Реконструкция изображения: 1 км оптоволокна, искусственная нейронная сеть и глубокое обучения
Изображение №2

На изображениях и 2b мы видим образцы цифр (0 и 4). и 2d это те же цифры, но после амплитудной модуляции, когда изменениям была подвержена именно амплитуда передаваемого сигнала. и 2f — цифры-образцы после фазовой модуляции, когда фаза несущего колебания изменялась прямо пропорционально сигналу. Также мы видим сами спеклы, которые были зафиксированы на дистальной грани волокна после прохождения расстояния в 2 см.

Отличить спеклы (2g и 2h) достаточно сложно. Однако если сопоставить изображения 2d и 2h (для примера рассматриваем образец «4»), то можно вычленить отличие, которое DNN может определить (2i). Тем самым эти отличительные черты позволят системе отличить «0» от «4», «2» от «9» и т.д.

Обработка данных

Основой системы определения спеклов и реконструированных входных изображений стала свёрточная нейронная сеть* типа «Visual Geometry Group (VGG)» (3a).

Свёрточная нейронная сеть* — архитектура ИНС, отличающаяся операцией свертки, когда каждый фрагмент изображения умножается на матрицу свертки поэлементно, после чего результат суммируется и записывается в аналогичную позицию выходного изображения.

Пример архитектуры свёрточной нейронной сети.

Внедрение подобной системы позволило расшифровывать изображения с большей точностью. Для реконструкции изображений использовался «U-net» тип свёрточной нейронной сети с 14 скрытыми слоями (3b).


Изображение №3

Напомним, что база цифр из 20 000 была разделена на три группы (16 000 — тренировка, 2 000 — проверка и 2 000 — тест).

Группа тренировки обрабатывалась партиями по 50 штук для сети реконструкции и по 500 для сети определения. При этом партии менялись, чтобы избежать переобучения*.

Переобучение* — случай, когда система хорошо обрабатывает примеры из обучающей выборки, но плохо справляется с примерами из тестовой.

Дабы минимизировать среднеквадратическую ошибку был использован алгоритм оптимизации со скоростью обучения 1 х 10-4.

Сети проходили этап тренировки не дольше 50 эпох (циклы обратного распространения). Для каждого случая тренировка повторялась 10 раз для того, чтобы собрать статистические данные точности обучения системы.

Все DNN были реализованы на базе одного графического процессора NVIDIA GeForce GTX 1080Ti при помощи библиотеки Python TensorFlow 1.5.

Результаты исследования

Реконструкция

Первым параметром, который решили подробнее рассмотреть ученые, стала способность системы реконструировать входные данные.

На изображении выше представлены результаты реконструкции цифр (0…9), после прохождения данных через волокно длиной 0.1 м, 10 м и 1000 м.

Как мы видим, результат процедуры очень точный, что подтверждает способность системы U-net вычленять предельные отличительные особенности будущего изображения.

Также была проверена и степень точности реконструкции. Этот показатель уменьшается с увеличением длины волокна с 96.9% (0.1 м) до 90.0% (1000 м).

Снижение точности связано с тем, что при длине волокна в 1 км, в нем возникают температурные неоднородности (расширение материала из-за тепла и/или изменение показателя преломления), которые изменяют оптический путь сигнала. Эти процессы приводят к тому, что рисунок спекла на дистальном конце становится нестабильным, от чего его сложнее реконструировать в необходимое изображение.

Исследователи отмечают, что внешнее воздействие на волокно также снижает степень точности реконструкции изображений. Посему при дальнейшем совершенствовании системы оптоволокно должно быть обеспечено термоизоляцией и изотермической средой для достижения максимального уровня точности реконструкции.

Процедура реконструкции также отлично нивелирует артефакты на обрабатываемом изображении.

К примеру, система вычленяет изображение () с дистального спекла (2g), параллельно убирая дефекты, проецируемые на проксимальную грань волокна ( и ). Кроме того, система старается ликвидировать артефакты, возникшие ввиду загрязненности или дефектов образца или структурных неточностей самого волокна.

Класификация цирф-образцов

Воссоздать изображение система может, а точность этого процесса весьма впечатляюща. Теперь перейдем к анализу того, насколько точно система способна определить где какое изображение (цифра), то есть классифицировать данные после их реконструкции.

С графика и таблицы выше видно, что точность классификации снижается при увеличении длины задействованного в передаче волокна. Подобная тенденция была и с точностью реконструкции. Независимо от того, амплитудная модель или фазовая, точность падает. При 2 см волокна — точность 90%. Это хороший показатель, но уж слишком короткое волокно. А вот при длине в 1 км точность падает до 30%. Исследователи связывают это с увеличением потерь рассеяния, связностью мод и дрейфом дистального спекла. Все эти «помехи» вызваны увеличением длины волокна.


Изменения дистального спекла

Запись была сделана с частотой кадров 83 fps. В качестве эксперимента по волокну в 1 км было передано пустое изображение.


(а) и (b) — 2 кадра, взятые из записи выше, (с) — их сравнение.

Эти кадры были записаны с разницей в 2 секунды. И как мы видим на изображении (с), разница между ними весьма существенна. Подобные резкие изменения спекла могут быть связаны с температурными флюктуациями окружающей среды либо воздушными потоками над устройством (изображение №1), что может вызывать небольшие возмущения волокна. Но когда длина волокна увеличивается, то сила таких возмущений становится ощутима.

Получается, что вся работа системы будет напрасна из-за этих «помех». Однако ученых не останавливают подобные сложности, а наоборот подстегивают их к размышлениям.

Было решено провести исследование смещения спеклов и как они влияют на точность классификации изображений. Для этого сеть VGG обучалась на базе 10 000 образцов (половины из имеющихся), далее проводилось тестирование, но уже с другой половиной образцов. Процесс повторяли, меняя 2 группы образцов местами. Результаты показали, что значительных изменений в точности классификации нет, поскольку смещение спеклов не случайно, а это значит, что ИНС способна его изучить, запомнить и определить в процессе работы.

Разница между амплитудной и фазовой модуляцией была незначительна. При длине волокна 10 м и фазовой модуляции классификация была чуть лучше, чем при амплитудной модуляции. Это обусловленно более равномерным распределением света по модам оптоволокна. При амплитудной модуляции число задействованных в передаче мод ограничено ввиду выборочного пространственного возбуждения волокон.

Если рассматривать вариант волокна длинной 1 км, то амплитудная модуляция уже превосходит фазовую. Когда свет проходит через длинное оптоволокно, в передаче информации задействованы все моды сразу.


Матрицы ошибок (матрицы путаницы)

Дабы улучшить точность классификации, ИНС была обучена еще и с помощью уже реконструированных образцов. Также были применены матрицы ошибок, что значительно улучшило точность классификации.

К примеру, в случае волокна длиной 1 км существует путаница между цифрами 4 и 9, а также между 3, 5, 6 и 8.

Для подтверждения стоит просто взглянуть на результаты реконструкции.


Цифры 4 и 9


Цифры 3, 5, 6 и 8

Графики выше показывают изменения точности классификации изображений с течением времени:

а — 10 м волокна и дистальные спеклы;
b — 10 м волокна и реконструированные изображения;
с — 1 км волокна и дистальные спеклы;
d — 1 км волокна и реконструированные изображения.

Для детального ознакомления с нюансами исследования настоятельно рекомендую взглянуть на доклад ученых. На этой же странице доступна и PDF-версия (кнопочка «Get PDF»).

Эпилог

Данное исследование показало отличные результаты, что говорит о будущем его развитии и практической реализации. Вышеописанные методики могут быть применены для телекоммуникаций (дешифровка в мультиплексировании) и даже в медицине (эндоскопия).

Подсчитав временные затраты, ученые выявили, что большая их часть уходит на подготовку системы, точнее на ее обучение. А это говорит о том, что уже обученная система может выполнять свои функции невероятно быстро, вплоть до миллисекунд. Единственным ограничением станет мощность аппаратного обеспечения.

Конечно, еще немало придется изучить в области искусственных нейронных сетей на базе глубокого обучения. Но их полезность видна уже сейчас. Совершенствование имеющихся систем, каким бы не было их применение, такое же важное занятие, как и создание новых. Ведь не всегда нужно изобретать колесо, если можно просто улучшить его. Главное, как показала практика, мыслить нестандартно, учиться на своих и чужих ошибках, ставить перед собой порой невыполнимые задачи и верить в свои силы. Если идея может принести пользу человечеству, она должна быть реализована.

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас оформив заказ или порекомендовав знакомым, 30% скидка для пользователей Хабра на уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от $20 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

3 месяца бесплатно при оплате новых Dell R630 на срок от полугода — 2 х Intel Deca-Core Xeon E5-2630 v4 / 128GB DDR4 / 4х1TB HDD или 2х240GB SSD / 1Gbps 10 TB — от $99,33 месяц, только до конца августа, заказать можно тут.

Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 ТВ от $249 в Нидерландах и США! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

 
Источник

искусственные нейронные сети, расшифровка, реконструкция, сетевые технологии, спекл, эндоскопия

Читайте также