Формирование изображений без объективов

14.02.2018

Новые системы формирования изображений, микроскопы и видеоматрицы генерируют цифровые изображения, опираясь на компьютерные вычисления, а не на традиционные линзы.

Ещё средневековые ремесленники умели создавать стеклянные линзы и искривлённые зеркала для проецирования изображений. Такие конструкции использовались для изготовления микроскопов, камер-обскур, телескопов и прочих инструментов, позволяющих нам лучше увидеть очень маленькие и большие объекты, расположенные вдалеке и поблизости, на Земле и в небесах. Следующая революция в формировании изображений произошла примерно в середине XIX века: была изобретена фотография. Появилась возможность запечатлевать «остановленные моменты», воспроизводить их и тиражировать. Сегодня эра химической фотографии подходит к завершению, расцветает новая эпоха — цифровое формирование изображений. Его корни лежат в технологии телевидения, но мы будем считать началом эпохи 1975 год, когда появилась первая цифровая фотокамера. Сегодня миллиарды веб-камер и камер в мобильных телефонах по всему миру снимают более триллиона изображений в год, и многие из них сразу же выкладываются в интернет. Несмотря на взрывной рост количества, разнообразия и способов применения систем формирования изображений, задачи инженеров-оптиков остаются по большей части неизменными: создавать высококачественное оптическое изображение, как можно точнее передающее снимаемую сцену — чтобы «выглядело хорошо».

Однако в последние 10—20 лет начала рождаться новая парадигма: вычислительное формирование изображения. Возможно, эта парадигма и не вытеснит полностью традиционные подходы, но она поставит под сомнение вековые представления и поможет создать альтернативные методы проектирования систем формирования изображений. К примеру, нам уже доступны новые функции и формы систем формирования изображения, включая сверхминиатюрные устройства для съёмки макроскопических объектов и микроскопы без линз.

Вычислительное формирование изображения

Как понятно из названия, вычисления играют ключевую роль в формировании итогового цифрового изображения. Долгое время с помощью цифровой обработки изображения улучшали: удаляли эффект «красных глаз» при съёмке со вспышкой, корректировали цвета и т. д., — но оптические схемы объективов никогда не проектировались с учётом этих потребностей. Однако цифровая обработка сигнала позволяет, к примеру, исправить оптические искажения вроде «подушки» или широкоугольных искажений по краям снимка. Когда в конце 1980-х орбитальный телескоп «Хаббл» прислал на Землю первые снимки, они оказались гораздо «мыльнее», чем ожидалось. Вскоре стало ясно, что с оптикой какие-то неполадки. Учёные NASA определили, в чём дело, и, пока телескоп не починили, несколько лет корректировали многие дефекты с помощью сложных алгоритмов цифровой обработки.

В середине 1990-х Уэйд Томас Кэти (Wade Thomas Cathey) и Эдвард Довски — младший (Edward R. Dowski, Jr.) пришли к идее проектировать объективы так, чтобы они формировали размытые, «ухудшенные» изображения, но ухудшенные таким образом, чтобы алгоритмы цифровой обработки позволяли сделать изображения не хуже, а то и лучше снятых традиционными объективами. В частности, Кэти и Довски обратились к характерной особенности всех традиционных камер: ограниченной глубине резкости. Если навести фокус на объект на среднем расстоянии от вас, то он будет выглядеть резким, но предметы ближе и дальше него станут размытыми. Глубиной резкости называется область, внутри которой все объекты выглядят приемлемо резкими. Так вот, двое учёных придумали новую линзу, которая почти так же размывала оптические изображения объектов на всех расстояниях. А затем специальный алгоритм повышал резкость всего изображения, получая глубину резкости, которая недостижима для обычных объективов. Хотя многие учёные ещё больше улучшили описанную методику, идея Кэти и Довски далеко продвинула дисциплину вычислительного захвата и формирования изображения.

Ещё одним следствием этой научной работы стало то, что оптические схемы объективов теперь разрабатывают исходя из создания изображений для компьютеров, а не людей. Парадоксально, что в нашу эру тотальной съёмки очень мало кто видел настоящие оптические изображения, формируемые камерами. Давно прошли те дни, когда фотограф, склонившись к камере и накрывшись плотной накидкой, вытаскивал заслонку и, прежде чем вставить кассету с плёнкой, видел на матовом стекле «живое» изображение, напрямую формируемое объективом. Сегодня же мы видим на экранах результат цифровой обработки оптических изображений, попавших на кремниевые матрицы.

Следующей сферой применения комбинации оптики и цифровой обработки стало упрощение проектирования объективов. В вашем смартфоне объектив камеры может состоять из 7—8 оптических элементов, а объективы профессиональных фотокамер порой состоят более чем из 15 оптических элементов. Большое количество линз необходимо для исправления дефектов изображения — аберраций, присущих любым оптическим системам: хроматических (цветовые ореолы вокруг объектов) и оптических (искажение формы и пропорций объектов). То есть сложные конструкции объективов необходимы для получения «хорошо выглядящих» изображений. Комбинация оптики и цифровой обработки поможет переложить часть работы по исправлению аберраций на цифровой компонент, что позволит отказаться от некоторых оптических элементов без ущерба для качества финального цифрового изображения. То есть алгоритмы обработки играют роль виртуальных оптических элементов. Этот подход позволил создать более компактные и дешёвые оптические системы без потери качества.

До какой степени получится развить эти идеи? Какую долю задачи по формированию изображения можно переложить с оптики на цифровой компонент? Насколько простой может быть оптическая схема, чтобы получать сносное изображение? Реально ли вообще избавиться от линз и зеркал? Это было достигнуто за последние несколько лет тремя способами — полностью исключены объективы и формируемые ими оптические изображения. Способы основаны на дифракции, оптическом восстановлении фазы (optical phase reconstruction) и методике compressive sensing. И для получения финального изображения, пригодного для людей, активно используются компьютерные вычисления.

Дифракционное формирование изображения

Традиционные объективы фокусируют пучок света с помощью рефракции: свет преломляется при переходе через границу сред (воздух-стекло) с различными скоростями света. Именно благодаря эффекту преломления карандаш, погружённый в стеклянный стакан с водой, кажется изогнутым: отражённый от карандаша свет преломляется при выходе в воздушную среду по пути к вашим глазам. Поэтому подводная часть карандаша нам видится не там, где она находится на самом деле.

К слову, благодаря преломлению (рефракции) на границе космоса и земной атмосферы все небесные объекты кажутся нам расположенными несколько выше их реального местоположения:

Искривлённые зеркала вроде тех, что используются в больших телескопах, формируют изображение иначе: с помощью отражения. Чтобы понять, в чём разница между преломлением и отражением, представим свет в виде лучей (линий).

Изменить направление распространения света и использовать его волновую природу (вспоминаем о корпускулярно-волновой дуализме) помогут два других физических явления: дифракция и интерференция. При встрече двух когерентных волн света они накладываются друг на друга, возникает результирующая амплитуда волны. Если максимум одной волны всегда совпадает с максимумом другой, то волны усиливают друг друга, это называется конструктивной интерференцией. Если максимум одной волны всегда совпадает с минимумом другой, то волны гасят друг друга — это деструктивная интерференция, в её результате свет может вообще исчезнуть.

Управлять светом посредством дифракции можно, направляя его на дифракционную решётку — ряд тончайших штрихов (растра) — на гладкой поверхности. Поскольку волны с разной длиной отражаются в разные стороны, возникает цветовое окрашивание. Например, когда белый свет отражается от крохотных бороздок на поверхности компакт-диска или DVD, мы видим радужные полосы. Из-за зависимости длин волн от растра невозможно создать дифракционную решётку, которая просто заменяет линзы. Оптическое изображение, сформированное решёткой, никогда не будет выглядеть так же хорошо, как изображение из грамотно спроектированного объектива. Тем не менее вполне можно создавать приемлемые цифровые изображения с помощью комбинации дифракционной оптики (использующей дифракцию) и обработки совпадающих сигналов (matched signal processing) (с учётом оптики).

Формирование изображений с помощью дифракции

В одном из классов безобъективных устройств для макроскопической съёмки используются миниатюрные дифракционные решётки, ступенчато расположенные в толщине прозрачного материала (стекла или силиката) и задерживающие одну часть падающего света относительно другой части. Математические свойства ступенчатой схемы таковы, что распределение света в материале слабо зависит от длины волны, а значит, и от незначительного варьирования толщины самого стекла, неизбежно возникающего при изготовлении. Решётки прикреплены к светочувствительной матрице — вроде матрицы в обычных цифровых камерах. Падающий свет проходит через решётки и достигает массива, уже особым образом разложенный на «составляющие». Выглядит это совсем не так, как обычное изображение: некое размытое облако, непонятное для человеческого глаза. Однако это облако содержит достаточно визуальной информации (хотя и непривычно распределённой), чтобы воссоздать из неё желаемое изображение с помощью вычислительного процесса, который называется свёрткой изображения (image convolution).

Алгоритм реконструкции изображения немного чувствителен к визуальному шуму, например случайным флуктуациям в количестве фотонов или электрическому шуму в ходе преобразования сигнала с сенсора в числовое представление (так называемая ошибка квантования, quantization error). Поэтому изображение может быть визуально зашумлённым. Хотя такого качества достаточно для ряда простых задач (к примеру, чтобы посчитать количество людей в кадре), однако для более приличного изображения нужно захватывать больше информации о снимаемой сцене. Решение «в лоб» — взять несколько миниатюрных фазовых решёток, спроектированных так, чтобы захватывать разную информацию о сцене. То есть каждая решётка формирует компонентное цифровое изображение, эти компоненты потом можно обработать и получить одно, более качественное изображение.

Одна разновидность систем безобъективного формирования изображения использует решётки, которые рассеивают свет, а не фокусируют его, как линзы. В приведённом примере массив из 12 двоичных фазовых микрорешёток (слева) спроектирован так, чтобы захватывать как можно больше визуальной информации о сцене. После прохождения света через массив получается 12 размытых пятен, ни одно из которых не позволяет человеку понять, что же здесь снято (в центре). Однако это оптическое изображение содержит достаточно информации, чтобы с помощью цифровой обработки под названием «свёртка изображения» (image convolution) получить вполне разборчивый портрет (справа).

Этот подход поможет не только для формирования изображения сцены, но и для её анализа: чтобы определить визуальные свойства (к примеру, есть ли на фото человеческое лицо), направление и скорость общего движения сцены (визуальный поток, visual flow), посчитать количество людей в помещении. В подобных ситуациях дифракционные решётки проектируются так, чтобы извлечь необходимую информацию, и алгоритм обработки адаптируется под конкретную задачу. Скажем, если нам нужно считать вертикальный штрих-код, то используем вертикальную дифракционную решётку и алгоритм, который приводит каждый пиксель цифрового изображения к пороговому значению: светлый преобразуется в тёмный, тёмный — в чёрный. В результате получается чёрно-белое цифровое изображение, и его уже может распознать алгоритм считывания штрихкодов.

Микроскопия с помощью восстановления фазы

Подход к созданию безобъективных микроскопов отличается от методик создания вычислительных камер для макрообъектов, хотя и здесь используется явление дифракции. Однако в отличие от устройства, которое снимает сцену в обычном освещении, создаваемом Солнцем или лампами, в микроскопии для подсветки можно выбрать только когерентное лазерное излучение или монохроматический свет от одного или нескольких источников. Это позволяет управлять дифракцией и интерференцией света. Более того, интересующие нас объекты так малы, что дифракция будет возникать при прохождении света через сами объекты, а не через искусственную дифракционную решётку.

Схема такого микроскопа подразумевает, что образец кладётся поверх светочувствительной матрицы с большим количеством маленьких пикселей: 10-мегапиксельной матрицы, к примеру, которая часто встречается в цифровых фотокамерах. Такую схему ещё называют «микроскоп на чипе» (on chip), потому что образец помещают прямо на формирующую изображение матрицу. Свет от лазера или спектрально чистого цветного светодиода падает на образец и рассеивается на снимаемых объектах. Получившиеся дифракционные волны — образующие объектный луч (object beam) — накладываются на освещение, которое проходит через образец без искажений, — референсный луч (reference beam). В результате получается сложный паттерн интерференции, регистрируемый светочувствительной матрицей и используемый в цифровой инлайновой голографии (digital in-line holography). Необработанное изображение смутно напоминает микроскопические тени образца, и в каких-то случаях его достаточно для грубого подсчёта количества и местоположения объектов. Но необработанное голографическое изображение слишком мутное, зашумлённое, содержит «кольцевые артефакты» и никак не позволяет определить морфологию объектов. Картинка плохая.

Паттерн интерференции проходит через несколько этапов цифровой обработки, основной этап — это алгоритм восстановления фазы (phase reconstruction). В нём с помощью физики оптической интерференции делаются выводы о структуре и расположении объектов в образце. Если коротко: алгоритм ищет оптическую информацию о фазе, потерянную в голограмме на матрице (которая регистрирует лишь паттерн интерференции, а не сами фазы отдельных лучей света). Алгоритм итеративно вычисляет в объектном луче информацию о фазе, которая, скорее всего, привела к появлению такого оптического паттерна интерференции. Когда информация о фазе в объектном луче определена, алгоритм вычисляет её изменение назад во времени для построения изображения объектов, формируя окончательный цифровой снимок.

Как и в случае с устройствами для макросъёмки, разрешение увеличивается с помощью захвата нескольких оптических изображений, каждое из которых содержит немного разную информацию. Например, перед регистрацией каждого кадра можно чуть сдвигать источник освещения, или сам образец, или матрицу. Потом кадры обрабатываются и объединяются для получения одного интерференционного изображения увеличенного разрешения (которое всё ещё непонятно для человека), а потом выполняются этапы восстановления фазы и временно̒го восстановления.

У безобъективных микроскопов на чипе есть несколько достоинств.

Во-первых, область съёмки образца (т. е. поле зрения) может быть крайне большой, она ограничена лишь размером светочувствительной матрицы, на которую кладётся образец. Современные матрицы позволяют обеспечить поле зрения от 20 квадратных миллиметров до 20 квадратных сантиметров.

Во-вторых, с помощью безобъективных микроскопов можно изучать даже прозрачные объекты (например, большинство бактерий в слое воды), если они изменяют фазу проходящего сквозь них света. Специальные объективные оптические микроскопы также позволяют изучать подобные «фазовые объекты», хотя и с куда меньшим полем зрения и общим размером образца.

В-третьих, цифровая обработка оптического изображения позволяет выделить разные типы клеток (например, сперматозоиды или клетки крови в капиллярах) и отследить их движения. Благодаря этому врачи и биологи могут получить важные данные.

В-четвёртых, такие микроскопы гораздо дешевле и компактнее традиционных. Безобъективные микроскопы можно подключить к мобильному телефону, использовать в сельской местности, а цифровые данные — передавать куда угодно для дальнейшего тщательного анализа.

Методика Compressive sensing

Третий подход к безобъективному формированию изображения основан на свежих достижениях в математике и статистике сигналов — методике compressive sensing. Оптическое изображение на матрице — это сложный сигнал, который представляется в виде списка чисел и обрабатывается разными алгоритмами. Как сложный звуковой сигнал состоит из множества более простых звуков, каждый из которых добавлен в нужной пропорции, так и картинка формируется из большого количества более простых изображений. Набор простых изображений, или сигналов, называется базисом (basis). В сфере звука самый распространённый базис — это набор чистых косинусоидальных тонов. Неважно, насколько сложен звук. Всё — от автомобильного гудка до симфонии Бетховена — можно создать, складывая большое количество базисных косинусоидальных волн, для каждой из которых подбирается нужная интенсивность и сдвиг во времени.

Что может быть аналогичным базисом в сфере изображений? Два самых популярных и полезных визуальных базиса — наборы двумерных косинусоидальных волн и волновые паттерны переменного разрешения (multi-resolution wavelet patterns). Эти базовые элементы математически элегантны и лежат в основе современных схем сжатия изображений JPEG и JPEG 2000. Вместо того чтобы хранить и передавать значения каждого пикселя цифрового изображения, вы оперируете файлом, описывающим амплитуды разных компонентных базисных сигналов. В результате «сжатый» файл получается гораздо меньшего размера, чем само изображение. Десятилетиями эти базисы верой и правдой служили инструментом обработки цифровых изображений, но не привели к созданию новых методик разработки оптических схем, потому ни один оптический элемент не позволяет легко внедрить какие-либо базисы.

Перейдём к compressive sensing. Теоретически результаты статистики свидетельствуют, что, пока информация о сцене избыточна (т. е. изображение поддаётся сжатию), нет нужды измерять базисы, достаточно измерений случайной выборки. Если вам доступны такие «прописанные в коде измерения», то вы можете руководствоваться соображением, что сигнал качественно представлен в виде базисных элементов (косинусоид или волновых импульсов), и восстановить изображение с помощью методики compressive sensing. Более того, для использования этого класса новых методов восстановления изображения вам достаточно гораздо меньше измерений, чем раньше.

Снимающее устройство, использующее сжатие (сверху), пропускает свет от сцены через несколько двумерных масок. На средних картинках показан результат после двух разных масок. Использующий сжатие реконструирующий алгоритм берёт информацию изо всех масок и находит «простейший» сигнал, согласующийся с набором измерений, сделанных матрицей (слева). Чем сложнее сцена или чем более высокое качество снимка нужно обеспечить, тем больше компонентных изображений требуется сформировать.

Эта теоретическая разработка позволила создать новые подходы к оптическому проектированию камер, основанные на ранних достижениях в съёмке в рентгеновском и гамма-диапазоне. Закодированные диафрагмы (coded apertures) (удобно спроектированные фиксированные двумерные маски-паттерны из прозрачных и непрозрачных областей) могут помочь в создании способов захвата закодированных измерений сцены традиционными светочувствительными матрицами. Одну из схем под названием FlatCam разработал Ашок Вирарагхаван (Ashok Veeraraghavan) и его коллеги из Университета Райса. Схема состоит из простой амплитудной маски, наложенной на обычную светочувствительную матрицу (см. иллюстрацию выше). Свет от сцены — в данном случае персонаж из Angry Birds — проходит (и дифрагирует) сквозь прозрачные области амплитудной маски и попадает на матрицу. Обратите внимание, что здесь нет никаких линз, а значит, не формируется традиционное оптическое изображение. Вместо этого матрица записывает сложный, хаотически выглядящий световой паттерн с информацией о сцене и паттерне самой маски. Поскольку изображение состоит из пикселей, каждый пиксель предоставляет различные закодированные измерения сцены. Затем с помощью математических и алгоритмических методов compressive sensing система находит «простейшую» сцену, согласующуюся со всеми этими измерениями.

У безобъективного подхода есть несколько важных достоинств.

Стоимость обычных камер во многом определяется стоимостью объективов и последующей сборкой, так что исключение объектива из схемы позволяет сильно снизить стоимость изделия. В конструкции камеры, включая маску и матрицу, могут использоваться только традиционные технологии полупроводникового производства, что повышает масштабируемость и снижает цену. Также камеры могут быть тоньше 0,5 миллиметра и весить меньше 0,2 грамма — их можно будет задействовать там, где сегодня неприменимы привычные громоздкие устройства. К тому же схема FlatCam позволяет получить всю необходимую информацию о сцене, сделав один кадр, поэтому можно реализовать видеосъёмку динамичных сцен в реальном времени.

Правила меняются

Инженерия систем формирования изображений входит в новую эру, когда оптические элементы, использующие физические особенности света и осязаемые материалы, могут проектироваться совместно с цифровыми алгоритмами, использующими неосязаемый объём информации. Низлагаются многие привычные принципы и неписаные эмпирические правила, которыми инженеры-оптики руководствовались столетиями, включая потребность в линзах и искривлённых зеркалах или структурированных цифровых базисах вроде косинусоидальных функций. Традиционные оптические изображения так привычны и полезны, что мы неохотно рассматриваем их более абстрактно, исключительно как информацию.

Будущие направления развития устройств для съёмки макрообъектов включают в себя разработку специализированных дифракционных решёток и алгоритмов обработки. К примеру, если нужно определить, есть ли в кадре человеческое лицо, то решётка должна сама, насколько это возможно, извлекать только ту визуальную информацию, которая указывает на наличие лиц. Также заманчиво переложить на оптику как можно больше сквозной вычислительной нагрузки, чтобы уменьшить объём вычислений, а значит, и энергопотребление. В безобъективной микроскопии нужно повышать пространственное и временное разрешение, а также проектировать цифровые микроскопы, предназначенные для диагностики конкретных заболеваний, особенно распространённых в развивающихся странах.

Объективы и искривлённые зеркала помогали нам сотни лет, и вряд ли мы полностью откажемся от них. Тем не менее новая парадигма вычислительного формирования изображений открывает перед нами иные пути, позволяя найти новые применения устройствам фото- и видеосъёмки.

Источник