(19) 02 * << * >> * Русский * English * Содержание * Все выпуски
ПРОБЛЕМЫ ОБРАБОТКИ ИЗОБРАЖЕНИЙ И КОМПЬЮТЕРНОЙ ОПТИКИ
Стенограмма научного сообщения
на заседании Президиума Российской академии наук
19 октября 1999 года
В.А.Сойфер
Глубокоуважаемый Геннадий Андреевич! Глубокоуважаемые члены Президиума!
Сегодня я расскажу о проблемах обработки изображений и компьютерной оптики. Зрительные образы являются для чело- века основой для познания окружающего его мира. Даже если мы не видим объект, он недоступен наблюдению, или, более того, его не существует в природе, мы часто представляем его зрительный образ, и это помогает нам в познании.
Изображение несет в себе информацию об объекте исследования. И в этом смысле может рассматриваться как некоторый многомерный сигнал, функция двух или большего числа переменных.
В моем сообщении будут рассмотрены оптические изображения, хотя предлагае мые математические модели и методы яв ляются достаточно общими и могут применяться к более широкому классу многомерных сигналов различной физической природы. Обработка изображений означает выполнение над ними некоторых преобра зований, операций с определенной целью.
Классической задачей обработки изображений является улучшение качества. Эта задача впервые возникла в оптике и всегда решалась построением все более совершенных оптических систем, т.е. методами оптической обработки.
С момента появления компьютеров в оптике произошла настоящая революция, связанная с проникновением в нее цифровых методов. Первые публикации по цифровой обработке изображений появились в конце 60-х годов, в основном применительно к задачам астрономии, радиофизики, биофизики, ядерной физики (пузырько- вая камера) и целому ряду других прикладных задач.
В 1966 году американские ученые китайского происхождения Кули и Тьюки опубликовали т.н. «алгоритм быстрого преобразования Фурье». И это послужило определенной отправной точкой огромному увеличению числа работ по цифровой обработке изображений.
Почему «преобразование Фурье» так важно для обработки изображений? Прежде всего, оно физично. Дело в том, что оптические изображения фокусируются в оптических системах, и это описывается
«преобразованиями Фурье». То есть различного рода преобразования, которые в дальнейшем в цифровом виде выполняются над изображениями, на себе несут отпечаток этого явления и поэтому именно "преобразование Фурье" так широко распространено в цифровой обработке изображений и в каком-то смысле является базисом для самых различных алгоритмов.
Представление изображения в виде массива данных в памяти компьютера не толь- ко открыло совершенно новые возможности в обработке изображений: стало возможным не только улучшение качества, но и достижение других различных целей. И я постараюсь это продемонстрировать. Но оно открыло целый ряд новых научных направлений на стыке информатики и оптики. К ним принадлежит и компьютерная оптика, в которой российским ученым принадлежит мировой приоритет.
Значительное количество научных групп и исследователей в институтах Российской Академии наук, в университетах занимается проблемами обработки изображений.
Прежде всего, мне хотелось бы назвать здесь Институт проблем передачи информации - пионера в этой области в России, также Вычислительный центр РАН и Научный совет "Кибернетика", в котором получены выдающиеся результаты в области распознавания образов и, в частности, изображений.
Отдельно необходимо отметить огромный интерес, проявляемый к обработке космических изображений. Институт радиотехники и электроники Российской Академии наук, Институт космических исследований, ряд отраслевых институтов, таких, как, скажем, "Комета" в Москве и Центральное специализированное конструкторское бюро в Самаре очень много за- нимаются именно космическими изображениями.
Основой для решения задач компьютерной оптики является теория разностных схем, позволяющая решать задачу дифракции. Эта теория разработана в Институте математического моделирования Российской Академии наук.
Институт общей физики, физфак МГУ, Институт оптико-нейронных технологий известны своими замечательными достижениями в области оптической информатики.
С этими коллективами нас связывает многолетнее сотрудничество, и это стало основой учреждения в 1993 году Института систем обработки изображений в составе Отделения информатики, вычислительной техники и автоматизации в городе Самаре.
Мне хотелось бы сегодня использовать отведенное время и показать несколько примеров, иллюстрирующих проблематику. Прежде всего - о задаче обработки изо
бражений.
Несмотря на огромное разнообразие целей, в которых осуществляется обработка, в общем, она допускает определенную классификацию.
Прежде всего, это измерения на изображениях. Речь идет вот о чем. Когда данные попали в виде массива данных в память компьютера, то появляется очень много возможностей для количественных измерений на изображениях - то, чего лишен наш глаз. Мы очень хорошо видим, очень хорошо распознаем, но, скажем, измерить точно расстояние между двумя предметами мы не можем. Компьютер это делает очень хорошо. Это - измерения на изображениях.
Задача, о которой уже говорилось, - это задача повышения качества изображений. Она сейчас получает определенный новый импульс, и я также постараюсь показать некоторые результаты по улучшению качества изображений. Задача спектрального анализа многомерных сигналов - то, что говорилось по поводу быстрого преобразования Фурье и других алгоритмов, примыкающих к нему. Задача сжатия данных. Это очень актуальная задача в обработке изображений, связанная (особенно сейчас) с развитием телекоммуникационных систем. В них обязательно используется сжатие данных, поскольку если этого не делать, то мы столкнемся с тем, что время ответа системы будет очень большим. Поэтому огромные массивы данных, которыми характеризуется каждое изображение, обязательно под- вергаются сжатию, или компрессии, как иногда говорят, и это используется, собственно говоря, повседневно всеми нами, когда мы работаем с персональным компьютером.
Задача формирования признаков в распознавании изображений. В распознавании образов есть две стороны, две проблемы. Одна - это отбор и упорядочение признаков; вторая - классификация образов. Первая сторона - отбор и упорядочение признаков - является неформальной, трудно формализуемой задачей. Надо глубоко понимать сущность изображения, его природу, и тогда можно удачно выбирать признаки. Это позволит удачно решить задачу распознавания образов.
И, наконец, задача синтеза оптических волновых полей, и в том числе компьютерная оптика. Это абсолютно новая вещь, связанная с тем, что можно с помощью компьютерного синтеза создавать новые оптические элементы, то есть фактически создавать новую элементную базу для оптических систем.
Эти задачи мне хотелось бы проиллюстрировать примерами на разработках нашего Института систем обработки изображений.
Задача анализа изображения сетчатки глазного дна. Эта задача была решена нами в тесном сотрудничестве с медиками. Она, на мой взгляд, достаточно хорошо иллюстрирует проблематику измерения изображений. Здесь показано изображение сетчатки глазного дна. Для обработки этого изображения нам необходимо подвергнуть его дискретизации, то есть преобразовать в двумерный массив данных. Каждый элемент изображения, элемент яркости принято называть пикселами. Как правило, в результате дискретизации мы получаем большой массив данных, получаем матрицу тысячу на тысячу элементов, или несколько тысяч на несколько тысяч элементов. Так что одна из ключевых проблем в обработке изображений - это проблема размерности. Из нее вытекает и проблема быстродействия.
Как правило, мы хотим достаточно быстро осуществить обработку информации и имеем очень большой массив данных. Даже современный компьютер трудно справляется с этой задачей. Поэтому там, где это возможно, для обработки изображений используется метод скользящего окна. Такое окно, которое включает в себя гораздо меньший объем данных, перемещается по изображению, сканирует его, и мы получаем фрагменты этого изображения и с ними работаем. Здесь показан такой фрагмент. Это один из сосудов. У этого сосуда есть ряд характерных признаков, таких, как толщина, направление, трасса, стенка сосуда и высота. Диагностическими параметрами глазного дна являются более общие параметры, они должны быть оценены по исходным величинам. Число этих параметров достигает десятка или даже нескольких десятков, и по множеству этих параметров диагност выносит свое суждение о состоянии исследуемого человека. Выясняются такие заболевания, как ранний диабет, в частности.
Я, конечно, не медик, но с медиками мы работаем очень плотно, и мне хотелось проиллюстрировать еще одну вычислительную задачу. Она связана с тем, что изображение уже представляется не в непрерывном, а в дискретном виде. Для того, чтобы снять расстояние от точки С до точки В, казалось бы, очень просто, надо провести прямую линию. Но мы этого не можем сделать, поскольку у нас не непрерывный объект, а множество дискретных пикселов. Поэтому для того, чтобы измерить расстояние, мы должны измерить площадь этого треугольника и оценить эквивалентное расстояние между точками С и В - как один из подходов к этой задаче. То есть проблема дискретного здесь стоит очень остро и о ней всегда надо помнить при цифровой обработке изображений.
Что же касается прикладной стороны этого вопроса, то помимо внедрения этой системы в ряде клиник Самары, Поволжья, к нам приезжали специалисты из Японии, которые знакомились с этой работой. Мы сейчас имеем контракт в этой области и работаем по диагностике заболеваний.
Следующая задача связана с улучшением качества изображений, и мне хотелось бы продемонстрировать на примере, который мне особенно близок, поскольку я всю жизнь проработал в аэрокосмическом университете, там до сих пор заведую кафедрой и связан с тематикой конструкторского бюро члена-корреспондента Д.И.Козлова, который создает спутники для исследования поверхности Земли.
Эти спутники обладают уникальными характеристиками. Недавно создан объект с совершенно новыми характеристиками по полосе обзора, по разрешающей способности. Мне очень приятно, что многие из наших ученых, тех, кто работает в Институте систем обработки изображений РАН, приняли участие в этой разработке.
Задача вот такая. Летит космический аппарат. Он летит над поверхностью Земли и фотографирует. Его задача состоит в том, чтобы как можно лучше увидеть изображение. К сожалению, этому мешает целый ряд факторов, прежде всего - турбулентность атмосферы, подстилающая поверхность, различного рода шумы. Мы не знаем состояния среды между оптической системой и тем объектом, который в данном случае изучаем, - это Земля. Необходимо идентифицировать аппаратную или передаточную функцию, т.е. то, что находится между объективом и Землей. Это сделать очень трудно, потому что нас интересует то, что там было на самом деле. К счастью, на изображениях есть такие малые фрагменты, в которых мы точно знаем, что там было на самом деле. Например, пересечения дорог, различные реперные точки на нашей территории и есть целый ряд объектов за границей. По этим фрагментам можно восстановить сначала аппаратную функцию, т.е. идентифицировать среду между объективом и Землей, а потом использовать эти знания для того, чтобы осуществить улучшение качества изображения.
Эта работа была нами выполнена наряду со множеством других работ. Мы более 20 лет работаем с этим предприятием, и довольно успешно.
Задача спектральных преобразований. Что такое дискретное преобразование
Фурье? С точки зрения обработки информации - это вычисление N комплексных величин значений спектра Фурье по соответствующему количеству значений яркости. В обычной реализации для этого необходимо выполнить N2 арифметических операций. Поскольку массивы N очень большие, то вычислительная сложность обычного дискретного преобразования Фурье носит квадратичный характер и очень большая.
Идея быстрого преобразования Фурье в том, чтобы уменьшить сложность до Nlog2N, т.е. существенно ее снизить. А идеи тех алгоритмов, которые разработаны у нас (они основаны на предоставлении данных в алгебраических структурах), состоят в том, чтобы еще уменьшить сложность задачи за счет замены арифметических операций логическими, которые гораздо быстрее осуществляются в компьютере. Эта константа бывает в десять раз меньше в новых алгоритмах (они еще не получили никакого названия), чем в классических алгоритмах ППФ.
Сверхбыстрый алгоритм оказался не единственным свойством, а может быть и не самым главным свойством нового класса алгоритмов дискретных ортогональных преобразований. Выяснился совершенно неожиданный резонанс таких преобразований к геометрическим объектам. То есть они обладают таким свойством: если нам хорошо известен резонанс к гармоникам Фурье, т.е. к синусоидам, оказывается, представление о данных алгебраических структурах позволяет выделять на изображении объекты со свойствами симметрии.
Во-первых, по поводу вычислительной сложности. Здесь приведены данные сравнения сложности алгоритмов быстрого преобразования Фурье (красная линия) и новых алгоритмов (синяя линия). Мы видим, что при любых значениях длины сигнала (мы исследовали гораздо большие значения) новый алгоритм обладает существенным преимуществом по сравнению с известным, кое-где даже в два раза.
Что касается обработки двумерных массивов. Я возвращаюсь к задаче телекоммуникации и Интернета. Там всегда используется сжатие, причем, есть такой стандарт JPEG, он подразумевает работу с блоком 8*8.
Построенные нами алгоритмы обладают преимуществами по сравнению с наилучшими алгоритмами, которые носят имя Винограда, в два раза. Т.е. это открывает огромные возможности для использования алгоритмов, связанные с большой массовостью этой задачи: буквально в каждом офисе, в каждом научном учреждении, лаборатории используется эта задача сжатия. Она может решаться эффективно на основе новых разработанных алгоритмов.
Теперь - о свойствах выделять геометрические образы.
Вот здесь показано выделение пятиугольного и восьмиугольного примитива, которое осуществляется с помощью новых разработанных алгоритмов. Мы не можем пока физически это свойство объяснить, но это факт. Мы исследовали их при различных поворотах, при различных масштабах, при высоком уровне шума, что видно на этих двух картинках. И они резонируют к геометрическим объектам с определенными свойствами симметрии. Я еще раз повторяю: объяснить это пока мы не можем, но принимаем это как некую данность.
Такое свойство новых алгоритмов, особенно в сочетании с их быстротой открывает очень большие возможности для выделения признаков в распознавании образов.
Продолжая тему о выделении хороших признаков, хотелось бы рассказать о методе поля направлений.
Очень многие изображения, с которыми нам приходится работать, например, отпечатки пальцев, кристаллограммы, интерферограммы, являются в нашей терминологии изображениями со структурной избыточностью. На них очень много линий. Но информация, мы это знаем, заключена не в этом множестве линий, а она заключена в других образах. Как пример - дактилограммы.
Дактилограмма - это, собственно говоря, пошло из криминалистики. Но сейчас, кстати сказать, совсем не криминалисты в основном интересуются дактилоскопией. Это применяется в системах доступа - доступа к документам, к жилью, к собственности и т.д. Это необходимость мгновенной идентификации личности по неповторимому папиллярному узору - по отпечатку пальцев. Поэтому сейчас идет огромная серия публикаций, проводятся симпозиумы специально по системам доступа на основе отпечатков пальцев. Но и не только, конечно, по отпечаткам пальцев, есть и другие признаки. Я, правда, лишен возможности сегодня об этом говорить.
Тем не менее, есть такие характерные признаки на любом отпечатке пальца, как петля, дельта и спираль. И по множеству сочетаний этих признаков, собственно говоря, безошибочно идет идентификация.
Но она требует очень много времени. Даже если мы обрабатываем скользящим окном, то компьютеру требуется много времени для того, чтобы построить это самое поле направления. Тогда мы обращаем внимание на то, что похожие функции легко выполняются дифракционным оптическим элементом, множеством дифракционных решеток, повернутых относительно друг друга, и удается вычислить поле направления мгновенно с помощью оптического препроцессора, оптической предобработки. Здесь только требуется синтезировать оптический элемент.
При таком вычислении поля направления коэффициент сжатия данных составляет примерно 100, т.е. в 100 раз меньше можно вычислить коэффициентов для устойчивого распознавания образов, если перейти от исходной картинки к полю направления.
Такими же изображениями, как я уже говорил, являются, скажем, кристаллограммы. И мы сейчас очень много работаем в области кристаллографии по переходу от такого исходного избыточного изображения к полю направления.
Вторая часть моего выступления по- священа компьютерной оптике.
Дифракционные оптические элементы известны очень давно. Скажем, дифракционная решетка синтезирована Фраунгофером впервые примерно 170-180 лет тому назад. Так же давно сделана зонная пластинка Релея-Сорэ и линза Френеля.
Что отличает эти оптические элементы? Они являются практически плоскими. Их вертикальный размер сопоставим с длиной волны, т.е. составляет микроны. Путем перехода от традиционного оптического элемента, толщина которого составляет несколько тысяч длин волн, к плоскому опти- ческому элементу мы приводим фазу оптического элемента к интервалу [0,2p), и его толщина оказывается очень маленькой.
Эти элементы, как я уже сказал, были известны 150 и более лет. И, может быть, на этом дело и кончилось бы, если бы, во- первых, не появились лазеры, и тогда возникла возможность работать на одной длине волны. А это очень важно, потому что дифракционные оптические элементы работают с вполне определенной длиной волны, а лазер дает монохроматическое излучение. Во-вторых, если бы в оптику не проникли компьютеры, и мы не поставили задачу синтеза, и у нас не было бы гарантии решения этой задачи - а каким должен быть профиль зон, для того, чтобы что-то сделать. В третьих, если бы не было достижений в технологиях микроэлектроники, когда рассчитанный фазовый рельеф можно было бы физически реализовать. Вот три эти обстоятельства привели к тому, что была поставлена задача создания дифракционных оптических элементов с широкими функциональными возможностями, и она формулируется как обратная задача теории дифракции, которая в данном случае решается относительно границ и профиля зон дифракционного оптического элемента.
Причем, ограничения могут быть такими: например, задано распределение интенсивности; задано распределение фазы в области фокусировки; задано и то, и другое. Может быть сформулирована задача математического программирования, и в классе дискретных функций она может быть решена различными итерационным методами. В частности, мы опубликовали в 1997 году монографию по итерационным методам решения этой обратной задачи теории дифракции применительно к синтезу дифракционных оптических элементов. Эту задачу я успею рассмотреть только на двух примерах: это задача фокусировки лазерного излучения и задача селекции мод. Обе они носят фундаментальный характер для физики.
Задача фокусировки лазерного излуче- ния. Я ее впервые услышал от Александра Михайловича Прохорова 20 лет тому назад. Задача была поставлена так: если линза фокусирует в точку, то нельзя ли сделать более сложными границы зон, для того, чтобы создаваемый дифракционно-оптический элемент фокусировал, например, в отрезок, или в дугу, или в окружность, или в еще более сложную линию. Более того, мы поставили задачу получения заданного распределения интенсивности на этом отрезке или линии, потому что это распределение очень важно для задач лазерной технологии. Впервые мы опубликовали эту работу в 1981 году в сотрудничестве с ушедшим, к сожалению, из жизни И.Н.Сисакяном. Это было в Отделении "А" ФИАН. До сих пор продолжается наше плодотворное сотрудничество с этим институтом.
И последняя разработка по фокусаторам
- в ИОФАН в группе В.И. Конова - синтезируемые алмазные пленки. И сейчас ставится задача создания дифракционного рельефа на этих алмазных пленках. Это открывает возможность для построения силовой оптики для лазерных технологических установок. При этом задача расчета дифракционного оптического элемента усложнилась. Если мы раньше решали ее в приближении геометрической оптики, то сейчас решаем ее на субволновом уровне, и это требует применения уравнений Максвелла. Это очень сложная вычислительная задача, там масса вычислительных проблем, таких, как распараллеливание информации и т.д.
Я покажу примеры созданных фокусаторов - оптических элементов, которые фокусируют исходный Гауссов пучок, который мы имеем на выходе резонатора лазера, в различные геометрические области, одномерные, скажем, крест, кольцо, или даже двумерные.
Эти работы нашли хорошее внедрение и в свое время были отмечены Государственной премией.
И последняя задача - это селекция мод лазерного излучения. Мы очень хорошо знаем, что свет разлагается в радугу по длинам волн. Это продольные моды. Но когда мы имеем свет в волноводной среде - в резонаторе лазера или в волоконном световоде, то наблюдая в торце, мы можем наблюдать такую картину. В сущности, это суперпозиция нескольких мод, а моды - это собственные функции оператора распространения. То есть этот свет может быть представлен в виде такой суммы. Только разложить свет на цветовую гамму мы можем с помощью призмы - обычной или дифракционной. А соответствующего спектрального прибора для разложения по поперечным модам не было. Не было до тех пор, пока мы не синтезировали его на компьютере и не получили дифракционные оптические элементы, позволяющие селектировать отдельные поперечные моды в излучении.
Эта задача имеет очень глубокий смысл. В прошлом веке была дискуссия о при
роде белого света: что такое белый свет?
Действительно, это суперпозиция множества плоских волн, т.е. синусоид, или это просто придумка математиков? Ответ на этот вопрос был такой. - Поскольку имеется спектральный прибор, позволяющий анализировать спектр и разлагать его на составляющие, то свет действительно состоит из суперпозиции плоских волн. Здесь задача очень близка по своей сути. Осуществив селекцию мод, мы можем утверждать, что действительно лазерные пучки состоят и представляют собой суперпозицию множества мод. Причем для каждой среды эти моды разные.
По сути дела, мы можем управлять пространственной структурой лазерного излучения на основе селекции мод. Это открывает очень большие возможности для уплотнения прежде всего волоконно- оптических линий связи, для получения совершенно новых свойств пучков. Например, здесь показаны пучки, которые обладают периодическими свойствами, - это многомодовые пучки: либо пучок сам себя воспроизводит на определенном расстоянии, либо он вращается в пространстве и таким образом тоже воспроизводит себя сам, но как бы с другим инвариантом.
Это открывает возможности не только для передачи изображений по оптическому каналу, но позволяет глубже понять сам механизм зрения. Эти данные можно использовать также для построения систем зрения.
В заключение мне хотелось бы сказать, что мой доклад базировался на результатах, полученных в Институте систем обработки изображений РАН. У него имеется два соответствующих научных направления. Но очень много коллективов в нашей стране и за рубежом занимаются этой тематикой. Проблема обработки изображений, безусловно, являясь частью информатики, опирается на физику, математику, биологию. Поэтому, чем дальше мы углубляемся в изучение природы изображений, проблему управления пространственно-временными характеристиками волновых полей, тем больше перед нами открывается новых задач. Спасибо за внимание.
© 2009, IPSI RAS
Россия, 443001, Самара, ул. Молодогвардейская, 151; электронная почта: journal@computeroptics.ru; тел: +7 (846) 242-41-24 (ответственный секретарь), +7 (846) 332-56-22 (технический редактор), факс: +7 (846) 332-56-20