Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://www.geogr.msu.ru/science/aero/acenter/int_sem2/Theme6.htm
Дата изменения: Mon Apr 23 13:41:25 2012 Дата индексирования: Tue Oct 2 10:20:44 2012 Кодировка: Windows-1251 |
Тема 6. Подготовительные этапы классификации с обучением (контролируемой)
Подготовительные этапы классификации с обучением включают:
- оценку качества обучающих выборок,
- выбор оптимального алгоритма классификации,
- предварительную классификацию по эталонным участкам.
Выборки итеративно улучшаются до получения результатов требуемой достоверности.
Задание 6.1. ОЦЕНКА КАЧЕСТВА ОБУЧАЮЩИХ ВЫБОРОК ПО ДИАГРАММАМ ДВУМЕРНОГО ПОЛЯ ПРИЗНАКОВ И ВЫБОР АЛГОРИТМА КЛАССИФИКАЦИИ Цель: Научиться анализировать диаграммы двумерного поля признаков, использовать их для выбора алгоритма классификации и для редактирования (корректирования) обучающих выборок. Входные данные: Файл
delt1234.bil, содержащий фрагменты зональных снимков
(зон) 1, 2, 3, 4, МСУ-СК от 20 июля Выходные данные: Отредактированные обучающие выборки в новом файле проекта delt_new.prj, выбор оптимального алгоритма классификации. Последовательность операций: Рассмотреть диаграммы двумерного поля признаков, построенные в программе MS Excel по парам зональных значений яркости из обучающих выборок. (Значения распечатываются функцией Processor / List Data в Multispec и копируются в Excel). По диаграммам определить, необходимо ли использовать корреляционные отношения между спектральными зонами, линейны ли границы между классами, выбрать алгоритм. Используя функции редактирования в Processor / Statistics, откорректировать обучающие выборки для лучшего разделения классов. |
Диаграммы двумерного поля
признаков представляют собой графики, на которых представлены значения яркости
для пикселов в двух спектральных зонах. Они позволяют наглядно представить
группировку пикселов по значениям яркости и корреляцию между спектральными
зонами. В
MultiSpec подобные диаграммы строятся командой
BiPlots of Data в
разделе меню
Processor /
Utilities.
К сожалению, она доступна только в версии для Macintosh, равно как и средство
построения диаграмм корреляции между спектральными зонами для заданного класса (Processor
/
Utilities
/
Create Statistics Image).
Однако диаграммы двумерного поля признаков легко построить самим в стандартных
пакетах, таких как Excel. Для этого вначале нужно открыть нужный файл проекта в
MultiSpec и выбрать команду
Processor /
List Data (указав в разделе
Area(s) Classes Аll, и отметив
Training и
Output
results to text window). В текстовом окне
MultiSpec распечатается таблица с
указанием значений класса, поля (field) и всех зональных значений для каждого
пиксела, входящего в обучающие выборки. Эту таблицу надо скопировать в
Excel и
построить по ней диаграммы.
Двумерное поле признаков (зоны 4 и 2, снимок МСУ-СК на дельту Волги)
|
В качестве примера мы проанализируем диаграмму, построенную по значениям яркости в зонах 4 и 2 снимка МСУ-СК на дельту Волги. Зоны 4 и 2 были выбраны, поскольку они позволяют отобразить все классы растительности с наибольшим контрастом.
Приведенная
диаграмма показывает типичное распределение яркостей для почвенных и
растительных объектов. Для полупустынь, практически лишенных зеленой
растительности, характерна высокая положительная корреляция значений
яркости пиксела в зонах 4 и 2 (с ростом значений в зоне 2 растут значения
в зоне 4), что отражается наклонным положением 'облака' значений обучающей
выборки для полупустынь на диаграмме. Такая же картина наблюдается и для
облаков, но в связи с их крайней неоднородностью имеется большой разброс
значений. |
Возможности редактирования выборок для улучшения разделимости классов мы обсудим чуть ниже.
Пока же обратим внимание на характер статистического распределения данных в обучающих выборках. Во-первых, выборки достаточно компактны по яркости (за исключением облаков, и так хорошо отличающихся от остальных объектов). Это значит, что они достаточно хорошо представляют выбранные объекты. Во-вторых, из-за значительного перекрытия некоторых выборок придется максимально использовать всю информацию, содержащуюся в спектральных зонах снимка, включая сведения о корреляции между зонами (описывающей форму кривой спектрального образа). Границы между такими классам, как тростниково-рогозовые луга и остепненные луга лучше всего проводить нелинейно, чтобы избежать отнесения большого количества пикселов в ложный класс.
А это означает, что наилучшим решающим правилом классификации в данном случае скорее всего окажется метод максимального правдоподобия. При классификации по этому методу вокруг выборок в многомерном пространстве признаков будут очерчены 'эллипсы' значений яркости каждого класса с центрами в точке со средними значениями выборки и осями, сориентированными согласно корреляции между спектральными зонами. Отметим, что для оптимальной работы этого метода необходимо нормальное распределение яркостей в пределах каждой обучающей выборки. Несоблюдение этого условия приведет к увеличению количества ошибок классификации в областях перекрытия выборок.
Если бы мы использовали метод минимального (евклидова) расстояния, то некоторые пикселы, принадлежащие к классу облаков, с минимальными значениями яркости, были бы отнесены к классу полупустынь, так как они ближе к средним значениям этого класса. Это - пример ошибки классификации, когда не учтена корреляция значений между спектральными зонами. Использование метода линейного дискриминантного анализа могло бы быть проблематичным при сильном перекрытии выборок, которое мы наблюдаем для остепненных и тростниково-рогозовых лугов, а также тростниково-рогозовых зарослей. Впрочем, в любом случае перекрытие этих классов настолько сильно, что выборки необходимо уточнять, редактировать.
При редактировании выборок возможны три пути:
изменение эталонных участков, по которым создаются выборки,
исключение классов и
объединение классов.
Эксперименты с изменением выборок для снимка МСУ-СК на дельту Волги показывают, что в данном случае смешение яркостных характеристик неизбежно из-за ограничений, вносимых пространственной и спектральной разрешающей способностью исходного снимка. Поэтому изменение границ эталонных участков не улучшает разделимость классов.
Исключение класса, например, тростниково-рогозовых зарослей, привело бы к чрезмерному расширению класса остепненных лугов, что вызвало бы ошибочное 'появление' остепненных лугов на кромке воды.
Поэтому в данной ситуации единственный вариант редактирования выборок - это объединение обучающих выборок для классов 'луга тростниково-рогозовые' и 'тростниково-рогозовые заросли' в выборку для одного класса с названием 'тростниково-рогозовые луга и заросли'.
Проделаем такое объединение в Multispec. Убедитесь, что у вас открыт файл проекта delt1234.prj (если нужно, откройте его в меню Project / Open Project). Войдите в меню Processor / Statistics и примите все установки проекта по умолчанию, нажав ОК. Появляется меню редактирования эталонных участков. Нажмите кнопку Project в нижней части меню редактирования, чтобы увидеть список классов.
Выберите в нем класс 'тр.-рог. заросли'. Дважды нажмите левую кнопку мыши на названии класса, чтобы просмотреть, какие эталонные участки определяют этот класс - вы увидите, что это участок Field 8. С помощью мыши выделите название этого участка в поле Fields и скопируйте его в буфер, используя команду Edit / Cut field (Редактирование / Удалить участок) из основного меню. В редакторе эталонных участков снова нажмите кнопку Project, выделите класс 'луга тр.-рог.', и двойным нажатием на имени этого класса перейдите в список участков для данного класса. Теперь в основном меню MultiSpec выберите Edit / Paste field, чтобы вставить эталонный участок field 8 в класс 'луга тр.-рог.'. Обновите статистику этого класса, нажав на кнопку Update Class Stats.
Наконец, снова нажмите кнопку Project и обратитесь к списку классов, где необходимо:
а) удалить класс 'тр.-рог. заросли', воспользовавшись командой Edit / Cut Class основного меню, и
б) изменить имя класса 'луга тр.-рог.' на 'тр.-рог. луга и заросли' (кнопка Edit Class Name в редакторе эталонных участков).
В заключение, сохраните проект под новым именем, например, delt_new.prj. Это позволит нам в дальнейшем сравнить точность классификации по исходным и объединенным выборкам, используя старый и новый файлы проекта.
Задание 6.2. ОЦЕНКА КАЧЕСТВА ОБУЧАЮЩИХ ВЫБОРОК ПУТЕМ КЛАССИФИКАЦИИ ЭТАЛОННЫХ УЧАСТКОВ Цель: Оценить качество обучающих выборок, используя алгоритм классификации с обучением. Входные данные:
Файл
delt1234.bil, содержащий фрагменты зональных снимков (зон)
1, 2, 3, 4, МСУ-СК от 20 июля Выходные данные: Таблица результатов классификации, классифицированное изображение. Последовательность операций: Провести классификацию по методу максимального правдоподобия по новым и старым обучающим выборкам. Сравнить таблицы результатов, просмотреть классифицированное изображение. |
Откройте проект delt_new.prj и его базовое изображение (delt1234.bil). В меню Processor / Classify задайте метод классификации (Procedure) как Maximum Likelihood (максимального правдоподобия). Проверьте, что отмечена опция Training (resubstitution) (классификация по эталонным участкам путем подстановки статистических параметров по выборкам). В разделе Write classification results to: отметьте и Project text window и Disk file. В результате в текстовом окне будет выведена итоговая таблица результатов классификации (точности по каждому классу) и результаты классификации в алфавитно-цифровом представлении, а также будет сохранено классифицированное изображение в формате ERDAS GIS.
Нажмите ОК в этом диалоге и в последующем окне запроса (чтобы подтвердить обновление статистики проекта перед классификацией). Далее перед вами появится диалог ввода имени файла для сохранения, где надо указать имя для классифицированного изображения (например, new_delt.gis).
Классификация продолжается несколько секунд, и после ее окончания в тестовом окне нужно найти табличку
TRAINING CLASS PERFORMANCE (результаты классификации по эталонным участкам). Приводим ее ниже для самопроверки:
Number of Samples in Class |
||||||||||
ClassName |
Class Number |
Accuracy (%) |
Number Samples |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
Полупуст. |
Луга остеп |
Луга раз-тр. |
Тр.-рог. луга и заросли |
Вода чист |
Вода со взвес. |
Облака |
||||
Полупуст. |
1 |
100.0 |
209 |
209 |
0 |
0 |
0 |
0 |
0 |
0 |
Луга остеп. |
2 |
94.9 |
156 |
0 |
148 |
0 |
8 |
0 |
0 |
0 |
Луга разн-тр. |
3 |
100.0 |
294 |
0 |
0 |
294 |
0 |
0 |
0 |
0 |
Тр.- рог. луга и заросли |
4 |
94.4 |
426 |
0 |
24 |
0 |
402 |
0 |
0 |
0 |
Вода чист. |
5 |
100.0 |
110 |
0 |
0 |
0 |
0 |
110 |
0 |
0 |
Вода со взвес. |
6 |
100.0 |
126 |
0 |
0 |
0 |
0 |
0 |
126 |
0 |
Облака |
7 |
100.0 |
42 |
0 |
0 |
0 |
0 |
0 |
0 |
42 |
TOTAL |
1363 |
209 |
172 |
294 |
410 |
110 |
126 |
42 |
||
Reliability Accuracy (%)* |
|
100.0 |
86.0 |
100.0 |
98.0 |
100.0 |
100.0 |
100.0 |
OVERALL CLASS PERFORMANCE
(1122 / 1363 ) = 82.3%
Kappa
Statistic (X100) = 78.5%. Kappa Variance = 0.000138.
+
(100 - percent omission error); also called producer's accuracy.
* (100 - percent commission error); also called user's accuracy.
Таблица результатов классификации представляет собой матрицу, по вертикали которой перечислены заданные имена классов, а по горизонтали - имена классов, куда пикселы были отнесены. На пересечении строк и столбцов указаны количества пикселов. Пикселы на диагонали этой матрицы находились в пределах эталонного класса и в него попали, то есть были классифицированы корректно. Пикселы вне диагонали классифицированы в другие классы. Как видно из таблицы, для большинства эталонных участков достигнута 100% корректная классификация пикселов, за исключением остепненных лугов и тростниково-рогозовых лугов и зарослей, которые слегка перемешались между собой. В связи с невозможностью улучшить выборки при данных характеристиках снимка, по результатам предварительной классификации созданные выборки можно признать удовлетворительными.
А теперь закройте текущий файл проекта, откройте старый файл проекта delt1234.prj и проведите классификацию по старым обучающим выборкам (для 8 классов). Сравните таблицу результатов с приведенной выше.
ВОПРОС ПО ТЕМЕ: Как изменились результаты классификации в результате объединения заданных классов? |
Задание 6.3. ОЦЕНКА КАЧЕСТВА ОБУЧАЮЩИХ ВЫБОРОК ПУТЕМ СРАВНЕНИЯ С РЕЗУЛЬТАТАМИ ГИБРИДНОЙ КЛАССИФИКАЦИИ БЕЗ ОБУЧЕНИЯ Цель: Оценить однородность эталонных участков, по которым созданы обучающие выборки, и их представительность для всего снимка. Входные данные:
Файл
delt1234.bil, содержащий фрагменты зональных снимков
(зон) 1, 2, 3, 4, МСУ-СК от 20 июля Выходные данные: Гибридное классифицированное изображение для оценки пространственной однородности спектральных яркостей в пределах эталонных участков. Последовательность операций: Для получения гибридного изображения использовать команду Processor / Cluster - с использованием алгоритма ISODATA (решающие расстояния 20 и 40), затем алгоритм Processor / Сlassify / ECHO, с использованием статистики кластеров, созданных алгоритмом ISODATA. Наложить границы эталонных участков на гибридное классифицированное изображение для оценки их однородности. |
Сначала проведите кластеризацию по исходному снимку на район дельты Волги. Для этого выберите в меню Processor / Cluster алгоритм ISODATA (итеративная кластеризация без обучения). В Initialization Options (варианты инициализации) выберите Use single-pass clusters (использовать алгоритм быстрого выделения кластеров). В результате исходные центры кластеров для алгоритма ISODATA будут определены алгоритмом быстрого выделения кластеров. В Other options (прочие варианты) задайте:
Convergence (%) 98 (порог сходимости, %)
Minimum cluster size 5 (минимальный размер кластера в пикселах)
Distance 1 (First line) 20 (спектральное расстояние, в значениях яркости, для
первой строки пикселов эталонных участков при быстром выделении кластеров)
Distance 2 (other lines) 40 (спектральное расстояние для остальных строк пикселов эталонных участков при быстром выделении кластеров).
Нажмите ОК. Заданные параметры приведут к созданию 8 кластеров, что по количеству сопоставимо с числом классов, заданных нами в классификации с обучением.
В меню Set Cluster
Specifications укажите Create cluster mask file (создать маску кластеров) и
Write Cluster Report / Map to
project text window (Записать результат кластеризации / представить карту
в окне проекта). Нажмите ОК. В появляющемся диалоге введите имя файла для
сохранения кластеризованного изображения.
Когда кластеризация закончится, для проведения гибридной классификации без
обучения в меню Processor /
Classify в разделе Procedure выберите алгоритм ECHO Spectral-Spatial. В
диалоге Specify Echo Parameters примите значения по умолчанию, нажмите ОК. В
диалоге Set Classification Specifications укажите Write Classification results
to: Disk file (Записать результаты классификации как: файл на диск). Нажмите
ОК. Когда появится диалог Save Classification As, введите
имя файла для классифицированного изображения.
А теперь, используя меню File / Open Image, откройте файлы *.gis с результатами кластеризации и гибридной классификации без обучения. Закройте текущий файл проекта, созданный в процессе кластеризации, и откройте файл проекта delt_new.prj, используя меню Project / Save Project / Open Project.
Наложите границы эталонных участков из delt_new.prj на классифицированные изображения (поочередно делая окна с этими изображениями активными и используя команду меню Project / Add as Associated Image).
Визуально оцените однородность кластеров в пределах эталонных участков (на изображении с результатами кластеризации ISODATA и на изображении с результатами классификации ECHO).
ВОПРОС ПО ТЕМЕ: На каком классифицированном изображении в пределах эталонных участков однородность выше? |