Документ взят из кэша поисковой машины. Адрес оригинального документа : http://wasp.phys.msu.ru/forum/lofiversion/index.php?t5587.html
Дата изменения: Unknown
Дата индексирования: Mon Apr 11 11:25:43 2016
Кодировка: Windows-1251
Студенческий форум Физфака МГУ > Обработка экспериментальных данных
Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Обработка экспериментальных данных
Студенческий форум Физфака МГУ > Наука физика > Есть проблема
AlexDopovsky
Подскажите, плз, методику (ссылку) по устранению грубых промахов из выборки экспериментальных данных.
Результаты измерений подчиняются нормальному закону распределения. Используются массивы данных с количеством элементов порядка 10 000.

Заранее спасибо!
Belotelov
Поподробнее про задачу можно?
Массив (входных?) данных - 10^4, а число оцениваемых параметров сколько? Если дисперсия гауссова то оптимальная линейная оценка - МНК. Что такое грубые промахи? Если они проявляются в негауссовости дисперсии - можно робастифицировать МНК-оценку вводя веса (google: robust estimators).

Если точность измерений не одинакова - можно использовать фильтр Калмана стартующий с наиболее точных измерений (так получается начальная гипотеза) и затем включающий менее точные, если они совместимы с начальной гипотезой.

Или напрячся и включить источник этих "грубых промахов" в модель и фитировать все вместе, например несколькими фильтрами Калмана, запушенными параллельно (google: gaussian sum filter)
AlexDopovsky
По-подробнее:

К нам поступает массив, состоящий из порядка 10^4 результатов измерений одного и того же параметра. Известно, что результаты измерений распределены по нормальному (гауссовому) закону.

Но иногда происходит сбой в измерительном оборудовании, поэтому встречаются так называемые грубые промахи, т.е. значения, лежащие далеко за 3 сигма. Т.е. визуально (на гистограмме) рядом с "колокольчиком Гаусса" появляются пики, которые нам необходимо исключить, эти пики портят нам значение мат. ожидания = действительное значение измеряемой величины.

Убрать их, конечно, можно и по гистограмме, но это вносит элемент субъективизма.
В одной из книг по обработке результатов измерений было упомянуто, что существует математическая процедура устранения грубых промахов. Т.е. существует определенный количественный критерий. К сожалению в книге этой не было ссылки.
qBot
Кстати, эта проблема по-моему часто встречается в жизни ! Я когда писал для экспериментальной установки программу, столкнулся именно с тем самым. Я тогда ничего, кроме 3-сигма критерия не знал, поэтому нагло использовал его: либо сравнением нового значения с предыдущим, либо со средним (бегущим) от предыдущих. Но тут проблема в том, что никто не гарантирует "верность" первого значения.
И как в фильтре Калмана тогда определить "наиболее точные измерения"? Кстати, если есть ссылка на описание его работы применительно к обсуждаемой ситуации... wink.gif Самому интересно.
Free Researcher
Хм. я правильно понимаю что тут сначала ищется центр колоколообразной кривой и потом от него берется три сигма, все что мимо этого интервала - выкидывается?
AlexDopovsky
2 Free Researcher
Примерно так и есть.
Однако, насколько я понял из литературы, существует критерий по отбрасыванию промахов исходя из "неверно" рассчитанных мат. ожидания и сигма. Под "неверно" рассчитанными понимаются величины, при расчете которых учитывались грубые промахи. Т.е. точный центр колокольчика не ищется.
kirx
Странно, что в этом топике не вспомнили медианный фильтр. Вроде это первое что приходит в голову в таком случае!
10000 точек сортировать, конечно, ломает, но это совсем не запредельно.
Вкратце метод таков: сортируем экспериментальные данные от большего к меньшему (или наоборот). Потом, если у нас была 10001 точка, берем 5000ю точку из отсортированного массива. Если четное кол-во точек - среднее арифметическое 2х центральных элементов (4999 и 5000го если точек 10000). Полученная величина называется медианным средним. И она будет лучшей оценкой искомого параметра в случае большого колличества "промахов" чем простое среднее арифметическое.
Если этого мало - выбрасываем точки, отличающиеся на выбранное колличество "неправильных" сигм от медианного среднего значения. Потом из оставшейся выборки, если мы в нее верим - считаем обычное среднне и сигму. Но это, метод для ленивых.
Если делать все честно, то сигму надо брать не "неправильную", посчитанную по первоначальной выборке, а медианную сигму. На сколько я помню, она считается по формуле (ахтунг!! перед использованием - проверить!!)
median_sigma=mean(sum_ot_0_do_N(fabs(X[i]-median_X)))/(0.674*sqrt(1+Pi/(2*N))); Pi=3.1415...
Эта процедура (если не напутал в последней формуле) называется медианным фильтром. Легко обобщается на многомерный случай...
Belotelov
А что на самом деле является целью?

- Оценка интересующей Вас величины

или

- Создание наиболее чистой выборки

Если первый вариант - то бог с ними с проиахами, пусть остаются в выборке. Главное правильно их учесть при фите. То есть вам нужно какая-то модель для этих промахов - как они распределены, равномерно, широкий гаусс, полином, что угодно. И фитируйте вашу полную выборку не гауссом а суммой сигнальный гаусс + функция описывающая бэкграунд. Все другие способы наверно сведутся к тому или иному субъективизму.


Если хотите создать чистую выборку, и у вас нет никакого критерия отличия шума от сигнала кроме положения на оси - работайте над аппаратурой, чтобы снизить рэйт промахов. Обрезая тем или иным способом хвосты, вы не чистите выборку. Ибо шумы также могут встречаться и под гауссовым пиком.
Belotelov
Цитата(qBot @ 21.08.2006, 9:39) *
И как в фильтре Калмана тогда определить "наиболее точные измерения"?


Никак :-) Фильтр не определяет точность измерений.

Я имел ввиду что если есть массив неравноточных измерений, можно строить начальную гипотезу по самым точным из них, и затем включать в рассмотрение и остальные, менее точные. Если я правильно понял автора дискуссии - это не его случай. Если все 10^4 измерений равноточные, то по этому критерию их не отсортируешь. Если в данном случае применять фильтр Калмана для динамической фильтрации, то он и сведется к процедуре что Вы описали - построение (начальной) гипотезы (например среднее), проверка следующего измерения на совместимость с этой гипотезой, включение или не включение этого измерения в рассмотрение.
AlexDopovsky
2 Belotelov
В принципе изначально целью являлась чистка выборки, а затем оценка измеряемой величины
по вычищенной выборке. Про шум под гауссовым колокольчиком я догадываюсь, но практика
показала, что гистограмма, построенная по экспериментальным данным, хорошо аппроксимируется колоколом.
Кстати, с аппаратурой мы ничего не можем сделать - ей занимается другая организация.

2 kirx
Цитата(kirx @ 21.08.2006, 23:36)
медианную сигму. На сколько я помню, она считается по формуле (ахтунг!! перед использованием - проверить!!)
*


А можно ссылочку на литературу по медианным средним, сигма ...?
Кстати медианное среднее действительно оказалось ближе к центру колокольчика, чем среднее арифметическое.
kirx
2 AlexDopovsky
На самом деле приведенную формулу для медианной сигмы мне в свое время написал начальник на бумажке. В книжках мне она не попадалась...
Про само медианное среднее можно прочитать например тут.

Оценить сигму можно еще так: проехаться по данным медианным фильтром с окном много меньшим чем весь набор данных (как я предлагал в предыдущем посте), это описано тут или тут, а потом посчитать обычную сигму отфильтрованной таким образом выборки. Думаю идеалогически правельнее будет взять ее за критерий отброса, а среднее и дисперсию уже считать по нефильтрованным, но отчищенным от "промахов" экспериментальным данным.
vilfred
медиана не убъет значение, она его только отсортирует(!!!), скользящее же среднее убъет(но при этом поднимет/опустит значение рядом стоящих элементов выборки), т.е. сгладит. Т.е. если воспринимать это значение как шумовое, то можно его просто отсечь, заменив на среднее между двух рядом стоящих с шумовым значений.
PanOpticum
2 vilfred: сглаживание тут, наверное, не поможет. Среднее такой "сглаженной" выборки все равно смещено.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Русская версия IP.Board © 2001-2016 IPS, Inc.