авторефераты диссертаций БЕСПЛАТНАЯ БИБЛИОТЕКА РОССИИ

КОНФЕРЕНЦИИ, КНИГИ, ПОСОБИЯ, НАУЧНЫЕ ИЗДАНИЯ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:     | 1 |   ...   | 2 | 3 || 5 | 6 |   ...   | 7 |

«ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ ГЕОФИЗИЧЕСКИЙ ЦЕНТР РОССИЙСКОЙ АКАДЕМИИ НАУК На правах рукописи ...»

-- [ Страница 4 ] --

y |[ c,d ] – спокойный [c, d ] [c j, d j ], где p j c c1, d d p, c j [c j 1, d j 1 ], j 2,, p, d j [c j 1, d j 1 ], j 1,, p 1 (рис. 2.13) и y |[ c j,d j ] – спокойный -фрагмент на y для всех j 1,,p.

Соответственно, y |[ c,d ] – энергичный [c, d ] [c j, d j ], где p j c c1, d d p, c j [c j 1, d j 1 ], j 2,, p, d j [c j 1, d j 1 ], j 1,, p 1 (рис. 2.13) и y |[ c j,d j ] – энергичный -фрагмент на y для всех j 1,,p.

Рис. 2.13. Иллюстрация связных объединений -фрагментов.

Таким образом, «-анализ» позволяет эффективно определять и распознавать спокойствие и энергичность, а также возрастание и убывание на записи y. Он служит технической основой для распознавания выбросов в последующих блоках алгоритма SPs.

Блок 2: «Поиск квазивыбросов». Не ограничивая общности, работу этого блока мы формализуем для положительного квазивыброса (для отрицательного конструкция аналогична).

S y |[ c,d ] на записи y называется положительным Определение. Фрагмент t t (S ) квазивыбросом, если внутри отрезка [c, d ] существует точка (вершина квазивыброса S), разделяющая S на энергичную возрастающую его левую часть S l y |[ c,t ] и энергичную убывающую его правую часть S r y |[t,d ].

Алгоритм SPs начинает поиск положительного квазивыброса S с определения его вершины t. В качестве нее он выбирает тот или иной локальный максимум на y. После этого путем подбора энергично возрастающих -фрагментов алгоритм SPs выстраивает максимальную связную цепь с концом в t и полагает ее левой частью S l квазивыброса S.

Аналогично справа, начиная с t, алгоритм SPs выстраивает максимальную связную цепь из энергично убывающих -фрагментов и считает ее правой частью S r квазивыброса S.

Таким образом, блок «Построение квазивыбросов» использует распознавания «возрастание-убывание» и «энергичность», реализуемые в блоке «-анализ».

Квазивыброс определяется своей вершиной, от которой в обе стороны выстраиваются его левая и правая части.

Блок 3: «Выбор выбросов». Осталась последняя задача – понять какие квазивыбросы надо классифицировать как выбросы. Логика выбора состоит в отборе квазивыбросов со спокойными крыльями. Выбор крыльев для квазивыброса S y |[ c,d ] в алгоритме SPs происходит адаптивно, путем их выстраивания из спокойных фрагментов. Левое крыло wl ( S ) естественно заканчивается в точке c и имеет протяженность, равную протяженности левой части S l. Аналогично определяется правое крыло wr ( S ) квазивыброса S (рис. 2.14): wl ( S ) y |[2c t,c ], wr ( S ) y |[ d,2 d t ].

Рис. 2.14. Иллюстрация определения левого и правого крыльев (пунктир) квазивыброса (чёрный цвет).

Таким образом, блок «Выбор выбросов» использует -анализ в его части, относящейся к распознаванию «спокойствие». Спокойные крылья, сопровождающие квазивыброс, делают его выбросом.

Как видно из описания, алгоритм SPs = SPs (,, 1, 2 ) зависит от следующих свободных параметров:

{i : i, i 1,, m} набор локальных размеров обзора записи (2.31), 0 параметр нечеткого сравнения (2.28), 0 1 1 уровень экстремальности (2.29), 0 2 1 уровень спокойствия (2.30).

Поскольку на практике в каждой версии алгоритма SPs (,, 1, 2 ) мы полагаем множество постоянным: {i =i, i 1,,10}, то в дальнейшем мы будем считать, что алгоритм зависит от трех свободных параметров SPs = SPs (, 1, 2 ). Обозначим через (, 1, 2 ) каждый набор свободных параметров.

2.5. Алгоритм распознавания скачков JM (JUMP) 2.5.1. Неформальная логика Неформальная логика, лежащая в основе поиска скачков на записи, может быть описана следующим образом: «Скачок – аномалия на записи, приводящая к смещению ее уровня». По аналогии с целью исследования будем называть соответствующий алгоритм JM, сокращенно от JUMP – скачок (англ.).

В основе алгоритма JM лежит нечеткая мера скачкообразности (рис. 2.15), представляющая собой функционал исходной записи с областью значений от 0 до 1.

Большие значения этого функционала соответствуют резкому изменению уровня исследуемой записи, а их выбор происходит с использованием нечетких сравнений.

Рис. 2.15. На верхнем графике приведен фрагмент исследуемой записи BZ, на среднем – соответствующая записи мера скачкообразности.

Запись (магнитограмму) мы будем интерпретировать как временной ряд y { yt y(t )}, заданную на отрезке (периоде регистрации) T дискретной полуоси {t kh, h 0, k 1,2, }, где h – шаг дискретизации, k – узел наблюдения. Без h потери общности положим h 1.

2.5.2. Нечеткие грани Для построения алгоритма выделения скачков нам понадобится понятие нечетких граней. Пусть A ai n конечное числовое множество и B A - его произвольное подмножество. Тогда порядок | B | - порядок этого подмножества, B b : b B B сумма его элементов, S B - их среднее значение. Нечеткие итерационные | B| верхние и нижние скалярные грани S ( A) и S ( A) определяются для A индуктивно с использованием вспомогательных подмножеств Ak, Ak.

Начало индукции: для k 0 полагаем S0 ( A) S0 ( A) S ( A) ;

A0 a A : a S0 ( A) ;

A0 a A : a S0 ( A) Предположение и шаг индукции: считая грани Sk ( A), Sk ( A) и множества Ak, Ak уже определенными, положим Ak | Ak | Sk ( A) Ak | Ak | Sk ( A) Sk 1( A) Sk ( A) ;

Sk 1( A) Sk ( A) | A| | A| Ak 1 a A : a Sk 1( A) ;

Ak 1 a A : a Sk 1( A).

В качестве нечетких верхней и нижней граней supA и inf A для A выбираются S k и S k для подходящего порядка k. На рис. 2.16, 2.17 показаны нечеткие грани первых пяти и трех порядков.

- - 100 200 300 400 500 600 700 800 Рис. 2.16. Пример вычисления нечетких верхней и нижней граней при k = 0, …, 5. При k = 0 нечеткая верхняя и нижняя грань показана фиолетовым цветом, в остальных случаях верхняя – красным, нижняя – зеленым.

Рис. 2.17. Нечеткие грани первых трех порядков. При k = 0 нечеткая верхняя и нижняя грань показана зеленым цветом, в остальных случаях верхняя – красным, нижняя – синим.

Нечеткие грани с разной степенью жесткости разбивают числовую прямую относительно A на четыре части: маленькие, слабомаленькие ( незначительные скорее маленькие, чем большие), слабобольшие ( незначительные скорее большие, чем маленькие), большие. Чем k больше, тем разбиение жестче, менее учитывает специфику A и поэтому неинтереснее.

Sk маленький значительный (, Sk ( A)] Wk маленький незначительный ( Sk ( A), S0 ( A)] по mod A p P Wk большой незначительный ( S0, Sk ( A)] Sk большой значительный ( Sk ( A), ] Предельно жесткое разбиение получается при k, если положить Sk min A, Sk max A и совершенно не учитывать A :

(,min A] S маленький W маленький (min A, S0 ] по mod A p P W большой ( S0,max A] S большой (max A, ] Разницу Wk ( A) Sk ( A) Sk ( A) естественно назвать стохастической шириной A k-го порядка. Ширина Wk ( A) гибко отображает обычное статистическое отклонение ( A) d ( A).

2.5.3. Нечеткая мера скачкообразности Располагая алгоритмом FCARS [Гвишиани и др., 2008б] и методикой вычисления нечетких граней, мы можем перейти к поиску скачков. Поскольку скачок является аномалией (см. неформальную логику алгоритма JM), применим к ее распознаванию алгоритм FCARS. Воспользуемся этим алгоритмом и выделим на записи y (t ) все ее аномалии (временные возмущения). Пусть A y |[ c,d ] произвольная аномалия на y (t ), распознанная алгоритмом FCARS (рис. 2.18). Предполагаемый в аномалии A скачок на y (t ) должен приводить к значительному не только по вертикали, но и по горизонтали смещению уровня записи в районе A. Поэтому, выбирая параметр обзора, мы h переходим от аномалии A к ее -окрестности A() y |[ c,d ] и ищем уже для A() скачки [a, b] на отрезке [c, d ]. Их поиск осуществляется с помощью вычисления нечетких (мягких) граней конечного числового множества: нечеткого супремума sup и нечеткого инфимума inf. Их определение приведено выше.

- - - - - - 269.6 269.7 269.8 235.6 235.7 235.8 235. Рис. 2.18. На примерах показаны два события (красный цвет), распознанные алгоритмом FCARS.

Обратимся к поиску скачка j ( A) в аномалии A y |[ c,d ]. Для этого для каждого отрезка [a, b ] [c, d ] определим с помощью нечетких граней мягкие коридоры, в которых лежат фрагменты y |[ a,a ] и y |[b,b ]. Обозначим их границы слева соответственно через linf y[a, b ] и lsup y[a, b ], а справа – через rinf y[a, b ] и rsup y[a, b ] :

linf y[a, b ] inf{ y(t ) :t [a, a ]} ;

lsup y[a, b ] sup{ y(t ) :t [a, a ]} rinf y[a, b ] inf{ y(t ) :t [b, b ]} ;

rsup y[a, b ] sup{ y(t ) :t [b, b ]}.

Если отрезок [a, b ] является скачком, то построенные -коридоры записи y (t ) слева и справа от отрезка [a, b] должны быть согласованы друг с другом, то есть располагаться на существенно разных уровнях. Это приводит к двум последовательным тестам (рис. 2.19):

T1,u : linf y[a, b ] lsup y[a, b ] rinf y[a, b ] rsup y[a, b ] (скачок вверх) T1,d : lsup y[a, b ] linf y[a, b ] rsup y[a, b ] rinf y[a, b ] (скачок вниз).

Рис. 2.19. Внутри выбранных событий выделены скачки (красный цвет).

Слева и справа на крыльях (зеленый) показаны нечеткие грани (черный цвет).

Условимся, что запись [a, b ] T будет означать выполнимость для отрезка [a, b ] теста T. Для [a, b ] T1 определим меру скачкообразности jmes A[a, b ] аномалии A на отрезке [a, b ] [c, d ] через нечеткое сравнение внутренних и внешних отрезков:

T1,u n(rinf y[a, b ] lsup y[a, b ],rsup y[a, b ] linf y[a, b ]) jmes A[a, b ], [a, b ].

n(linf y[a, b ] rsup y[a, b ],lsup y[a, b ] rinf y[a, b ]) T1,d Мера jmes дает возможность устроить дальнейшую проверку аномалии A на наличие в ней скачка: будем считать, что в отрезке [a, b ] [c, d ] аномалия A y |[ a,b ] испытывает скачок, если справедлив тест T2 :

T2 : jmes A[a, b ].

Если аномалия A y |[ c,d ] удовлетворяет тестам T1 и T2, то будем считать ее скачком j ( A) отрезок [a, b] [c, d ], в котором мера jmes A[a, b ] минимальна def j ( A) [a, b] arg min jmes y[a, b, ].

[ a,b ](T1 T2 ) Тесты T1 и T2 не изменятся, если фрагмент A() y |[ c,d ] заменить на A() y |[c,d ] для 0. Другими словами, тесты T1 и T кратный ему фрагмент однородны. Это – следствие однородности конструкций inf ( ), sup( ) и нечеткого сравнения n( ). Поэтому успешно выдержавшие тесты T1 и T2 скачки на записи y (t ) могут иметь незначительный абсолютный характер. Пример (рис. 2.19, слева) иллюстрирует сказанное: найденная алгоритмом FCARS аномалия является скачком, но слабым.

Нужна еще одна последняя проверка скачка на его абсолютную величину. Ее логика такова: если аномалия A имеет скачок j ( A) [a, b], то после ее удаления из записи y (t ) новая запись y(t ) y(t ) y |[ a,b ] уже в соседних для себя точках a h и b h также испытает скачок, в частности, эти точки будут вертикально аномальны в смысле алгоритма FCARS. Мы приходим к тесту T3, основанному на алгоритме FCARS:

T3 : min( Fy (a h | ), Fy (b h | )) s.

Здесь Fy ( | ) выпрямление записи y на основе локального обзора, h, s - уровень сильной вертикальной аномальности в алгоритме FCARS.

Последовательная реализация описанных выше шагов приводит к объективному распознаванию скачков на записи временного ряда y(t ) и представляет собой самодостаточный алгоритм их поиска. Конкретная реализация алгоритма JM определяется выбором следующих свободных параметров:

–параметр локального обзора алгоритма FCARS, h – параметр глобального обзора, h [0.9,1] – уровень сильной вертикальной аномальности в алгоритме FCARS, [0.5,1] – уровень скачкообразности аномалии.

(,,, ). Два Каждый набор свободных параметров обозначим через примера работы алгоритма JM на магнитных записях ИНТЕРМАГНЕТ приведены на рис.

2.20.

(а) (б) Рис. 2.20. Пример выделения скачков (черный цвет) на предварительных записях ИНТЕРМАГНЕТ (внизу) и сравнение результатов с записями, прошедшими ручной контроль качества экспертами (вверху): фрагмент записи компоненты Y на обсерватории BOU (а), фрагмент записи компоненты Z на обсерватории BOU (б).

2.6. Мера аномальности В рамках диссертации при помощи описанного ниже метода решается задача оценки геомагнитной активности по данным наземных наблюдений магнитного поля Земли. Для этого вводится мера аномальности, являющаяся модификацией алгоритма FCARS (Fuzzy Comparison Algorithm for Recognition of Signals). А именно, мы ограничиваемся использованием вертикальной меры аномальности (t) (в дальнейшем просто мера аномальности) алгоритма FCARS.

Вертикальная мера аномальности алгоритма FCARS [Гвишиани и др., 2008б] v (k ) [1,1] в точке k T определяется как нечеткое сравнение (см. раздел 2.2.3) образа Im y y (T ) выпрямления y (рис. 2.21) с его значением y (k ) в точке k :

v (k ) n Im y, y (k ).

Рис. 2.21. Иллюстрация первых этапов работы алгоритма FCARS: построение выпрямления и поиск возвышенностей на выпрямлении.

Для адекватного моделирования локальной аномальности в алгоритме FCARS применяется открытый к пополнению набор «выпрямлений», представляющих собой разные конструкции функционалов от исходной записи (см. раздел 2.2.2).

Пусть s ( w ) соответственно сильный (слабый) уровень экстремальности по n Im, 0.

модулю Im y : s ( w ) – решение уравнения n Im y, s 2 y w Определение.

1. Точка k – вертикально фоновая, если v (k ) 0 y (k ) w ;

y (k ) s ;

2. Точка k – вертикально аномальная, если v (k ) 3. Точка k – вертикально потенциально-аномальная, если v (k ) 0, 1 y (k ) w, s.

Обозначим через vB множество вертикально фоновых точек, через vA – множество вертикально аномальных и через vP – множество вертикально потенциально аномальных точек. Они дают вертикальное разбиение периода регистрации T vB vA vP. На рис. 2.22 приведена рассчитанная вертикальная мера аномальности на примере магнитограммы обсерватории Chambon la Foret (CLF).

Рис. 2.22. Сверху приведена магнитная запись компоненты X за январь 2005 г., полученная на обсерватории Chambon la Foret (CLF), посередине приведено выпрямление записи y (в данном случае «Длина»), снизу приведена вертикальная мера аномальности v (k ) [1,1]. На всех трех графиках синим цветом помечены точки, принадлежащие множеству vB ( v (k ) 0 ), зеленым и фиолетовым – точки множества vP ( v (k ) 0, 1 ), красным – точки множества vA ( v (k ) 1 ).

2 2.7. Алгоритм распознавания событий на данных о цунами RTFL (Recognition of Tsunamis Based on Fuzzy Logic) Предлагаемый алгоритм RTFL (Recognition of Tsunamis based on Fuzzy Logic) предназначен для поиска на записях событий двух видов: соответствующих приходу P волны и приходу цунами. Как и предыдущие алгоритмы, описанные в данном разделе, RTFL также основан на базовых принципах алгоритмического подхода к анализу временных рядов в рамках ДМА.

Поставленная задача решается в три этапа. На первом этапе мы проводим одномерное вейвлет-преобразование исходного сигнала с помощью симлет-вейвлетов 6-го порядка, принадлежащих семейству модифицированных вейвлетов Добеши [Смоленцов, 2005] (см. раздел 1.1.4). Затем мы проводим реконструкцию вейвлет-коэффициентов с 1 го по 5-ый уровни. В результате мы получаем наборы коэффициентов аппроксимации (рис. 2.23а) и детализации (рис. 2.23б).

(а) (б) Рис. 2.23. Записи, построенные на базе восстановленных вейвлет-коэффициентов аппроксимации (а) и детализации (б) с 1-го по 5-ый уровни. На каждом из двух рисунков на верхнем графике приведен фрагмент исходной записи, а на последующих сверху вниз приведены записи, построенные на базе соответствующих коэффициентов 1-го уровня, с 1-го по 2-ой уровни, с 1-го по 3-ий уровни, с 1-го по 4-ый уровни и с 1-го по 5-ый уровни.

По результатам реконструкции вейвлет-коэффициентов вычисляются два временных ряда: ряд, построенный с использованием вектора коэффициентов детализации 1-го уровня, и ряд, построенный с использованием вектора коэффициентов детализации с 1-го по 5-й уровни (рис. 2.24). Назовем Выпрямлением 1 ( R1 ) модуль значений первого ряда и Выпрямлением 2 ( R 2 ) модуль значений второго ряда. Эти две записи и предназначены для дальнейшего анализа.

Рис. 2.24. Примеры записей, построенных с использованием восстановленных вейвлет коэффициентов детализации. На каждом рисунке сверху приведен фрагмент исходной записи, посередине – запись, построенная с использованием коэффициентов детализации 1-го уровня, снизу – запись, построенная с использованием коэффициентов детализации с 1-го по 5-й уровни.

Из обоих примеров на рис. 2.24 ясно видно, что большие по модулю значения на среднем графике соответствуют характерному сигналу P-волны на исходной записи, а большие по модулю значения на нижнем графике – характерному сигналу волны цунами на исходной записи. Поэтому на втором этапе осуществляется поиск аномалий (больших значений) на полученных выпрямлениях. Для этого рассчитывается вертикальная мера аномальности алгоритма FCARS (Fuzzy Comparison Algorithm for Recognition of Signals) [Гвишиани и др., 2008б] (см. раздел 2.6) на R1 и R 2. Большие значения построенной меры на R1 соответствуют P-волнам, а большие значения построенной меры на R соответствуют цунами (рис. 2.25).

Рис. 2.25. Примеры выпрямлений и расчета вертикальной меры аномальности согласно алгоритму FCARS (красная линия).

Вначале мы разбиваем область задания на смежные отрезки длиной 30000 точек.

Для первого выпрямления R1 на каждом отрезке решаем уравнение n0.5 (Im R1, r ) 0.9.

Все точки отрезка, в которых значение r (вертикальный уровень аномальности), мы будем считать аномальными. Фактически это означает, что в точках, где значение выпрямления r, вертикальная мера аномальности 0.9. На втором выпрямлении R сценарий тот же самый, но с другими параметрами. На каждом из отрезков длиной точек мы решаем уравнение n0.5 (Im R2, r ) 0.8 и определяем аномальные зоны на втором выпрямлении, т.е. точки, в которых вертикальная мера аномальности 0.8. На рис. 2. красной линией отмечены рассчитанные вертикальные уровни аномальности. Значения выпрямлений, лежащие выше соответствующего уровня, соответствуют аномальным значениям на исходной записи.

Нетрудно заметить, что сегменты аномальности, особенно в случае Выпрямления ( R 2 ) (рис. 2.25), образуют разрывные отрезки. Для объединения подобных сегментов и уточнения границ начала и конца аномалии служит третий этап алгоритма. Понятие близких аномалий вводится следующим образом. Для этого в случае первого выпрямления R1 задается параметр 1 50 и считается, что две аномалии должны быть объединены в одну, если расстояние между ними меньше 1. Все полученные отрезки считаются P -волнами. В случае второго выпрямления R 2 полученные аномалии объединяются с параметром близости 2 1000. Они предполагаются волнами цунами.

2.8. Выводы 1. Создана новая алгоритмическая система автоматизированного распознавания и изучения аномальных событий на больших временных рядах различных геофизических данных. Алгоритмы отличаются универсальностью, позволяя решать широкий спектр геофизических задач. В отличие от существующих методов распознавания аномальных событий, в их основе лежит моделирование естественных рассуждений и действий человека при поиске аномалий. Этот метод базируется на алгоритмическом подходе дискретного математического анализа (ДМА) к распознаванию аномалий на временных рядах регистрации геофизических полей.

2. На базе конструкции нечетких сравнений строго формализованы понятия, необходимые для анализа временных рядов: нечеткая мера аномальности, оценивающая в шкале от -1 до 1 степень аномальности того или иного фрагмента временного ряда на общем фоне, нечеткие грани, позволяющие выявлять наиболее характерные диапазоны изменения значений на фрагментах временных рядов, и нечеткая мера скачкообразности, оценивающая в шкале от -1 до 1 степень значительности перепада базового уровня. Эти формализации позволяют эффективно решать поставленные в рамках диссертации задачи методом ДМА.

3. Описанные в главе алгоритмы обладают существенной адаптивностью и универсальностью в силу наличия свободных параметров. Используя конкретный набор значений параметров, алгоритмы осуществляют единообразное формализованное распознавание аномальных событий на временных рядах произвольной природы.

Специфика и морфология данных при этом отражены в результатах обучения (значениях свободных параметров).

Разработанные алгоритмы связаны общей математической основой с 4.

использованием нечеткой логики и базируются на единой математической теории – дискретном математическом анализе. Это делает соответствующую алгоритмическую систему эффективным и универсальным инструментарием, позволяющим решать широкий круг задач, связанных с анализом временных рядов и распознаванием отраженных на них аномальных событий.

5. Разработанный алгоритмический метод ДМА адаптирован для распознавания аномальных событий на временных рядах магнитограмм, зарегистрированных на наземных обсерваториях и искусственных спутниках Земли.

6. Разработанный метод адаптирован для распознавания аномальных событий на временных рядах вариаций придонного давления воды, регистрируемых мировой сетью придонных датчиков гидростатического давления в открытом океане.

ГЛАВА 3. Распознавание на магнитограммах аномальных событий техногенного происхождения алгоритмами дискретного математического анализа Данная глава основана на результатах, опубликованных в работах [Soloviev et al., 2009, 2012а, 2013;

Богоутдинов и др., 2010;

Гвишиани и др., 2011;

Соловьев и др., 2012а;

Сидоров и др., 2012;

Клейменова и др., 2013;

Kleimenova et al., 2012;

Зелинский и др., 2014].

3.1. Техногенные сбои на магнитограммах Наблюдения магнитного поля Земли и его изучение является одной из важнейших задач геофизики. Система ИНТЕРМАГНЕТ служит основой мониторинга состояния магнитного поля Земли, поэтому требования к достоверности предоставляемой ею информации очень высоки. Несмотря на жесткий высокий стандарт качества регистрирующих приборов, они подвержены внешним воздействиям, которые отражаются на качестве записей. Поэтому важной задачей является объективное, формализованное распознавание, а затем и устранение возникающих техногенных аномалий (сбоев) на записи. В данной главе предложены новые алгоритмы SP, SPs и JM автоматического распознавания аномалий с заданной морфологией, которые позволяют выделять на магнитограммах выбросы как физической, так и техногенной природы, а также скачки базового уровня. Алгоритмы построены с использованием нечеткой логики и в силу этого обладают большой адаптивностью и универсальностью. Разработанная и реализованная алгоритмическая система формализует работу эксперта-интерпретатора в терминах искусственного интеллекта. Это позволяет единообразно проводить обработку больших массивов данных, что практически невозможно сделать вручную.

На рис. 3.1 приведены примеры характерных временных аномалий, которые требуется устранить для дальнейшего использования полученных наблюдений в целях мониторинга магнитного поля Земли и других фундаментальных исследований. Подобные аномалии (сбои), как правило, вызваны следующими причинами:

1. Природные явления;

2. Техногенные явления, включая перемещения больших объемов металла;

3. Калибровка измерительного прибора;

4. Искажение данных при их передаче из обсерваторий в информационные узлы с помощью Интернет.

Рис. 3.1. Примеры аппаратных сбоев магнитометра, отраженных на записях К природным явлениям, прежде всего, относятся грозы, которые индуцируют электрические токи внутри Земли и вызывают кратковременные изменения естественного хода ее магнитного поля. Полярное сияние может также оказывать кратковременное воздействие на обсерватории, расположенные в высокоширотных областях, за счет возникновения токов в ионосфере. Примером подобных природных явлений являются и пульсации магнитного поля [Троицкая, Гульульми, 1969], вызванные солнечной активностью.

Одной из основных причин возникновения скачка базового уровня на записи является резкое изменение температуры в помещении, где установлен вариометр. Кроме того, установка новых значений базовой линии для измеряемых вариометром компонент, которые регулярно рассчитываются в результате проведения абсолютных измерений, является одной из возможных причин скачка базового уровня. Во многих случаях, установка новых значений базовой линии требуется в связи с запланированным перемещением вариометра или заменой элементов блока электроники.

Температурные вариации также являются и причиной дрейфа базового уровня: на современных вариометрах дрейф характеризуется величиной 0.1-0.5 нТл / oC. Дрейфы могут носить и долгосрочный характер и составлять более 2 нТл в год.

К техногенным явлениям можно отнести близость городов, аэродромов, железных дорог, линий электропередач. Это также приводит к индуцированию тока внутри Земли и созданию помех в работе магнитного оборудования. При регулярной калибровке прибора искусственно создаются помехи для проверки его работоспособности, что также сказывается на регистрируемых записях.

При передаче данных через Интернет нестабильный канал связи (например, спутниковый) может быть причиной появления сбоев на записях. Такие сбои обнаруживаются экспертом при сравнении Интернет-данных с данными за тот же период регистрации, хранимыми независимо в локальных архивах. В то же время на выделенных каналах подобные сбои не наблюдаются.

Регистрирующая аппаратура обсерваторий сети ИНТЕРМАГНЕТ, являющейся основой мониторинга магнитного поля Земли, подвержена внешним воздействиям, что отражается на качестве данных. При анализе магнитограмм требуется обнаружение на них характерных аномалий техногенного происхождения, которые подлежат устранению.

3.2. Автоматизированное распознавание выбросов на минутных магнитограммах 3.2.1. Постановка задачи распознавания выбросов на минутных магнитограммах (1/60 Гц) ИНТЕРМАГНЕТ В настоящее время в мире функционируют более 120 обсерваторий стандарта ИНТЕРМАГНЕТ, которые в режиме реального времени регистрируют информацию о магнитном поле Земли в виде временных рядов. Обсерватории расположены по всему земному шару и каждая из них обладает оборудованием, необходимым для цифровой регистрации трех компонент и модуля магнитного поля Земли: векторный магнитометр, протонный магнитометр и магнитометр на теодолите. Большинство обсерваторий ИНТЕРМАГНЕТ осуществляют регистрацию с частотой 1/60 Гц. В настоящее время ряд французских обсерваторий переходят на работу с частотой 1 Гц. Переход на секундную регистрацию планируется и на российской обсерватории “Борок” [Анисимов, Дмитриев, 2003]. Данные из обсерваторий с минимальным запаздыванием (не более 72 часов) поступают в центры сбора данных (Geomagnetic Information Node – GIN) ИНТЕРМАГНЕТ в Канаде (Оттава), США (Голден, шт. Колорадо), Франции (Париж), Великобритании (Эдинбург) и Японии (Киото) [Kerridge, 2001;

Love, 2008].

В нашей стране обсерватории ИНТЕРМАГНЕТ успешно функционируют в поселке Борок (Геофизическая обсерватория ИФЗ РАН), в Иркутске (Институт солнечно-земной физики СО РАН), Новосибирске (Алтае-Саянское отделение Геофизической службы СО РАН), Магадане (Институт космофизических исследований и распространения радиоволн ДВО РАН) и Якутске (Институт космофизических исследований и аэрономии СО РАН).

Ежегодно эксперты обсерваторий и центров сбора магнитных данных осуществляют вручную обработку и фильтрацию накопленных сырых (предварительных – preliminary) данных, делая обработанные (окончательные – definitive) данные доступными мировому научному сообществу. Несмотря на тесное сотрудничество между обсерваториями, подходы к обработке данных могут отличаться и нести в себе субъективность оценки того или иного эксперта. Кроме того, даже у одного эксперта процесс обработки данных может меняться со временем, к примеру, с приходом усталости. В связи с этим математическая формализация распознавания временных возмущений могла бы способствовать существенному повышению качества окончательных данных ИНТЕРМАГНЕТ [Soloviev et al., 2009]. В свою очередь, повышение качества наблюденных магнитных данных внесет существенный вклад в наши знания о магнитном поле Земли.

Первоначально алгоритм обучен и проэкзаменован на данных 2007 и 2008 гг., характеризующихся спокойной геомагнитной обстановкой. Для оценки стабильности работы алгоритма SP и с целью его возможного дальнейшего совершенствования необходима также проверка его работы на данных, осложнённых помехами в виде природных короткопериодических колебаний (пульсаций) [Троицкая, Гульульми, 1969;

Клейменова, 2007;

Клейменова и др., 2013;

Kleimenova et al., 2012;

Зелинский и др., 2014].

Именно эти пульсации и являются чаще всего «ложными тревогами» при распознавании искусственных выбросов, поскольку они:

1) не приводят к смещению базового уровня записи;

2) близки к выбросам по форме сигнала, а иногда и по амплитуде и частоте.

Данные природные возмущения (сингулярные фрагменты записи) формально соответствуют приведённому в разделе 2.3 определению выброса. Однако распознавание их как выбросов является ошибкой второго рода. Таким образом, отдельный интерес представляет собой применение разработанного метода к задаче распознавания выбросов на геомагнитных данных, соответствующих годам повышенной солнечной активности. К таким периодам относятся, например, 2001-2003 гг. и 2005 г. [Ишков, 2006]. В рамках этой задачи требуется также оценить величины ошибок первого рода (пропуск цели) и второго рода (ложная тревога).

3.2.2. Обучение алгоритма SP. Формальная схема Для проведения процедуры обучения алгоритма введем следующие SP обозначения:

S {sk }, k 1,,114 - множество обсерваторий ИНТЕРМАГНЕТ;

D {di }, i 1,,4, di { X,Y, Z, F} - множество компонент магнитного поля, измеряемых на обсерваториях ИНТЕРМАГНЕТ;

ys, d - компонента типа d, зарегистрированная обсерваторией s ;

( ys, d ) - произвольный фрагмент временного ряда ys, d, ( ys, d ) { ( ys, d )} множество всех таких фрагментов на записи ys, d.

S S и DD и Обучающая выборка определяется подмножествами представляет собой совокупность всех фрагментов всех записей ys, d с s S и d D :

(S, D) {( ys, d ) : s S, d D}. Элементы будем обозначать через ( ys, d ), где s S, d D.

(,,, ), на Определим показатель качества работы алгоритма SP( ),. Пусть A( ) - множество выбросов, найденных на фрагменте фрагменте экспертом, а SP( )( ) - множество выбросов, найденных на фрагменте алгоритмом SP( ).

Обозначим через K ( SP( )( )) вероятность ошибки первого рода (пропуск цели) экспертом выбросы [Гмурман, 1997], т.е. того, что найденные на фрагменте пропущены алгоритмом SP( ) :

| A( ) SP( )( ) | K 1 ( SP( )( )) 1. (3.1) | A( ) | Обозначим через K ( SP( )( )) вероятность ошибки второго рода (ложная алгоритмом SP( ) тревога) [Гмурман, 1997], т.е. того, что найденные на фрагменте выбросы не распознаны экспертом:

| A( ) SP( )( ) | K 2 ( SP( )( )) 1. (3.2) | SP( )( ) | Общий критерий качества работы K (SP( )( )) K ( SP( )()) алгоритма SP( ) на фрагменте представляет собой их -линейную комбинацию: если 0 1, то K (SP( )( )) K 1 (SP( )()) (1 ) K 2 ( SP( )()). (3.3) K (SP( )()) распознавания Теперь можно определить критерий качества алгоритма SP( ) на обучающей выборке, как интегральный показатель совокупности K ( SP( )( )) по всем :

K (SP( )()) {K ( SP( )()), }.

Вариантами соединения могут быть [Аверкин и др., 1986]:

1. Нечеткая дизъюнкция:

K (SP( )()) max{K ( SP( )()), }. (3.4) 2. Среднее по Колмогорову r K ( SP( )( )) r r K ( SP( )()) r {K ( SP( )( )), }, r 0.

|| 3. Нечеткое среднее | : K ( SP( )( )) | K ( SP( )()) {K ( SP( )( )), } sup min, || [0,1) Обучение алгоритма SP может происходить на выборках самой разной конфигурации, но самыми естественными представляются следующие уровни обучения:

S D, (Глобальный уровень) S D, (Уровень направления) (3.5) s D, (Уровень станции), (Уровень фрагмента) Критерий K (SP( )()) при фиксированном множестве является функцией от (,,, ) и. Процесс обучения состоит в свободных параметров алгоритма SP минимизации этой функции на некотором множестве параметров P (4), т.е. в получении наборов оптимальных свободных параметров алгоритма SP( ) на, * * Arg min( K (SP(,,, ), )). Если таких наборов несколько, то через SP(, ) будем обозначать каждый такой алгоритм SP( * ). Таким образом,, множество составляющими частями обучения являются обучающая выборка параметров и критерий качества K K, а результатом обучения – реализация алгоритма SP(, ) при оптимальных значениях свободных параметров.

3.2.3. Обучение алгоритма SP в период пониженной магнитной активности Обучение алгоритма SP проводилось на четырех описанных выше уровнях с использованием 25 магнитограмм, зарегистрированных на 7 обсерваториях ИНТЕРМАГНЕТ (рис. 3.2) в период с 1 января по 31 декабря 2007 года частотой 1/60 Гц, то есть S S, | S | 7.

Рис. 3.2. Схема расположения обсерваторий всемирной сети ИНТЕРМАГНЕТ. На этапе обучения использовались магнитограммы, которые были получены из семи обсерваторий, помеченных черными кругами Магнитограммы представляют собой предварительные записи данных.

Продолжительность каждой магнитограммы составляет 525600 точек цифровой регистрации на временной оси. С обсерваторий 1, 2, 4, 5 использовались четыре компоненты X, Y, Z, F, с обсерваторий 3, 6, 7 – только компоненты X, Y, Z (табл. 3.1).

Стоит отметить, что выбранные обсерватории репрезентативны с точки зрения природы регистрируемых данных, поскольку расположены на разных широтах в северном полушарии. Кроме того, среди них имеется обсерватория, находящаяся вблизи северного полюса.

Таблица 3.1. Обсерватории ИНТЕРМАГНЕТ, магнитограммы которых за период 01.01 – 31.12.2007 обрабатывались алгоритмом SP Обсерва № Расположение Широта Долгота Компоненты тория 4.3о с.ш. 18.6о в.д.

Банги, ЦАР 1 BNG X, Y, Z, F 40.14о с.ш. 105.24о з.д.

Болдер, США 2 BOU X, Y, Z, F 51.10о с.ш. 4.6о в.д.

Дюрбе, Бельгия 3 DOU X, Y, Z 38.2о с.ш. 77.4о з.д.

Фредериксберг, США 4 FRD X, Y, Z, F 13.59о с.ш. 144.87о в.д.

Гуам, США 5 GUA X, Y, Z, F 77.0о с.ш. 15.55о в.д.

Свалбард, Польша 6 HRN X, Y, Z 43.91о с.ш. 144.19о в.д.

Мэиамбэцу, Япония 7 MMB X, Y, Z Для обучения алгоритма SP во всех случаях рассматривалось следующее { 3, 5, 7,10,15 ;

5,10,15, 20, 30, 50 ;

множество параметров:

0.75 0.975 с шагом 0.025;

0.5 0.975 с шагом 0.025}. Так как всегда меньше, было исследовано | | 4600 наборов параметров.

При формирования множеств A( ) использовался результат рутинной обработки указанных выше магнитограмм экспертами. При этом выбросы на предварительных записях с амплитудой меньше 30 нТл не рассматривались.

принималось равным 0.9, что выражало большую В критерии K значение степень важности мнения эксперта (критерия K ) в сравнении с алгоритмом SP (критерий K 2 ).

Оптимальные параметры алгоритма SP при обучении на различных уровнях приведены в табл. 3.2 и 3.3.

Таблица 3.2. Оптимальные параметры алгоритма SP(, ), полученные с использованием различных обучающих выборок Оптимальные параметры алгоритма * Обучающая Уровень выборка обучения S D Глобальный 7 30 0.875 0. Уровень S { X,Y } 3 30 0.925 0. направления Уровень S {X } 3 30 0.900 0. направления Уровень S {Y } 3 30 0.950 0. направления Уровень S {Z } 5 30 0.900 0. направления Уровень S {F} 5 30 0.925 0. направления Уровень {BNG} D 10 30 0.825 0. обсерватории Уровень {BOU } D 3 30 0.925 0. обсерватории Уровень {DOU } D 3 5 0.950 0. обсерватории Уровень {FRD} D 3 30 0.850 0. обсерватории Уровень {GUA} D 3 10 0.900 0. обсерватории Уровень {HRN} D 3 15 0.950 0. обсерватории Уровень {MMB} D 3 20 0.950 0. обсерватории Таблица 3.3. Оптимальные параметры алгоритма SP(, ), полученные при обучении на уровне фрагмента Оптимальные параметры алгоритма * Обучающая выборка {BNG}{X} 3 5 0.950 0. {BNG}{Y} 3 30 0.900 0. {BNG}{Z} 5 30 0.900 0. {BNG}{F} 5 15 0.925 0. {BOU}{X} 3 50 0.875 0. {BOU}{Y} 3 5 0.925 0. {BOU}{Z} 3 50 0.900 0. {BOU}{F} 3 15 0.875 0. {DOU}{X} 3 30 0.900 0. {DOU}{Y} 3 15 0.900 0. {DOU}{Z} 3 10 0.875 0. {FRD}{X} 5 15 0.900 0. {FRD}{Y} 3 20 0.950 0. {FRD}{Z} 5 20 0.950 0. {FRD}{F} 3 30 0.850 0. {GUA}{X} 3 5 0.850 0. {GUA}{Y} 3 10 0.825 0. {GUA}{Z} 3 15 0.875 0. {GUA}{F} 3 20 0.750 0. {HRN}{X} 3 5 0.950 0. {HRN}{Y} 3 5 0.950 0. {HRN}{Z} 3 15 0.950 0. {MMB}{X} 3 30 0.825 0. {MMB}{Y} 3 50 0.775 0. {MMB}{Z} 3 20 0.950 0. Функция распределения значений K 0.9, рассчитанных по результатам обучения на глобальном уровне, приведена на рис. 3.3, а количество наборов значений свободных параметров алгоритма при соответствующем значении K 0.9 приведено на рис. 3.4.

Рис. 3.3. Функция распределения значений K 0.9 при обучении SP на глобальном уровне Рис. 3.4. Количество наборов значений свободных параметров алгоритма при соответствующем значении K 0.9 при обучении SP на глобальном уровне 3.2.4. Контрольные эксперименты для оценки достоверности полученных результатов (внутренний экзамен) Внутренний экзамен состоит в применении оптимальных алгоритмов SP(, ) из обучающей выборки. Ниже будет рассмотрено непосредственно к фрагментам обучение алгоритма на четырех уровнях (3.5).

3.2.4.1. Глобальный уровень На глобальном уровне использовалась обучающая выборка S D и был * (7,30,0.875,0.9) (табл. 3.2).

получен следующий оптимальный набор параметров Соответствующий алгоритм SP(, ), примененный к 25 выбранным магнитограммам, выделил 290 событий, из которых только 275 являются выделенными экспертами выбросами (табл. 3.4 и 3.5). На рис. 3.5 приведены примеры работы алгоритма SP(, ), а на рис. 3.6 характерные образцы выбросов. Ошибки первого рода отсутствуют. Таким образом, вероятность пропуска события (ошибки первого рода) в этом случае равна 0.0, а вероятность выделения лишнего события (ошибки второго рода, рис. 3.7) мала и равна 0.055.

Таблица 3.4. Результаты внутреннего экзамена алгоритма SP(, ), полученного на глобальном уровне обучения.

События, Ошибка Ошибка Выбросы, Обсерва- выделенные 1-ого рода 2-ого рода Компонента выделенные тория алгоритмом (пропуск (ложные экспертом события) события) SP X 10 10 0 Y 13 15 0 BNG Z 16 18 0 F 8 9 0 X 17 17 0 Y 7 7 0 BOU Z 21 21 0 F 10 10 0 X 2 2 0 DOU Y 6 6 0 Z 3 3 0 X 17 18 0 Y 9 9 0 FRD Z 17 20 0 F 9 10 0 X 24 24 0 Y 11 11 0 GUA Z 23 23 0 F 14 14 0 X 8 8 0 HRN Y 6 6 0 Z 10 15 0 MMB X 4 4 0 Y 4 4 0 Z 6 6 0 275 290 0 Таблица 3.5. Результаты внутреннего экзамена алгоритма SP(, ), полученного на различных уровнях обучения Ошибка Ошибка Выбросы, События, Контрольная 1-ого рода 2-ого рода выделенные выделенные выборка (пропуск (ложные экспертом алгоритмом SP события) события) S D 275 290 0 S { X,Y } 138 141 0 S {X } 82 83 0 S {Y } 56 58 0 S {Z } 96 106 0 S {F} 41 42 0 {BNG} D 47 51 0 {BOU } D 55 55 0 {DOU } D 11 11 0 {FRD} D 52 57 0 {GUA} D 72 72 0 {HRN} D 24 24 0 {MMB} D 14 14 0 4 MMB Z x 4. 4. нТл 4. 08-01-07 27-02-07 18-04-07 07-06-07 27-07-07 15-09-07 04-11-07 24-12- DOU Y нТл 08-01-07 27-02-07 18-04-07 07-06-07 27-07-07 15-09-07 04-11-07 24-12- Рис. 3.5. Примеры выделения выбросов (черный цвет) на обсерваториях ИНТЕРМАГНЕТ 4 DOU Z x 4. 4. нТл 4. 18-07-07 19-07-07 19-07-07 20-07-07 20-07- 23:45 10:37 21:28 08:20 19: (а) 4 FRD X x 2. 2. нТл 2. 2. 16-05-07 16-05-07 17-05-07 17-05-07 18-05- 04:48 15:40 02:31 13:23 00: (б) Рис. 3.6. Примеры характерных выбросов 4 FRD X x 2. 2. нТл 2. 2. 21-05-07 21-05-07 22-05-07 22-05-07 23-05- 06:31 17:23 04:14 15:06 01: (а) 4 HRN Z x 5. 5. 5. нТл 5. 5. 5. 29-01-07 30-01-07 30-01-07 31-01-07 31-01- 22:36 09:28 20:19 07:11 18: (б) Рис. 3.7. Примеры ложных событий 3.2.4.2. Уровень направления В первом варианте обучения на уровне направления использовалась обучающая выборка S { X,Y } и был получен следующий оптимальный набор параметров * (3,30,0.925,0.9) (табл. 3.2). Соответствующий алгоритм SP(, ), примененный к 14 магнитограммам из множества S { X,Y }, выделил 141 событие, из которых являются выделенными экспертами событиями (табл. 3.5). Ошибки первого рода отсутствуют. Следовательно, вероятность пропуска события равна 0.0. Количество ложных ошибок равно трем, а вероятность ошибки второго рода - 0.022.

При использовании в качестве обучающей выборки множества S { X } был * (3,30,0.9,0.9) (табл. 3.2). Соответствующий получен следующий набор параметров алгоритм SP(, ), примененный к 7 магнитограммам из множества S { X }, выделил 83 события, из которых 82 являются выделенными экспертами выбросами (табл. 3.5).

Ошибки первого рода отсутствуют и вероятность пропуска события равна 0.0. Было выделено одно лишнее событие, а вероятность ошибки второго рода - 0.012.

При использовании в качестве обучающей выборки множества S {Y } был * (3,30,0.95,0.875) получен следующий набор параметров (табл. 3.2).

Соответствующий алгоритм SP(, ), примененный к 7 магнитограммам из множества S {Y }, выделил 58 событий, из которых 56 являются выделенными экспертами событиями (табл. 3.5). Ошибки первого рода отсутствуют, вероятность пропуска события равна 0.0. Было выделено два лишних события, вероятность ошибки второго рода - 0.036.

При использовании в качестве обучающей выборки множества S {Z } был * (5,30,0.9,0.875) получен следующий набор параметров (табл. 3.2).

Соответствующий алгоритм SP(, ), примененный к 7 магнитограммам из множества S {Z }, выделил 106 событий, из которых только 96 являются выделенными экспертами событиями (табл. 3.5). Ошибки первого рода отсутствуют, вероятность пропуска события равна 0.0. Было выделено 10 лишних событий, вероятность ошибки второго рода - 0.104.

При использовании в качестве обучающей выборки множества S {F} был * (5,30,0.925,0.5) получен следующий набор параметров (табл. 3.2).

Соответствующий алгоритм SP(, ), примененный к 4 магнитограммам из множества S {F}, выделил 42 события, из которых 41 являются выделенными экспертами событиями (табл. 3.5). Не было пропущено ни одного выброса и было выделено одно лишнее событие. Таким образом, вероятность ошибки первого равна 0.0, а вероятность ошибки второго рода - 0.036.

3.2.4.3. Уровень обсерватории В качестве обучающей выборки использовались множества s D, s S и * (табл. 3.2). Построенные на их были получены семь наборов оптимальных параметров основе алгоритмы SP(, ) применялись к соответствующим множествам s D, s S. Было выделено 284 события, из которых 275 являются выделенными экспертами событиями (табл. 3.5). Не было пропущено ни одного выброса и было выделено девять лишних событий (четыре на обсерватории BNG и пять на обсерватории FRD).

Следовательно, вероятность ошибки первого равна 0.0, а совокупная вероятность ошибки второго рода - 0.033.

3.2.4.4. Уровень фрагмента При обучении алгоритма SP на уровне фрагмента s d, s S, d D (табл.

* (табл. 3.3). Построенные на 3.1) было получено 25 наборов оптимальных параметров их основе алгоритмы SP(, ) применялись к соответствующим фрагментам. Было выделено 282 события, из которых 275 являются выделенными экспертами событиями (табл. 3.6). Не было пропущено ни одного выброса и было выделено семь лишних событий (четыре на обсерватории BNG и три на обсерватории FRD). Таким образом, вероятность ошибки первого равна 0.0, а совокупная вероятность ошибки второго рода 0.025.

Таблица 3.6. Результаты внутреннего экзамена алгоритма SP(, ), полученного при обучении на уровне фрагмента События, Ошибка Ошибка Выбросы, Обсерва- Компо- выделенные 1-ого рода 2-ого рода выделенные тория нента алгоритмом (пропуск (ложные экспертом события) события) SP X 10 10 0 Y 13 15 0 BNG Z 16 18 0 F 8 8 0 X 17 17 0 Y 7 7 0 BOU Z 21 21 0 F 10 10 0 X 2 2 0 DOU Y 6 6 0 Z 3 3 0 X 17 17 0 FRD Y 9 9 0 Z 17 19 0 F 9 10 0 X 24 24 0 Y 11 11 0 GUA Z 23 23 0 F 14 14 0 X 8 8 0 HRN Y 6 6 0 Z 10 10 0 X 4 4 0 MMB Y 4 4 0 Z 6 6 0 275 282 0 3.2.5. Обсуждение результатов обучения Для обучения алгоритма SP использовались 25 магнитограмм, зарегистрированных на семи обсерваториях ИНТЕРМАГНЕТ за 2007 год. Географически рассматриваемые обсерватории расположены в самых различных частях земного шара и на разных расстояниях от магнитных полюсов. Тем самым исходные данные достаточно представительны для того, чтобы из полученных результатов внутреннего и внешнего экзаменов сделать вывод в пользу достоверности созданного формализованного метода распознавания выбросов на магнитограммах.

(, ) -обучения SP(, ) Построенный в результате алгоритм был проэкзаменован внутренним образом, т.е. на той же обучающей выборке. Совокупный анализ таблиц 3.4-3.6 показывает, что чем ниже уровень обучающей выборки (3.5), тем качество распознавания алгоритма SP выше. В то же время, как видно из табл. 3.7, при повышении уровня обучения результаты ухудшаются, но не сильно. Это свидетельствует об устойчивости процесса распознавания алгоритмом SP относительно выбора материала обучения. Иными словами, при обучении индивидуально для каждой обсерватории и каждого направления мы имеем боле высокое качество распознавания, чем при обучении по магнитограммам всех рассматриваемых обсерваторий и по всем направлениям в совокупности. Выбор свободных параметров также слабо изменяется при изменении уровня обучения. Тем самым SP оказывается робастным алгоритмом относительно своих свободных параметров.

Таблица 3.7. Зависимость качества распознавания от уровня обучения алгоритма Вероятность ошибки Вероятность ошибки Уровень обучения 1-ого рода (пропуск 2-ого рода (ложное цели) событие) Глобальный уровень 0% 5.5% Уровень компоненты 0% 5.1% Уровень 0% 3.3% обсерватории Уровень фрагмента 0% 2.5% Анализ таблиц 3.4-3.5 показывает, что алгоритм SP работает лучше, если исследовать отдельно горизонтальные и вертикальную компоненты. Это объясняется тем, что SP носит морфологический характер и оказывается лучше приспособленным для выделения выбросов на компонентах X (табл. 3.4, вероятность ошибки второго рода 0.012) и Y (табл. 3.5, вероятность ошибки второго рода 0.036), нежели на компоненте Z (табл. 3.6, вероятность ошибки второго рода 0.104). Подчеркнем, важнейшим свойством проведенного обучения является полная переборка вариантов распознавания [Knuth, 1968], отвечающих возможным значениям свободных параметров алгоритма при фиксированной обучающей выборке. Это существенно повышает достоверность результатов, т.к. значения свободных параметров SP оказываются выбранными оптимальным образом.

3.2.6. Экзамен алгоритма SP в период пониженной магнитной активности (внешний экзамен) Внешний (независимый) экзамен состоит в применении оптимальных алгоритмов SP(, ) непосредственно к записям, не принадлежащим обучающей выборке.

Алгоритм SP(, ) SP(7,30,0.875,0.9) был получен в результате обучения на глобальном уровне с использованием 25 записей за 2007 год (табл. 3.1). В качестве экзаменуемых записей использовались 17 записей с тех же обсерваторий (кроме обсерваторий BNG и FRD) за 2008 год. Таким образом, суть внешнего экзамена состоит в более объективной оценке результатов работы алгоритма, полученных на базе внутреннего экзамена. При этом объем данных, составляющих внешний экзамен, сравним с объемом данных, использованных при проведении внутреннего экзамена.

На записях за 2008 г. эксперт выделил 102 события (табл. 3.8), в то время как алгоритм SP(, ) выделил 110 событий, из которых 101 событие соответствует результатам работы эксперта, одно событие не выделено и девять выделенных событий ложные. Таким образом, при использовании алгоритма SP(, ), построенного на записях за 2007 год, для распознавания выбросов на записях за 2008 год вероятность ошибки первого рода составила 0.01, а вероятность ошибки второго рода - 0.09. Такие SP(, ) следует считать весьма результаты независимого экзамена алгоритма успешными.

Таблица 3.8. Результаты внешнего экзамена алгоритма SP(, ), полученного при обучении на глобальном уровне.

События, Ошибка Ошибка Выбросы, Обсерва- Компо- выделенные 1-ого рода 2-ого рода выделенные тория нента алгоритмом (пропуск (ложные экспертом события) события) SP X 7 7 0 Y 6 6 0 BOU Z 10 10 0 F 7 7 0 X 9 9 0 DOU Y 15 15 0 Z 12 11 1 X 3 4 0 Y 3 4 0 GUA Z 3 4 0 F 19 19 0 X 0 0 0 HRN Y 0 3 0 Z 0 3 0 X 1 1 0 MMB Y 1 1 0 Z 6 6 0 102 110 1 3.2.7. Экзамен алгоритма SP в период повышенной магнитной активности В разделах 3.2.3, 3.2.4 и 3.2.6 обучение и экзамен алгоритма SP проводились на данных 2007-2008 гг., относящихся к периодам низкой солнечной активности и, соответственно, спокойной, невозмущённой геомагнитной обстановки [The latest AA* listing of Major Magnetic Storms, 2011].

Для эксперимента были использованы предварительные магнитограммы за 2003 и 2005 гг. по той же выборке компонент, на которой были проведены обучение и внутренний экзамен алгоритма SP. Географическое положение 7 обсерваторий, на которых были зарегистрированы рассматриваемые данные, указано на рис. 3.2.

Геомагнитная обстановка в период с 2003 по 2005 гг. характеризовалась повышенной солнечной активностью [Ишков, 2006].

При обработке данных алгоритмом используются значения свободных параметров, полученные в результате обучения алгоритма на данных 2007 г. на уровне фрагмента (табл. 3.3). Выбор свободных параметров, полученных при обучении на уровне фрагмента, обеспечивает наилучшее качество распознавания (табл. 3.7).

Важно отметить, что некоторые магнитные данные за 2003 г. имеют сравнительно низкое качество. На многих предварительных магнитограммах имеются достаточно большие интервалы отсутствия данных, особенно на записях обсерватории GUA. Кроме того, на предварительных магнитограммах обсерваторий BNG и MMB данные представлены лишь частично. Тем не менее, эти данные были использованы для сохранения репрезентативности выборки.

При сравнении предварительных и окончательных магнитограмм оказалось, что предварительные данные за 2003 г. содержат 873 выброса, выделенных экспертами вручную, а за 2005 год – 458 выбросов. По аналогии с предыдущими экзаменами, мы не рассматривали выбросы на предварительных записях с амплитудой меньше 30 нТл.


В результате применения алгоритма к данным 2003 г. (табл. 3.9) было распознано 1032 события на всех исследуемых компонентах. В частности, алгоритм распознал все из выбросов, выделенных экспертами. Кроме того, алгоритмом было распознано лишних событий. Лучшие результаты распознавания отмечены на записях обсерватории DOU, также работу алгоритма можно считать успешной на данных обсерватории BOU.

Несколько худшие результаты показало применение SP к данным обсерватории FRD, где алгоритмом было выделено 31 лишнее событие. Самые большие ошибки второго рода наблюдаются на магнитограммах обсерватории GUA, наибольшая из них – на компоненте Y, где было выделено 24 лишних события.

Таблица 3.9. Результаты применения алгоритма SP, полученного при обучении на уровне фрагмента на данных 2007 г., к данным 2003 г.

События, Выбросы, Ошибка 1-ого Ошибка 2-ого Обсерватория Компонента выделенные выделенные рода (пропуск рода (ложная алгоритмом экспертами цели) тревога) BNG X 0 0 0 Y 2 0 0 Z 5 0 0 F 2 0 0 BOU X 45 40 0 Y 18 13 0 Z 54 54 0 F 40 34 0 DOU X 3 2 0 Y 8 3 0 Z 4 2 0 FRD X 97 84 0 Y 80 60 0 Z 91 83 0 F 73 65 0 GUA X 100 83 0 Y 140 116 0 Z 108 90 0 F 131 123 0 HRN X 0 Y 0 Z 0 MMB X 10 7 0 Y 13 6 0 Z 8 8 0 1032 873 0 Применение алгоритма SP к данным 2005 г. (табл. 3.10) также показало в целом удовлетворительные результаты. Из выделенных экспертом 458 выбросов 457 были распознаны алгоритмом, кроме того, было выделено 78 лишних событий. Лишь в одном случае был не распознан выброс на магнитограмме компоненты Z обсерватории HRN.

Лучшие результаты показало распознавание выбросов на обсерватории FRD, где, в сравнении с соответствующими результатами за 2003 г., все 102 выброса, выделенных экспертом, были распознаны алгоритмом с минимальной ошибкой второго рода ( лишних события). Хорошие результаты вновь были получены на данных обсерваторий BOU и DOU. Результаты с наибольшей величиной ошибки второго рода были получены на магнитограммах компонент Y и Z обсерватории BNG и на компоненте Y обсерватории MMB.

Таблица 3.10. Результаты применения алгоритма SP, полученного при обучении на уровне фрагмента на данных 2007 г., к данным 2005 г.

События, Выбросы, Ошибка 1-ого Ошибка 2-ого Обсерватория Компонента выделенные выделенные рода (пропуск рода (ложная алгоритмом экспертами цели) тревога) BNG X 5 0 0 Y 8 0 0 Z 8 0 0 F 7 0 0 BOU X 30 26 0 Y 6 4 0 Z 30 25 0 F 14 14 0 DOU X 4 3 0 Y 8 3 0 Z 5 3 0 FRD X 39 39 0 Y 9 7 0 Z 36 35 0 F 21 21 0 GUA X 78 72 0 Y 51 50 0 Z 83 82 0 F 63 58 0 HRN X 0 Y 0 Z 0 1 1 MMB X 11 6 0 Y 12 4 0 Z 7 5 0 535 458 1 Вероятности ошибок первого рода для выборок 2003 и 2005 гг. составили 0.0% и 0.2% соответственно. Вероятность ошибки второго рода составила 15.4% на данных г. и 14.6% на данных 2005 г. Несмотря на достаточно большие величины ошибок второго рода и ненулевые ошибки первого рода на данных 2005 г., в работе алгоритма не выявлено серьёзных сбоев, что свидетельствует об универсальности и надёжности его вычислительной схемы.

3.2.8. Обсуждение результатов экзаменов SP(, ), Алгоритм полученный на глобальном уровне, подвергся дополнительно внешнему экзамену. При этом использовались значения свободных параметров, выработанные на материале обучения (3.5). Внутренний экзамен проходил на обучающей выборке (табл. 3.4), а внешний на 17 магнитограммах, зарегистрированных на пяти обсерваториях за 2008 год (табл. 3.7). На внешнем экзамене появилась всего одна ошибка первого рода, а вероятность ошибки второго рода незначительно выросла с 0. до 0.090 по сравнению с внутренним экзаменом. Тем самым результат независимого внешнего экзамена следует считать успешным. Это дает другой важный аргумент в пользу достоверности полученных результатов.

Сравнение результатов внутреннего и внешнего экзаменов для алгоритма SP показало, что вполне естественно, небольшое увеличение вероятности ошибок первого и второго рода во втором случае. Так как увеличение ничтожно мало, результаты распознавания следует признать успешными в обоих случаях.

Применение алгоритма, полученного в процессе обучения на данных, соответствующих годам спокойной геомагнитной обстановки, к анализу магнитограмм, относящихся к годам повышенной солнечной активности, показало чуть менее успешные результаты в сравнении с внутренним экзаменом, проведённым на уровне фрагмента на данных 2007 г. (табл. 3.6). Однако, полученные результаты для 2003 и 2005 гг. сравнимы с результатами внешнего экзамена на данных 2008 г., проведенного на глобальном уровне (табл. 3.8). Было установлено, что эффективность распознавания искусственных выбросов выше на интервалах относительно спокойного, невозмущённого поля, а также в случае относительно высокой амплитуды выбросов по сравнению со средним уровнем поля в их окрестности.

Следует также отметить корреляцию величин вероятностей ошибок для 2003 и 2005 гг. с ходом развития 23-го солнечного цикла. Фаза спада в этом цикле длится с июля 2002 г. по май 2005 г., а оставшаяся часть временного интервала 2005 г. относится уже к фазе минимума, характеризующейся понижением относительного числа пятен на Солнце [Ишков, 2006]. Таким образом, качество работы алгоритма с данными значениями свободных параметров зависит не только от качества предварительных данных, но и в определённой степени от солнечной активности.

При оценке всех результатов работы алгоритма были отдельно SP проанализированы лишние события, выделенные алгоритмом. Соответствующая статистика приведена в табл. 3.11.

Таблица 3.11. Сводная статистика по лишним событиям, выделенным алгоритмом SP.

Ложные тревоги Внезапные Количество Искусственные Период Всего начала Пульсации событий возмущения бурь 2003 1032 159 14.50% 11.90% 73.60% 2005 535 78 2.60% 34.60% 62.80% 2007 290 15 0% 6.70% 93.30% 2008 110 9 33.30% 11.10% 55.60% Представляется, что по двум причинам на данном этапе исследований целесообразно использовать алгоритм SP в полуавтоматическом режиме, т.е. параллельно с работой экспертов.

Во-первых, существуют трудные варианты выбросов, которые не могут быть распознаны данной версией алгоритма SP. Например, они существуют среди выбросов с амплитудой меньше 30 нТл (рис. 3.6а). Однако анализ трудных случаев распознавания дает повод для оптимизма. Дальнейшая модификация алгоритма SP должна привести к возможности выделять все выбросы, распознанные экспертом, включая и те, у которых амплитуда меньше 30 нТл, при этом, не выделяя ложные выбросы.

Во-вторых, применение SP в таком режиме дает возможность накопления статистики, необходимой для глубокой оценки достоверности результатов работы алгоритма SP и возможности перехода на автоматическое (или автоматизированное) распознавание выбросов.

3.3. Автоматизированное распознавание выбросов на секундных магнитограммах 3.3.1. Постановка задачи распознавания выбросов на секундных магнитограммах (1 Гц) ИНТЕРМАГНЕТ В настоящем разделе мы изучаем наиболее современные магнитные данные, полученные с большей частотой записи с шагом по времени в 1 секунду (1 Гц). Этот технологический прорыв в наблюдениях магнитного поля Земли, начавшийся несколько лет назад, в настоящее время внедряется на многих обсерваториях ИНТЕРМАГНЕТ и некоторых других геомагнитных обсерваториях. В частности, регистрация данных с частотой 1 Гц осуществляется французской магнитной обсерваторией на о. Пасхи в Тихом океане [Chulliat et al., 2009а] (рис. 3.8). Эта обсерватория и послужила источником данных, исследуемых в настоящей работе.

Рис. 3.8. Обсерватория на о. Пасхи (черный круг) и соседние обсерватории ИНТЕРМАГНЕТ (звезды).

Сейчас большинство обсерваторий сети функционируют в режиме минутной регистрации. Одной из важнейших задач ИНТЕРМАГНЕТ является перевод всех обсерваторий сети на режим секундной регистрации геомагнитных данных. Такой переход даст возможность изучения магнитных пульсаций типа Pc2, Pc3 и Pc [Клейменова, 2007;

Клейменова и др., 2013;

Kleimenova et al., 2012;

Зелинский и др., 2014]. В частности, появится возможность их автоматизированного распознавания с помощью методов, описанных в настоящей работе, а также методов [Гвишиани и др., 2008а;

2008б;

2010а].

В случае секундных магнитограмм формализация распознавания временных возмущений становится еще более актуальной задачей. Действительно, на таких высокочастотных записях малые возмущения, как правило, визуально плохо различимы.

Работа с такими данными требует от экспертов повышенного внимания для более детального изучения предварительных записей. В то же время, при переходе от минутной регистрации к секундной, количество возмущений на магнитограммах становится несравнимо большим. В огромной мере возрастает вероятность ошибок и субъективного подхода экспертов. Это делает преобразование предварительных данных в окончательные крайне затруднительным, а иногда и невозможным. Последнее подтверждает необходимость разработки и использования оригинальных формализованных алгоритмов распознавания возмущений на магнитных временных рядах, чему и посвящена настоящая работа.

Существуют различные типы временных возмущений техногенного характера, отраженных на предварительных магнитограммах: выбросы, скачки и дрейфы базовой линии и т.д. [Soloviev et al., 2009]. В ходе подготовки окончательных записей подобные возмущения должны быть распознаны и отфильтрованы. В случае секундных данных подавляющее большинство таких возмущений составляют выбросы. Таким образом, создание инструмента для формального и единообразного распознавания выбросов на предварительных магнитограммах во многом позволит решить указанную проблему в масштабе всего ИНТЕРМАГНЕТ. Придерживаясь этой идеи, в данной работе мы сосредоточились на распознавании выбросов, как на главной части проблемы.


В статье мы приводим описание нового алгоритма распознавания образов SPIKEsec, который сокращенно будем обозначать через SPs. Алгоритм позволяет распознавать выбросы на секундных магнитограммах в автоматизированном режиме. При этом, достигаются малые вероятности пропуска цели и ложных тревог. Как и SP (см.

раздел 2.3) [Богоутдинов и др., 2010], алгоритм SPs построен на основе теории дискретного математического анализа (см. раздел 2.2) [Гвишиани и др., 2010а], развиваемой авторами более десятка лет.

Нашей задачей является формализованное, алгоритмическое распознавание выбросов техногенной природы, например, вызванных сбоями в работе геомагнитного оборудования, при передаче данных, движением грузовиков, взлетами и посадками самолетов, либо другими неприродными источниками (рис. 3.9). В реальной практике ИНТЕРМАГНЕТ, в результате детального изучения суточных магнитограмм, такие выбросы удаляются экспертами вручную. В то же время, выбросы, вызванные природными явлениями (например, геомагнитные пульсации [Клейменова, 2007;

Клейменова и др., 2013;

Kleimenova et al., 2012;

Зелинский и др., 2014], рис. 3.10), не должны расцениваться алгоритмом как искомые события и должны оставаться на окончательных магнитограммах. Таким образом, обработка предварительных магнитограмм требует особой настройки алгоритма SPs = SPs (, 1, 2 ), которая выражается в конкретном подборе его свободных параметров, 1, 2. Отметим также, что в отличие от распознавания выбросов на минутных магнитограммах (см. раздел 3.2) [Богоутдинов и др., 2010], проводя распознавание на секундных магнитограммах, мы не вводим ограничения снизу на амплитуду изучаемых выбросов. В случае минутных магнитограмм выбросы с амплитудой меньше 30 нТл не рассматривались.

Рис. 3.9. Техногенные выбросы (черный цвет), которые удаляются экспертами вручную (компонента X, 5 июля 2009 г.).

Рис. 3.10. Природные выбросы, представляющие собой геомагнитные пульсации (компонента X, 1, 8 и 17 июля 2009 г.).

3.3.2. Магнитная обсерватория на острове Пасхи. Исходные данные для распознавания Геомагнитная обсерватория на о. Пасхи была установлена в 2008 г. в рамках совместного проекта между Чилийским метеорологическим управлением (Direccion Meteorologica de Chile, DMC) и Парижским институтом физики Земли (Institut de Physique du Globe de Paris, IPGP). Обсерватория расположена на территории аэропорта Матавери, на достаточном расстоянии от посадочной полосы. Степень изолированности этой обсерватории крайне высока – ближайшая обсерватория ИНТЕРМАГНЕТ расположена примерно в 3 900 км (рис. 3.8). Таким образом, наличие этой обсерватории значительно улучшает распределение глобальной сети магнитных наблюдений. Измерения вариаций магнитного поля на постоянной основе начались в августе 2008 г., абсолютные измерения – в декабре 2008 г. [Chulliat et al., 2009а].

Данные включают в себя значения измерений трех компонент вектора магнитной напряженности вдоль северного (X), восточного (Y) и вертикального вниз (Z) направлений, а также полной напряженности F магнитного поля Земли (XYZF-данные). Каждая суточная запись по одному каналу с частотой 1 Гц состоит из 86 400 точек регистрации на временной оси. В качестве исходного материала мы использовали предварительные магнитограммы, зарегистрированные этой обсерваторией с 1 июля по 31 августа 2009 г. с частотой 1 Гц. Каждая отдельная магнитограмма представляет собой суточные данные.

Стоит отметить, что рассматриваемые значения трех компонент не подвергались корректировке с учетом значений базовой линии, потому, в частности, и являются предварительными.

3.3.3. Обучение алгоритма SPs Для обучения алгоритма мы использовали неочищенные предварительные данные за 20 дней, зарегистрированные на обсерватории о. Пасхи в период с 1 по 20 июля 2009 г.

Также, к процессу обучения привлекались окончательные магнитограммы, т.е. тот же массив данных, но уже прошедший ручной контроль качества. В частности, контроль качества включает очистку исходных данных от выбросов. Сравнение результатов распознавания на предварительных магнитограммах с окончательными позволяет оценивать качество результата применения алгоритма и выбирать оптимальные значения его свободных параметров.

Анализ окончательных магнитограмм показал, что секундные данные обычно содержат огромное количество выбросов по сравнению с минутными. На рассматриваемых записях, полученных за 20 дней, количество выделенных экспертами выбросов выглядит следующим образом: 1 119 выбросов на компоненте X, 1 выбросов на Y, 996 выбросов на Z, и 1 135 выбросов на F. Статистическая информация по выбросам, удаленным вручную экспертами, приведена в табл. 3.12. Дополнительно, в табл. 3.13 мы привели статистику по распознанным экспертами выбросам за период с по 31 июля 2009 г.

Таблица 3.12. Статистическая информация по выбросам за 01/07/2009-20/07/ (материал обучения), распознанным и удаленным экспертами вручную.

Мин. Макс. Средн.

Кол-во Мин. Макс. Средн.

длитель- длитель- длитель Запись выбро- ампли- ампли- ампли ность, ность, ность, сов туда, нТл туда, нТл туда, нТл точки точки точки X 1119 0.100 82.280 1.298 9 190 27. Y 1122 0.080 100.340 1.093 4 190 27. Z 996 0.100 20.640 0.371 6 470 28. F 1135 0.102 61.770 0.918 9 439 31. Таблица 3.13. Статистическая информация по выбросам за 21/07/2009-31/07/ (материал экзамена), распознанным и удаленным экспертами вручную.

Мин. Макс. Средн.

Кол-во Мин. Макс. Средн.

длитель- длитель- длитель Запись выбро- ампли- ампли- ампли ность, ность, ность, сов туда, нТл туда, нТл туда, нТл точки точки точки X 853 0.100 12.630 1.200 7 449 26. Y 844 0.140 12.430 0.972 9 449 27. Z 774 0.090 106.510 0.570 7 449 27. F 846 0.088 61.130 0.932 6 449 31. Как видно из табл. 3.12, в процессе анализа секундных магнитограмм, наряду с высокоамплитудными выбросами (до 100 нТл), эксперты также уделяют внимание выбросам с довольно малыми амплитудами (около 0.1 нТл). Таким образом, алгоритму на стадии обучения требуется определить и использовать в дальнейшем распознавании признаки выбросов, характерные для разных амплитуд.

Разброс амплитуд выбросов довольно сильно отличаются на разных каналах записи. Так, максимальные амплитуды выбросов на каналах X, Y и F в 3-5 раз больше, чем на канале Z. В то же время, средние значения амплитуд для X, Y и F остаются примерно одинаковыми. Исключением, опять же, является компонента Z, для которой средняя амплитуда выбросов в три раза меньше. Последнее, вероятно, объясняет разницу в качестве распознавания выбросов на записях компоненты X и компоненты Z, описанного ниже. Что касается длительности выбросов, в табл. 3.12 мы наблюдаем весьма схожие минимальные и средние значения по всем четырем каналам. Однако максимальные значения длительности отличаются более чем в два раза для каналов X, Y (190 точек) и каналов Z, F (~455 точек).

Другое наблюдение характеризует разницу в характере исходного материала обучения. В случае горизонтальных компонент максимальная длительность выбросов вдвое меньше, а средняя амплитуда втрое больше. Можно заключить, что в этом случае выбросы более вытянутые вертикально и крутые (рис. 3.11), чем в случае вертикальной компоненты. Качество распознавания выбросов во втором случае можно улучшить, выбрав другие диапазоны значений свободных параметров на стадии обучения SPs.

(а) (б) Рис. 3.11. Различные формы выбросов: выброс (а) имеет втрое большую амплитуду и вдвое меньшую длину, чем выброс (б).

3.3.3.1. Грубая настройка свободных параметров Поскольку средние амплитуды выбросов на каждом канале несравнимы между собой (табл. 3.12), обучение алгоритма SPs производилось по отдельности для каждого канала X, Y, Z, F. В результате, нам удалось получить оптимальные значения свободных параметров алгоритма SPs для каждого канала независимо. Для выбора оптимальных параметров мы осуществляли прямой перебор разных значений этих параметров [Knuth, 1968]. Каждая суточная одноканальная магнитограмма обрабатывалась алгоритмом SPs с различными комбинациями из следующего множества значений свободных параметров:

0.4, 0.5, 0.6, 0.7;

1 0.45, 0.5, 0.55, 0.6, 0.65;

. (3.6) 0.2, 0.25, 0.3, 0.35, 0. 2 Всего было опробовано =100 комбинаций значений свободных параметров.

Для каждой версии SPs( ) были рассчитаны вероятность ошибки первого рода (пропуск цели), вероятность ошибки второго рода (ложная тревога) и общий критерий качества распознавания (см. раздел 3.2.2). Для общей оценки качества распознавания использовался критерий следующего вида:

K (SPs( )) P (SPs( )) (1 ) P2 (SPs( )), (3.7) где SPs( ) – результат работы алгоритма при некоторой комбинации значений свободных параметров, выражающийся в выделении набора отрезков на временной оси, определяющих распознанные события, P – вероятность ошибки первого рода (пропуск цели), P2 – вероятность ошибки второго рода (ложная тревога) и 0 1. В критерии K значение принималось равным 0.8, что выражало большую степень важности мнения эксперта по сравнению с алгоритмом SPs. Описанные показатели качества работы алгоритма также использовались на стадии экзамена и в контрольном тесте.

Согласно выработанному критерию качества распознавания (3.7) для каждого канала с помощью «грубой» настройки с шагом h=0.1 для и h=0.05 для 1 и 2 (3.6) были получены следующие оптимальные значения свободных параметров алгоритма:

** ( 0.5, 1 0.45, 2 0.4 ), K0.8 (SPs( ** )) =0.074;

X X Y ( 0.5, 1 0.45, 2 0.4 ), K0.8 (SPs( Y )) =0.077;

** ** (3.8) Z ( 0.6, 1 0.45, 2 0.4 ), K0.8 (SPs( Z )) =0.231;

** ** F ( 0.5, 1 0.45, 2 0.4 ), K0.8 (SPs( F )) =0.144.

** ** Как видно из (3.8), значения ** практически совпадают для различных компонент:

** Y F, при этом Z отличается лишь значением параметра всего на одну ** ** ** X десятую.

3.3.3.2. Тонкая настройка свободных параметров На первом этапе обучения выбор оптимальных значений параметров (3.8) проводился грубо с достаточно большим шагом (3.6). С целью улучшения результата распознавания выбросов была произведена тонкая настройка. Для этого мы взяли небольшую окрестность вокруг найденного на первом этапе оптимального решения (3.8) и повторили процесс перебора. В случае X, Y, F новые диапазоны перебора были:

0.46, 0.48, 0.50, 0.52, 0.54;

1 0.41, 0.43, 0.45, 0.47, 0.49;

, (3.9) 0.36, 0.38, 0.40,0.42,0. 2 в случае Z новые диапазоны были:

0.56, 0.58, 0.60, 0.62, 0.64;

1 0.41, 0.43, 0.45, 0.47, 0.49;

. (3.10) 0.36, 0.38, 0.40,0.42,0. 2 Таким образом, на втором этапе обучения мы оценили качество (3.7) распознавания для дополнительных 125 комбинаций значений свободных параметров (3.9) и (3.10). В результате были получены следующие оптимальные значения свободных параметров для каждой записи:

* ( 0.46, 1 0.45, 2 0.44 ), K0.8 (SPs( * )) =0.055;

(3.11) X X Y ( 0.50, 1 0.41, 2 0.44 ), K0.8 (SPs( Y )) =0.051;

* * Z ( 0.56, 1 0.43, 2 0.44 ), K0.8 (SPs( Z )) =0.172;

* * F ( 0.50, 1 0.43, 2 0.44 ), K0.8 (SPs( F )) =0.120.

* * Сравнивая значения критериев качества распознавания K 0.8 в (3.11) и (3.8), можно констатировать, что благодаря тонкой настройке свободных параметров удалось повысить качество обучения для каждой из компонент.

3.3.4. Устойчивость обучения относительно выбора свободных параметров Мы применили алгоритм SPs при различных значениях, 1, 2 для распознавания выбросов на предварительных магнитограммах, отвечающих компоненте X, за период с по 31 июля 2009 г. При сравнении этих магнитограмм с соответствующими окончательными магнитограммами было обнаружено 1972 выброса (табл. 3.12, 3.13), распознанных экспертами на предварительных и удаленных на окончательных магнитограммах. Для каждого множества комбинаций значений свободных параметров определялась оптимальная комбинация. Вариант распознавания, полученный с ее помощью, рассматривался как основной результат. Задача состояла в оценке устойчивости результата распознавания относительно изменения значений свободных параметров в некоторых окрестностях. При этом за основу был взят результат «грубого» обучения алгоритма SPs, полученный на данных по компоненте X за 1-31 июля 2009 г.

Первым шагом исследования было изменение параметра 1 при фиксированных остальных параметрах. Первоначально было взято 5 значений 1 от 0.3 до 0.5 с шагом 0.05. В результате была получена сходимость к оптимальному значению 1 0.35. Стоит отметить, что на промежуточном этапе мы уменьшили шаг с 0.05 до 0.01, и значения варьировались от 0.33 до 0.37. При наборе параметров 0.7, 1 0.35, 2 0. алгоритм SPs выделил 2473 события, в том числе 534 (22%) лишних событий (ложные 1 0.35 было тревоги), и пропустил 33 (1.7%) выброса. Затем, это значение зафиксировано и менялся параметр. Сначала диапазон его значений составлял от 0.6 до 0.8 с шагом 0.05. Затем, с учетом полученного оптимального результата, диапазон был уменьшен до [0.72, 0.76] с шагом 0.01. На третьей итерации диапазон был уменьшен до [0.74, 0.76] с шагом 0.005. Опять же, этот процесс сошелся к значению 0.75. При этом, количество ложных тревог уменьшилось с 534 до 389 (16.3%), однако количество пропущенных выбросов возросло с 33 до 42 (2.1%).

Этот результат удалось немного улучшить, зафиксировав значения 0.75, 1 0.35 и варьируя значения 2. По этому параметру была получена сходимость к значению 0.472, а число пропущенных выбросов было уменьшено до 34.

Однако в этой версии число ложных событий немного возросло до 403 (16.7%). Параметр 2 первоначально изменялся от 0.3 до 0.5 с шагом 0.05. Далее, в соответствии с получаемыми оптимальными значениями, происходил сдвиг диапазона и шага его изменения до [0.4718, 0.4722] и 0.0001 соответственно.

При совокупном изменении всех трех параметров была получена сходимость по параметрам 1 и к значениям 1 0.35, 0.73. Диапазон изменения 1 при этом уменьшился от [0.33, 0.37] с шагом 0.02 до [0.345, 0.355] с шагом 0.005. По параметру диапазон изменения значения уменьшился от [0.7, 0.76] с шагом 0.03 до [0.725, 0.735] с шагом 0.005. По параметру 2 наблюдалась сходимость к двум значениям 2 0.435 и 2 0.473. В первом случае 2 0.435 исходный диапазон изменения 2 был [0.38, 0.42] с шагом 0.02. Далее этот диапазон многократно сдвигался в сторону увеличения, в соответствии с получаемыми оптимальными результатами. Окончательный диапазон был [0.433, 0.437] с шагом 0.002. Второе значение 2 0.473 было получено при дальнейшем сдвиге диапазона до [0.473, 0.477] с шагом 0.002. При этом, по сравнению с вариантом, полученным при изменении параметров по отдельности, число ложных событий увеличилось до 451 (18.24%) при 2 0.435 и до 455 (18.4%) при 2 0.473, а наименьшее число пропусков 29 (1.47%) было получено при 2 0.473. Таким образом, для компоненты X можно констатировать, что оптимальный результат распознавания достаточно устойчив относительно изменения значений свободных параметров.

3.3.5. Оценка результатов обучения Рассмотрим результаты распознавания выбросов алгоритмом SPs( * ) (табл. 3.14 и 3.15) на суточных магнитограммах, зарегистрированных с 1 по 20 июля 2009 г., и сравним их с результатами распознавания экспертами для каждой компоненты X, Y, Z и полной напряженности F по отдельности.

Таблица Статистика по событиям за распознанным 3.14. 1/07/2009-20/07/2009, алгоритмами SPs( * ), SPs( Y ), SPs( Z ) и SPs( F ).

* * * X Выбросы, События, Пропу- Вероят- Вероят Критерий распо- распо- щенные Лишние ность ность качества Запись знанные знанные выбро- события ошибки ошибки K 0. экспертами алгоритмом сы 1-го рода 2-го рода X 1119 1168 53 102 0.047 0.087 0. Y 1122 1224 39 141 0.035 0.115 0. Z 996 1007 170 181 0.171 0.180 0. F 1135 1146 134 145 0.118 0.127 0. Таблица 3.15. Статистика по лишним событиям (ложные тревоги) за 1/07/2009-20/07/2009, выделенным алгоритмами SPs( * ), SPs( Y ), SPs( Z ) и SPs( F ).

* * * X Мин. Макс. Средн.

Кол-во Мин. Макс. Средн.

длитель- длитель- длитель Запись лишних ампли- ампли- ампли ность, ность, ность, событий туда, нТл туда, нТл туда, нТл точки точки точки X 102 0.22 4.56 0.68 11 82 23. Y 141 0.200 3.470 0.440 9 67 23. Z 181 0.110 0.940 0.267 7 205 24. F 145 0.170 4.100 0.432 11 95 20. При обработке записей компоненты X алгоритм SPs SPs( * ) выделил в сумме X 1 168 событий;

среди них 1 066 событий оказались выбросами, выделенными экспертами вручную (табл. 3.14). При этом, 53 выброса не были распознаны алгоритмом. Таким образом, вероятность ошибки первого рода составила 0.047 (4.7%), а вероятность ошибки второго рода – 0.087 (8.7%). Амплитуды 102 лишних событий, выделенных алгоритмом, но не удаленных на окончательных магнитограммах экспертами, довольно малы. Они варьируются между 0.22 и 4.56 нТл, а их среднее значение составляет 0.68 нТл (табл.

3.15). В то же время, амплитуды выбросов, распознанных экспертами, лежат в интервале от 0.100 до 82.280 нТл со средним значением 1.298 (табл. 3.12). Т.о., распознанные SPs «дополнительные» выбросы могли быть пропущены экспертами в силу их малости. На рис. 3.9, 3.12-3.14 приведены результаты применения алгоритма SPm SPm( * ).

X Рис. 3.12. Результат применения алгоритма SPs SPs( * ) : пропуск геомагнитных X пульсаций (значения компоненты X, зарегистрированные 1 июля 2009 г.).

Рис. 3.13. Сравнение результатов распознавания экспертами (сверху) и алгоритмом SPs SPs( * ) (снизу) (значения компоненты X, зарегистрированные 1 июля 2009 г.). В X обоих случаях выделенные события отмечены чёрным цветом.

Рис. 3.14. Примеры распознавания выбросов алгоритмом SPs SPs( * ) (значения X компоненты X, зарегистрированные 1 июля 2009 г.). Выделенные события отмечены чёрным цветом.

Обработка данных по компоненте Y проводилась алгоритмом SPs SPs( Y ). В * результате было выделено 1 224 событий, включая 1 083 выброса, обнаруженных экспертами (табл. 3.14), при этом, 39 выбросов алгоритм не распознал. При таком распознавании вероятность ошибки первого рода составила 0.035 (3.5%), вероятность ошибки второго рода – 0.115 (11.5%). Значения амплитуд 141 лишнего события, обнаруженного алгоритмом, лежат между 0.2 и 3.47, а среднее значение составляет 0. (табл. 3.15). Искомые выбросы характеризуются амплитудами в диапазоне 0.080 и 100. со средним значением 1.093 (табл. 3.12). Опять же, дополнительные события могут быть как пропущенными экспертами выбросами пренебрежимо малых амплитуд, так и реальными пульсациями [Клейменова, 2007;

Клейменова и др., 2013;

Kleimenova et al., 2012;

Зелинский и др., 2014].

Как было упомянуто выше, в случае обработки значений компоненты Z алгоритм SPs SPs( Z ) показал несколько худшие результаты. Им было выделено 1007 событий, * среди которых оказались 826 выбросов, обнаруженных экспертами в результате ручного анализа (табл. 3.14). Остальные 170 выбросов алгоритм не обнаружил. Тем самым, вероятность ошибки первого рода составила 0.171 (17.1%), а вероятность ошибки второго рода составила 0.18 (18%). Более детальное изучение 181 лишнего события, которые были распознаны алгоритмом, но не удалены экспертом, показало, что их амплитуды лежат в пределах 0.11 и 0.94, среднее значение составляет 0.267 (табл. 3.15). Для сравнения, амплитуды выбросов, выделенных экспертами, лежат в интервале 0.10 и 20.64 со средним значением 0.371 (табл. 3.12).



Pages:     | 1 |   ...   | 2 | 3 || 5 | 6 |   ...   | 7 |
 





 
© 2013 www.libed.ru - «Бесплатная библиотека научно-практических конференций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.