Технология контроля достоверности исторических данных высоты снежного покрова по постоянной рейке

Общие сведения

Развитие методов и технологий обобщения, анализа и использования климатических данных, ориентированных на обслуживание отраслей экономики и социальной сферы, относится к числу ключевых проблем гидрометеорологии. Одной из задач является контроль качества исходной информации. Не проведенная должным образом ее верификация может отразиться на достоверности нормативных документов (СНИПы, справочники, рекомендации), объективности оценок при анализе данных, наконец, на интерпретации результатов научных исследований.

Разработке критериев автоматизированного (полуавтоматизированного) контроля метеорологических величин, характеризующихся различной устойчивостью в пространстве и времени, оценке эффективности методов и дальнейшей их оптимизации посвящены многочисленные исследования [1 - 3, 5, 6, 8, 9, 11, 12]. Однако, несмотря на имеющиеся возможности обеспечения качественных банков климатических данных на основе современных технологий анализа и контроля, они, как показал опыт участия ГУ «СибНИГМИ» в подготовке электронной версии Научно-прикладного справочника по климату России, содержат достаточно много ошибок. Так, в результате выполненной нами верификации многолетних рядов скорости ветра, влажности воздуха, снежного покрова, температуры почвогрунтов на разных глубинах на базе 9-15 станций в пределах Сибирского федерального округа, выявлено порядка 700 ошибок. Наиболее «засорёнными» оказались базы данных двух последних элементов климата. Между тем, потребитель должен иметь твердую уверенность и гарантию достоверности информации.

Результаты систематизации и критического анализа наиболее известных методов контроля гидрометеорологических данных свидетельствуют, что каждая методика обладает своими недостатками, поэтому применение какого-либо одного способа не обеспечивает надёжности результатов проверки [5]. На наш взгляд, одним из путей оптимального разрешения противоречий, возникающих при выборе способа контроля, может стать комплексация методов.

В ГУ «СибНИГМИ» создана технология контроля исторических архивов снегомерных наблюдений по постоянной рейке, которые содержатся в электронных банках данных Новосибирского ЦГМС-РСМЦ. В процессе разработок нами была дана оценка эффективности различных методов контроля применительно к исследуемым рядам, а также их комплексации с целью выбора наиболее оптимального способа, т.е. позволяющего выявить ошибки при минимальном количестве проверяемых данных. Использованы данные 9 станций на территории Сибирского федерального округа за период в пределах 1936-2000 гг.

Контроль метеорологических рядов всегда основан на применении определённых, точно известных свойств рассматриваемого элемента, причём эти свойства могут иметь как физическую, так и статистическую природу.

Временная и пространственная изменчивость высоты снежного покрова, как и любой характеристики климата, обусловлена физико-географическими особенностями территории, существенно зависит от режима осадков, ветра, повторяемости метелей и в значительной степени – от условий защищённости местности. Характерная черта изменчивости высоты снежного покрова – рост в течение зимы с максимумом, который достигается к началу весеннего снеготаяния.

Указанными факторами определяются статистические свойства временных рядов высоты снежного покрова. В работе [4] показано, что распределение её несущественно отклоняется от нормального. Кроме того, ежедневные значения высоты снежного покрова не являются независимыми, и даже для интервала времени между наблюдениями, равными 5 суток, значение структурной функции достаточно мало. И, наконец, тенденция постоянного накопления снега есть отражение нестационарности процесса.


Апробированные методы контроля баз данных

1. В качестве первого подхода использовался метод, основанный на учёте временной изменчивости метеорологической величины, который применим к любым типам распределения [5]. Суть его состоит в фильтрации отклонений за единицу времени (срок, сутки) относительно реально возможного порогового уровня [5, 11]. Если при сравнении двух смежных значений ряда такое отклонение оказывается превышенным, то оба признаются сомнительными, требующими проверки.
Следует иметь в виду, что этот приём имеет ограничения при наличии трёх и более последовательных близких по значению ошибок (различие не превышает установленного критического уровня), поскольку обнаруживаются только крайние из них. В данном случае необходимо проверить достоверность всех значений такого периода.

2. Следующий способ оценки достоверности опирается на статистический метод исключения резко выделяющихся наблюдений. Он предназначен для выявления грубых ошибок в больших объёмах информации, которую практически невозможно проконтролировать путём непосредственного анализа всех наблюдений [2, 5].
Критерий, по которому значения относят к сомнительным, определяют по формуле:



При контроле информации предполагается использование критического уровня К. Для нормально распределенного ряда случайных величин вероятность попадания всех его значений в интервал равна 0,997 [5]. Для негауссовских распределений значение К подбирают эмпирически (метод «К-сигм»).

3. В отличие от метода «К-сигм», применяя квантильный анализ, можно контролировать заданное число экстремальных значений. Выбирают критический уровень обеспеченности (Р), отсекающий ту часть распределения с аномальными значениями (Хi), в которой наиболее вероятны ошибки. Значение Р зависит от числа наблюдений (N) и любого предполагаемого числа ошибок (n).

Например, для объёма выборки N = 1200 (40 лет, 1 месяц) и n = 4 необходимо задать соответственно для левой и правой ветвей кривой интегрального распределения. Таким образом, при обработке информации за год согласно указанным условиям потребуется проверить около 100 случаев.

Чтобы по возможности сократить этот объём данных, предлагаем рассчитывать нормированный показатель (R), характеризующий отклонение каждого сомнительного значения от критического (Хкр) при выбранном уровне Р:


где i - 1, 2, ..., n.

Чем больше Ri, тем вероятней, что значение является ложным. На основе анализа ошибок и соответствующих им значений параметра R устанавливают оптимальный его уровень. Данные, которые превышают этот уровень, требуют проверки, а данные ниже этого уровня - признаются истинными.

4. Модифицированный, более доступный вариант изложенного выше подхода состоит в анализе достоверности любого числа (n) крайних значений ранжированного ряда (Хi) независимо от N и P. Здесь только в качестве Хкр принимается значение (n+1)-го члена ряда. Рассчитывается показатель Rm:

Оценку качества информации и выбор граничного значения критерия Rm осуществляют способом, аналогичным операциям с R.


Оценка эффективности способов контроля

1. Способ фильтрации данных о высоте снежного покрова на основе допустимого изменения от суток к суткам (). В дальнейшем назовём его методом «ступенек».

Пороговые уровни равные и больше 20, 30 и 40 см выбраны исходя из максимального за зиму прироста высоты снежного покрова в различных условиях режима формирования и залегания его на территории Сибири [7]. Эти же критерии приняты и для оценки межсуточного уменьшения снежного покрова вследствие таяния или влияния динамических факторов, обусловливающих, к примеру, выдувание снега.

В таблице 1 представлено количество сомнительных значений и содержащихся в них ошибок при разных .

В процессе апробации метода «ступенек» обнаружены не только случайные, но и разного рода серийные ошибки в данных о высоте снежного покрова:
- в високосные годы до 1984 г. включительно 29 февраля вместо фактических значений, подтверждённых первоисточниками, стоит признак отсутствия данных (-99999), в 1988, 1992 и 1996 гг. – нули;
- дублирующие блоки;
- забракованные данные, представленные как фактические;
- ошибки, связанные с занесением данных высоты снежного покрова в летние месяцы.

Очистить информацию от такого рода недостоверных данных можно путем тестирования по следующим параметрам - на корректность заполнения макета, дубли-рование, сезонную реальность явления.
Данные таблицы 1 показывают, что критерий наиболее результативен, а именно, он фиксирует в целом максимальное количество ошибок (всего 95). Вместе с тем, количество «напрасных отбраковок» в среднем составляет 60 %; иными словами, из каждых 10 сомнительных случаев подтверждаются как ложные только 4. Следующий критерий () по соотношению сомнительных и ошибочных данных является более рациональным, поскольку более 70 % сомнительных признаны ошибочными. Однако при этом оказываются «потерянными» некоторое число ошибок, попавших в разряд «високосных февралей».

Уровень хотя и обеспечивает наиболее оптимальное соотношение сомнительных и ошибочных данных (80%), на неприемлем, поскольку в информации остаются ошибки, представляющие собой ложные экстремумы.

Учитывая изложенное, в качестве оптимальной принята «ступенька»

2. Статистический метод «К-сигм». Ввиду незначительного отклонения распределения высоты снежного покрова на территории Сибири от нормального [4], контроль правомерно осуществлять при помощи критерия (формула 1). В таблице 2 приведено обобщённое по 9 станциям распределение числа случаев К и недостоверных значений (данные об ошибках при используются далее для анализа комплексирования). По результатам верификации зафиксировано 66 ошибок, при этом число подлежащих проверке данных почти втрое больше по сравнению с методом «ступенек». Совершенно очевидно, что по эффективности данный метод уступает предыдущему.

3. Модифицированный способ квантильного анализа, реализуемый с условием контроля пяти крайних значений с обеих сторон ранжированного ряда по отношению к шестому (формула 3). Апробируемый приём контроля позволил из 310 сомнительных данных выявить 74 ошибки (таблица 3). Ограничить объём проверяемых данных, установив оптимальную границу Rmi, не представляется возможным, т.к. ложные значения распределены во всём диапазоне изменения данных.


Комплексация методов

По результатам проведенного контроля тремя описанными способами в общей сложности обнаружено 97 недостоверных значений (включая искаженные значения в феврале високосных лет). Их анализ свидетельствует, что ни один из рассмотренных методов не чувствителен ко всем типам ошибок. Данное обстоятельство указывает на необходимость комплексации этих методов, каждый из которых компенсировал бы недостатки другого.

За основу комплексирования взят метод «ступенек» с как наиболее оптимальный, фиксирующий подавляющее число ложных значений при наименьшем объёме проверяемых данных. Далее задача состояла в том, чтобы найти рациональный подход к выявлению оставшихся ошибок при помощи других критериев (К или Rm).

1. Вначале исследован вариант комплексации - «К-сигм». Анализ ошибок показывает, что метод «ступенек» выявляет их вплоть до порогового К = 9,0, в остальном диапазоне значений К - частично не «срабатывает». Отсюда следует, что проверку качества рядов необходимо строить в два этапа:
а) сначала проводится фильтрация данных по ;
б) затем оставшаяся информация - по критерию К > 9,0.

Комплексный способ верификации , позволил выявить 89 ошибок, при этом согласно таблице 2 необходимо проверить 169 сомнительных значения (109 + 109 – 49). При подобном контроле в среднем О / С = 53 %, или каждое второе сомнительное значение - ошибка.

2. Аналогичный подход использован для комплексирования методов по критериям и Rm (таблица 3). В качестве базового также принят метод «ступенек». Установлено, что ошибки, обнаруженные обоими методами, совпадают только до Rm = 9,0, в остальных случаях недостаточная чувствительность основного компенсируется вторым. Поэтому верификация данных проведена в 2 этапа по предыдущей схеме, т.е. вначале по , затем только для Rm > 9,0. Результат этой комплексации - меньшее число проверяемых данных (135) при том же числе обнаруженных ошибок, эффективность составляет 66 %.

Сопоставляя оба варианта контроля можно сделать вывод, что наиболее оптимален второй из них, т.е. использующий сочетание метода «ступенек» с модифицированным способом квантильного анализа (рис. 1).




Результаты авторских испытаний технологии контроля

Авторские испытания технологии контроля достоверности данных о высоте снежного покрова по постоянной рейке проведены на базе электронного банка данных по 64 станциям на территории деятельности Западно-Сибирского УГМС. Оценка комплексного способа контроля представлена в таблице 4.



Характер ошибок аналогичен выявленным при разработке способа контроля, в основном они допущены при формировании банков данных и перезаписи на технические носители. Дополнительно нами отмечена ещё одна особенность состояния базы данных, а именно, сбои в информации вследствие наличия в формате высоты некоего лишнего символа, в результате чего данные до конца месяца воспринимаются как нули (отмечены 88 ошибок такого свойства). При удалении символа ряд восстанавливается. Необходимая мера – тестировать формат высоты снежного покрова перед процедурой контроля достоверности данных. Следует также заметить, что, несмотря на тщательный критический контроль на всех этапах анализа данных наблюдений, в таблицах ТМ-1 содержатся отдельные явно недостоверные величины, которые, естественно, присутствуют и в электронных банках исторических данных.

В заключение отметим, что эффективность комплексного метода контроля высоты снежного покрова достаточно высокая, в среднем по территории юго-востока Западной Сибири составляет 87 % (таблица 4).


Производственное испытание технологии контроля

Испытание технологии контроля достоверности данных высоты снежного покрова по постоянной рейке для территории деятельности Западно-Сибирского УГМС проведено согласно «Плану испытания и внедрения новых и усовершенствованных методов (технологий) гидрометеорологических и гелиогеофизических прогнозов Росгидромета на 2008 год». В отделе климата Гидрометцентра ГУ «Новосибирский ЦГМС-РСМЦ» выполнена оценка качества работы технологии, эффективности контроля и возможности использования ее Западно-Сибирским УГМС.

Как установлено, для территории юго-востока Западной Сибири (Томская, Новосибирская, Кемеровская области, Алтайский край и Республика Алтай) оптимальным является комплексирование метода «ступенек» и модифицированного варианта квантильного анализа с параметром Rm > 9,0. Комплексный критерий выделяет в виде календаря дат некий оптимальный объём данных, так называемых сомнительных величин, среди которых могут быть как ошибочные, так и верные значения. Оценка достоверности осуществляется путём сверки всех сомнительных значений с данными, содержащимися в первоисточнике (работа с архивом ТМ-1).

Для проведения испытаний использован электронный банк данных наблюдений за высотой снежного покрова 25 станций, имеющих период наблюдений 1936-2007 гг. Оценка достоверности производилась реализацией следующих этапов.

На первом этапе испытаний был произведён автоматизированный контроль исходных данных высоты снежного покрова по каждой станции с помощью фильтрации по критериям и Rm > 9,0. Программа технологии контроля обладает интуитивным интерфейсом, критерии параметров регулируются пользователем. Общее количество сомнительных данных составило 1671 значение. Среди всех станций большим количеством сомнительных значений резко выделяется Старица (80 % от их числа).

На втором этапе испытания календарь дат подвергся анализу и контролю особых случаев, следуя инструкции авторов:
- если единичное значение высоты снежного покрова образует две разнона-правленные «ступеньки» с предыдущим и последующим значениями, то оно является сомнительным и подлежит проверке;
- если значение высоты снежного покрова образует «ступеньку» с предыдущим, а обратная «ступенька» наблюдается через несколько дней, то это означает, что сомнительными следует принять все значения внутри такого периода.

В результате выполненного анализа число сомнительных данных увеличилось на 50 % и составило 2509 значений (таблица 5).



Примечание.
Число сомнительных значений приведено соответственно для первого и второго этапов контроля через наклонную черту.

Третий этап заключался в верификации всех сомнительных значений, в результате которой выявлены 2329 ошибок. В структуре распределения ошибок по станциям видно, что в основном их число колеблется от нескольких до 10, и в отдельных случаях достигает 30 - 45 (Кондома, Алейская); по двум станциям (Северное и Ордынское) ошибки отсутствуют (рис. 2). В большинстве случаев количество ложных значений в объёме сомнительных превышает 50%, по станции Старица банк данных практически «запорчен» (рис. 3).

По итогам испытания эффективность технологии составляет 93 % (таблица 5). Во временном разрезе основная доля ошибок отмечается в исторических данных до 1985 года. В последующий период, в эпоху ЕС ЭВМ качество перезаписи информации значительно улучшилось.


Выводы о целесообразности внедрения технологии

Результаты испытания технологии контроля достоверности данных высоты снежного покрова по постоянной рейке были рассмотрены на заседании Технического совета Западно-Сибирского УГМС от 14.04.2009 г. Отметив достаточно высокий уровень эффективности, Технический совет принял решение внедрить технологию в производственную практику отдела климата Гидрометцентра Новосибирского ЦГМС-РСМЦ при формировании климатологических рядов по территории Западно-Сибирского УГМС для подготовки справочно-нормативных пособий и обслуживания потребителей климатической информации.

Технология контроля, разработанная на материале станций территории Сибирского федерального округа, и свидетельствующая о проблеме качества региональных банков данных по снежному покрову, может быть испытана и внедрена в соответствующих УГМС (Среднесибирское, Иркутское, Забайкальское).


Список литературы

1. Белая Н. И., Босина М. И. Результаты контроля суточных сумм атмосферных осадков //Тр. ЗапСибНИГМИ. – 1989. –Вып. 86. – С. 36-44.
2. Босина М. И., Кошинский С. Д. , Лучицкая И. О. Организация контроля достоверности статистических характеристик температуры воздуха и атмосферных осадков суточного разрешения для Научно-прикладного справочника по климату СССР // Тр. ЗапСибНИГМИ. -1987. –Вып. 80. –С. 48-61.
3. Гордин В. А. Обработка метеорологической информации как предмет прикладной математики // 70 лет ГМЦ РФ. – СПб, 1999. – С. 70-79.
4. Копанев И. Д. Климатические аспекты изучения снежного покрова. – Л.: Гидро-метеоиздат, 1982. – 231 с.
5. Кудряшов А. Н. О методах контроля качества гидрометеорологических наблюдений. – ДВНИГМИ/ деп.рук. № 894 ВНИИГМИ-МЦД. 1989. -23с.
6. Лучицкая И. О. Об уточнении критерия контроля средней суточной температуры воздуха // Тр. ЗапСибНИГМИ. -1989. -Вып. 86. -С. 27-36.
7. Научно-прикладной справочник по климату СССР. Л., Гидрометеоиздат, 1990-1993, серия 3, ч.1-6, вып. 20-23.
8. Пичугин Ю. А. К проблеме статистического контроля данных наблюдений за приземной температурой на отдалённых станциях. Ч.2 // Метеорология и гидрология. 2001. № 11. С. 22 – 26.
9. Пичугин Ю. А. Многомерные статистические модели в анализе, контроле и прогнозе метеорологических рядов: Автореф. дис. на соиск. уч. ст. докт. физ.-мат наук. Рос. гос. Гидрометеорологический ун-т. СПб. 2002. 34с.
10. Справочник по климату СССР. Л:, Гидрометеоиздат, 1969. Ч.4, вып. 20, 331с.
11. Сычёв А. И. Об одном методе автоматического контроля архива метеорологической информации // Тр. ЗапСибНИГМИ. -1981.-Вып. 49. -С.105-117.
12. Шаймарданов М. З. Степаненко С. Р., Дьяченко В. И. и др. О контроле качества приземной метеорологической информации // Тр. ВНИИГМИ-МЦД.-1980. -Вып.64. - С.46-50.


Авторы

И.О. Лучицкая, Н.И. Белая, Е.А. Александрова
СибНИГМИ


Контакты И. О. Лучицкая
Адрес: 630099, г. Новосибирск, ул. Советская, 30
Тел.: 8 (383) 222-25-30
E-mail: lych@sibnigmi.ru


© Методический кабинет Гидрометцентра России