DOI: https://doi.org/10.37162/2618-9631-2022-3-6-41

УДК 551.509.313+551.509.324.2+551.508.85

 

 

Верификация радиолокационного наукастинга
 областей осадков значительной площади
 с помощью обобщенного распределения Парето.
Часть 1: элементы теории
и методы оценки параметров

А.В. Муравьев, А.Ю. Бундель, Д.Б. Киктев, А.В. Смирнов

Гидрометеорологический научно-исследовательский центр
Российской Федерации, г. Москва, Россия

muravev@mecom.ru 

 

В двух частях представлены накопленные в последние несколько лет в Гидрометцентре России оценки наукастинга областей осадков значительной площади: в первой части обсуждаются методологические проблемы, во второй содержатся результаты прикладного характера. Разделение вызвано, в основном, отчетливым различием между теоретическим моделированием экстремумов с относительно свободным выбором предпосылок и статистическим анализом "хвостов" распределений на стремительно "оскудевающих" выборках.

Первая часть посвящена описанию двух классических моделей теории экстремальных значений для независимых одномерных случайных величин ("блочные максимумы") и для превышений порогов в стационарных временных рядах ("пики над порогом"). Обсуждаются проблемы, возникающие при нарушениях предпосылок теоретических результатов, и дается краткий обзор методов решения таких проблем при моделировании экстремумов по реальным данным, в том числе из области метеорологии. Особое внимание уделено распределениям с "тяжелыми" хвостами. Методы и формулы оценок важных характеристик, включая параметры предельных распределений, описываются по ссылкам в документациях расчетных математических пакетов хранилища языка R.  

Ключевые слова: наукастинг осадков, теория экстремальных величин, статистическое моделирование экстремумов, тяжелые хвосты распределений, математические пакеты для аппроксимации распределений экстремальных величин

 

 

Verification of radar precipitation nowcasting
of significant areas using the generalized Pareto distribution. Part 1: Elements of theory and methods
for estimating parameters

A.V. Muravev, A.Yu. Bundel, D.B. Kiktev, A.V. Smirnov

Hydrometeorological Research Center of Russian Federation,
Moscow, Russia

muravev@mecom.ru 

 

The assessments of nowcasting of large precipitation areas accumulated in the last few years at the Hydrometeorological Research Center of the Russian Federation are presented in two parts complemented by a discussion of methodological problems in the first part and application problems in the second part of the paper. The division is largely due to the sharp distinction between the theoretical modeling of extremes with a relatively free choice of assumptions and the statistical analysis of the distribution "tails" in rapidly "impoverishing" samples. The first part deals with the description of two classical models of the extreme value theory for independent one-dimensional random variables ("block maxima") and for threshold exceedances in stationary time series ("peaks over threshold"). The article explores problems arising from violation of the theoretical results and carries a brief overview of the methods of addressing such problems when extremes are modeled using real data, including those from the field of meteorology. Special attention is given to the distributions with "heavy" tails. Methods and formulas for estimating important characteristics, including the parameters of limiting distributions, are discussed that are borrowed from the references in the documentation of computational mathematical packages of the R language repository.

Keywords: precipitation nowcasting, extreme value theory, statistical modeling of extremes, heavy distribution tails, mathematical packages for fitting extreme value distributions

 

 

Введение

Представленная работа (в двух частях) продолжает серию статей об опыте пространственных оценок качества с особым вниманием к областям осадков значительной площади. Условия и результаты испытаний системы радиолокационного наукастинга осадков Гидрометцентра России описаны в предыдущих публикациях авторов [18, 23–26]. В опубликованной ранее статье [26] обсуждаются проблемы формирования корректных выборок для оценок прогнозов областей значительной площади в терминах теории экстремальных величин и выбросов в стационарных временных рядах.

Разделение данной работы на две части (методологическую и прикладную) вызвано необходимостью описать богатый и разнообразный материал, охватывающий диапазон от теории экстремумов и оценок параметров предельных распределений до использования расчетных программ и приложений теории к накопленной прогностической продукции. 

Теоретическая часть сгруппирована вокруг двух теорем, которые, по мнению специалистов в данной области, завершают "классический период" теории экстремальных величин. Мы используем по возможности точные определения и теоремы, чтобы, с одной стороны, представить фундаментальную глубину разработанной теории, а с другой стороны – указать на трудности и опасности приложений теории экстремумов к фактическим данным без должного учета предпосылок этих теорем.

Так как наибольший интерес представляют "тяжелые" хвосты распределений, главным инструментом анализа служит обобщенное распределение Парето с положительным параметром формы. Обсуждаемые основы и приемы анализа учитываются или содержательно используются во второй, практической части работы.

Применение некоторых методических рекомендаций ограничено особенностями оперативной системы наукастинга, которая до 2020 года была построена на зонах обзора отдельных радиолокаторов, развернутых в Центральном федеральном округе. Указанное ограничение существенно смягчается, но не снимается полностью при переходе к продукции усовершенствованной оперативной системы наукастинга осадков, внедренной в Гидрометцентре России в конце 2020 г. и построенной на композитных полях, составляемых по данным около 30 ДМРЛ-С, покрывающих Европейскую территорию России.

Основными объектами для теории и методов статистического вывода являются абстрактные случайные величины и их реализации, ввиду чего в первой части работы метеорологические спецификации объектов верификации обсуждаются только в иллюстративных целях. При этом во второй части статьи определяются и исследуются объекты, представляющие собой специфические конструкции объектно-ориентированной верификации прогнозов [3, 37, 38].

Методика теории экстремумов прилагается к площадям (или размерам) областей осадков, оцениваемым по количеству точек внутри этих областей. Идентификация объектов в полях осадков с помощью заданной изолинии и подсчет размеров этих объектов производятся функциями математического пакета SpatialVx [50]. В представленной части рассмотрены методы оценок параметров предельных распределений и доверительных интервалов, реализованные в математическом пакете ExtRemes [51]. 

В начале данной статьи, для иллюстрации предмета исследования, обсуждаются самые общие характеристики объектов, выделенных в полях радиолокационных осадков в теплый (май–сентябрь 2017 г.) и холодный (ноябрь 2017 – март 2018 г.) периоды года. 

 

1. Объекты и их размеры в зонах обзора радиолокаторов на территории Центрального федерального округа

Для идентификации объектов настроечными параметрами являются 1) радиус пространственного осреднения, 2) порог идентификации, 3) минимальная площадь – по количеству связных точек объекта. Связность пары точек определяется их соседством на стороне ячейки сетки. 

Выделение и архивирование объектов, площадь которых превышает некоторый порог, производилось целенаправленно для последующего моделирования размеров объектов обобщенным распределением Парето. После предварительных экспериментов с полями были отобраны следующие значения настроечных параметров: радиус осреднения – 9 точек (по долготе и широте); порог идентификации объекта – 1 мм/ч; минимальные размеры объектов (по количеству внутренних точек соответствующей области, включая граничные) – 0, 625, 900, 1225 и 1600 точек. В единицах реальных площадей минимальные размеры соответствуют квадратам от 50´50 до 80´80 [км´км].

В период испытаний анализировалось распределение размеров объектов для полей радиолокационных осадков и прогнозов, рассчитываемых статистической моделью STEPS [35] на 15 сроков в 10-минутной дискретности. Все поля использованы как формально независимые, т. е. с синоптической точки зрения выделяемые объекты могут представлять одно развивающееся во времени синоптическое образование, которое в [26] было формализовано понятием непрерывной ситуации. В табл. 1 собраны суммарные значения количества объектов и использованных полей осадков, построенных по данным радиолокаторов (ДМРЛ-С) в течение двух периодов года.

 

Таблица 1. Количество объектов всех размеров, общее количество сроков наблюдений (полей) и доля количества объектов относительно количества всех полей (%) в полях радиолокаторов на территории ЦФО в теплый (май–сентябрь 2017 г.) и холодный (ноябрь 2017 – март 2018 г.) периоды года

Table 1. The number of objects of all sizes, total amount of observation time moments (fields) and objects' percentage of the total amount of  radar observation fields over the CFD territory in warm (May-September 2017) and cold (November 2017 – March 2018) periods of the year

 

Объект

Теплый период

Холодный период

объектов

полей

доля, %

объектов

полей

доля, %

RAKU

15403

21843

71

7384

21041

35

RATL

13269

19124

69

4511

20225

22

RAVN

14094

21266

65

1502

21539

7

RAVO

21944

20322

108

5689

19753

29

RUDB

12022

19633

61

4120

21436

19

RUDK

20455

21803

94

3866

21327

18

RUDL

20479

21495

95

4246

21219

20

RUDN

21215

21846

97

5281

21183

25

RUWJ

22991

21879

105

2445

21451

11

Примечание. Радиус осреднения – 9 точек сетки, т. е. около 18 км. Изолиния идентификации объекта – 1 мм/ч. Идентификаторы и местоположение ДМРЛ-С: RAKU – Курск, RATL – Тула, RAVN – Внуково, RAVO – Воейково, RUDB – Брянск, RUDK – Кострома, RUDL – Смоленск, RUDN – Нижний Новгород, RUWJ – Валдай. 

 

 

Доля объектов в общем количестве полей наблюдений в теплый период значительна, более или менее стабильна и составляет от 61 до 108 %; превышение 100 % объясняется возможным "заселением" одного поля несколькими объектами. Количество объектов, выделенных той же  изогиетой 1 мм в холодный период, ожидаемо меньше. Однако при этом значение 7 % против 65 % в зоне локатора Внуково (RAVN) явно свидетельствует об исключительных особенностях восстановления полей осадков в холодный период в указанной зоне покрытия. Можно обоснованно предположить, что несколько теневых секторов от местников около этого локатора препятствуют построению объектов даже при радиусе осреднении в 9 точек. 

Распределение размеров объектов по квартилям и в среднем (mean) представлено в табл. 2. Несколько удивительно, что во всех зонах обзора наименьший объект – это одна изолированная точка (или одна ячейка, соотнесенная узлу сетки). До четверти всех объектов обладают размером, не превышающим порядка около сотни точек (квантиль q25).

 

Таблица 2. Статистические характеристики распределения размеров объектов в полях радиолокационных осадков на территории ЦФО в теплый (май–сентябрь 2017 г.) и холодный (ноябрь 2017 – март 2018 г.) периоды года

Table 2. Statistics of object sizes in radar precipitation fields over the CFD territory in warm (May-September 2017) and cold (November 2017 – March 2018) periods of the year

Период

min

q25

median

mean

q75

max

RAKU

Теплый

1

125

317

1054

1133

17989

Холодный

1

76

262

1017

1080

14228

RATL

Теплый

1

116

304

985

1053

16682

Холодный

1

86

288

1000

1098

22158

RAVN

Теплый

1

122

316

848

916

16855

Холодный

1

71

203

511

523

5654

RAVO

Теплый

1

92

257

749

731

14820

Холодный

1

65

184

567

514

10560

RUDB

Теплый

1

134

361

1037

1164

19383

Холодный

1

83

270

996

980

12528

RUDK

Теплый

1

104

290

924

970

14443

холодный

1

66

180

557

505

11824

RUDL

Теплый

1

107

298

936

1007

19812

Холодный

1

72

233

905

841

27128

RUDN

Теплый

1

113

301

971

1004

17049

Холодный

1

62

193

704

614

14079

RUWJ

Теплый

1

95

267

953

895

19551

Холодный

1

54

172

527

478

16530

Примечание. Параметры объектов и идентификаторы локаторов те же, что в табл. 1. Обозначения характеристик стандартны; q25 и q75 – первый и третий квартили распределения.

 

 

Практически все квантили теплого периода, кроме q0 (min) и значений, отмеченных красным цветом, превышают соответствующие квантили холодного периода. Для локаторов RAKU, RATL, RUDB и RUDL квартили q75 по холодному и теплому периодам сравнимы. Примерно сходное превышение наблюдается и в максимальных значениях в теплый период. Красным выделены два локатора, в зонах которых максимумы для холодного периода имеют больший размер, чем максимумы для теплого периода. 

С помощью табл. 2 можно дополнительно обосновать выбор порога идентификации объектов по фиксированной изолинии для всех локаторов, не прибегая к определению по высокому квантилю, как рекомендуется, например, в [38, 39]. При квантильном определении фактическое значение порога различно для разных локаторов. Так, если отбор производить по квантилю 75 %, размах порогов для теплого периода составляет от 731 до 1164; для холодного – от 478 до 1098. Но эти размахи удовлетворительно охватываются диапазоном порогов от 625 до 1600, протестированных на пригодность распределения. Так как для квантиля q75 заметно сходство размахов размеров в теплый период (~700–1200) и размеров в холодный период (~500–1100), то при некоторых поправках вполне допустимо пользоваться едиными порогами и для разных периодов года. При этом, безусловно, следует учитывать исключительные случаи, такие как данные локатора Внуково в холодный период. 

Следует отметить, что на данном этапе мы не затрагиваем проблему положения выделенного объекта относительно границ обзора локатора и не можем оценить влияние на результирующие оценки таких явлений, как выход объекта за пределы зоны обзора. При трудностях контроля и учета таких ситуаций в автоматизированном режиме наиболее надежен простой визуальный подход, который эффективен в наиболее важных случаях (case studies). При переходе к композитам, охватывающим Европейскую территорию России, острота проблемы границ может значительно уменьшиться. 

 

2. Классические модели экстремальных величин

Математическое ядро теории одномерных экстремальных величин состоит из двух теорем и двух наборов предельных законов распределения. Два набора распределений соответствуют, по англоязычной традиции, моделям "блочных максимумов" (block maxima) и "пиков над порогом" (Peaks-over-Threshold, РОТ или РоТ) [62]. Однако терминология неустойчива: например, в гидрологии для модели РоТ используется словосочетание partial duration model, которое в русскоязычных документах ВМО называется "усеченным рядом" [4, 63].

 

2.1. Первая теорема об экстремумах

Первая теорема относится к экстремумам в выборках независимых и одинаково распределенных (н.о.р) случайных величин. В окончательном виде она была сформулирована Гнеденко в 1941 г. [8] и в настоящее время с учетом вклада выдающихся предшественников называется теоремой Фишера–Типпета–Гнеденко, или первой теоремой об экстремальных типах.

В дальнейшем из двух экстремумов нас будут интересовать только максимальные значения величин, но при этом мы предварительно уточним определение случайного максимума из набора случайных величин Хi соотношением, часто записываемым в виде Mn = max1, ..., Хn). Здесь имеется в виду, что Mn – случайная величина, составленная из значений Х1, ..., Хn, но не совпадающая в общем ни с одной из них. Во избежание недоразумений следует представлять себе случайную величину по Колмогорову, т. е. как действительную функцию X: W®R на множестве W элементарных событий вероятностного пространства (W, , P) с полем  случайных событий и вероятностной мерой Р [19]. Стандартный порядок сохраняется только в реализациях: для события wÎW имеем Mn(w) = max1(w), ..., Хn(w)) и Mn(w) совпадает с одним из Хi(w). Такой подход существенно облегчает понимание и изложение порядковых экстремумов (см., например, [5]), когда при ранжировании случайных величин Х1, ..., Хn вариационный ряд Х(1) <...< Х(n) состоит из случайных величин, в общем случае отличных от Хi.

Хорошо известно, что для независимых и одинаково распределенных величин Х, подчиняющихся распределению F(x)=P(X£x), где Р – вероятностная мера, максимум Mn = max1, ..., Хn) распределен по закону .

Дальнейший анализ распределения производится после перехода к нормированной величине (Mn  bn)/an и, соответственно, от F(x) к F(bnanх), где числа bn > 0 и an являются некоторыми последовательностями сдвига и масштаба. Считается, что распределения F и G принадлежат одному типу, если их аргументы связаны линейной формулой: существуют две константы A и B > 0, для которых F(A+Bx)=G(x). Так как классы, по определению, не пересекаются, можно выделить любое распределение F0, сделать его представителем типа, и тогда остальные распределения данного типа будут выражаться через представителя типа некоторой линейной нормировкой.     

Воспользуемся формулировкой, приписываемой Мизесу (1936) и Дженкинсону (1955) и приводящей к единому обобщенному распределению экстремальных величин (Generalized Extreme Value Distribution, GEVD или GEV), которое иногда называется "параметрической формой Мизеса" [5, 21], или "g-параметризацией" [59]. Характеристику g называют
параметром хвоста, параметром формы, индексом экстремальности, экстремальным индексом и т. д.

Теорема Фишера–Типпета–Гнеденко. Если для н.о.р случайных величин Х1, ..., Хn и последовательности вещественных констант an > 0, bn распределение Fn(bn+anх) сходится слабо к невырожденному распределению Gg(x) при n®¥, то

 

       (1)

 

Напомним, что распределение величины Х считается вырожденым, если Р (X = const) =1. Три классические типа распределений определяются значениями g: при g=0 – распределение Гумбеля; при g>0 – распределение Фреше; при g<0 – распределение Вейбулла. На практике аргумент GEVD записывается в виде отклонения от параметра положения (location parameter) с нормировкой на параметр масштаба (scale parameter) в форме (– m)/s, и задача оценки параметров предельного распределения стано-вится трехпараметрической, включая параметр формы g (shape parameter). Некоторые из этих параметров могут определяться заранее на основе имеющейся информации об особенностях исследуемой физической величины. Иллюстрация трех типов распределений дана на рис. 1.

 

Рис. 1. Обобщенное распределение H(x) (левая панель) и плотность распределения h(x) (правая панель) для трех типов: g=0 (Гумбель) –сплошная линия: g=0.5 (Фреше) – точечная линия; g= -0.5 (Вейбулл) –штриховая линия. Во всех случаях  m=0, s=1.

Fig. 1. Generalized extreme value distribution H(x) (left panel) and distribution density (right panel) for three types: g=0 (Gumbel) – solid line; g=0.5 (Fréchet) – dotted line; g= -0.5 (Weibull) – dashed line. In all cases m=0, s=1.

 

 

Формы распределений характеризуются, как правило, такими свойствами, как ограниченность, асимметричность и поведение на хвостах, причем хвостам распределений уделяется основное внимание, в первую очередь из-за их роли в оценке периода повторяемости (return period) экстремального значения. Ввиду прямой связи с характеристичными особенностями хвостов параметр формы называется также параметром хвоста (или хвостовым параметром). Наиболее общее описание распределений таково: распределение Гумбеля не ограничено, хвост "средней тяжести"; распределение Вейбулла ограничено правой конечной точкой 1/|g|, левый хвост "тяжелый"; распределение Фреше ограничено левой конечной точкой  -1/g, правый хвост "тяжелый". 

Хвосты разнообразны по виду, составу и весу и не всегда строго определяются в прикладных работах; существуют хвосты средние (medium), тяжелые (heavy), супертяжелые (super-heavy), жирные (fat), короткие (short), длинные (long). Дадим некоторое представление об этом разнообразии, используя по возможности точные формулировки.

Общим образом хвост описывается вероятностью превышения (x) = P(X > x) = 1 – F(x), где X – случайная величина с распределением F(x), Р – вероятностная мера. 

В одном из определений тяжести хвоста используется сравнение с экспоненциальным распределением с параметром t>0: плотность ft (x) равна нулю для x<0 и ft (x) = te-tx для x³0; кумулятивная функция Ft (x) равна нулю для x<0 и 1 –  e-tx для x³0; хвост распределен по обратной экспоненте, t (x) = e-tx. Хвост распределения F(x) называется тяжелым (heavy), если он не ограничен экспоненциальным распределением, или, сторого математически, если производящая функция её моментов M(t) = E[etX] = etxdF(x) бесконечна для любого t>0, здесь Е – оператор математического ожидания. Это эквивалентно равенству limx®¥ etx = limx®¥  ¥ для любого t>0, т. е. тяжелый хвост убывает медленнее любой экспоненты. Из свойств производящей функции нетрудно получить, что для тяжелохвостости распределения достаточно отсутствия у него каких-либо моментов. Так, распределение Коши из стандартных статистик имеет только моду и медиану и не имеет ни одного момента вместе с математическим ожиданием. Распределение Фреше в форме Р(X£x)=exp(-x-1/g), g>0, обладает моментом k-го порядка только при g<1/k, т. е. если параметр этой формы распределения  растет, то хвост тяжелеет; например, при g>1 отсутствует математическое ожидание (тогда, очевидно, отсутствуют и все остальные моменты).        

Хвост распределения F(x) называется длинным (long), если для каждого t>0 предел условной вероятности P(X > x+t | X > x) равен единице при x®¥. Это эквивалентно асимптотическому равенству  при x®¥. Напомним, асимптотика F~G означает, что F/G стремится к единице при стремлении аргумента к некоторому значению, в данном случае к бесконечности. В статьях по экономическим и финансовым рискам встречается интерпретация с оттенком драматической неизбежности: если длиннохвостая случайная величина превосходит некоторый высокий уровень, то с единичной вероятностью она превзойдет любой другой уровень. Классическими длиннохвостыми являются распределение Парето и распределение Леви.

Еще медленнее любой экспоненты убывает хвост субэкспоненциального распределения (отсюда и название), введенного в связи с развитием теории ветвящихся процессов в 60-х годах прошлого века и определяемого через понятие свертки распределений случайных величин [21]. Сверткой F*2 распределения F с собой называется распределение суммы двух н.о.р величин X1 и X2: F*2(x) = P(X1+X2<x) = ; n-кратная свертка F*n определяется индуктивно:  F*n(x) = . Распределение F(x) называется субэкспоненциальным, если (x) ~ 2(x) при x®¥. Этого достаточно, чтобы и  (x) ~ n(x) при x®¥. Главное свойство заключается в следующем: для сумм н.о.р величин X1, ..., Xn с экспоненциальным распределением выполняется асимптотическое равенство P(X1+ ...+Xn>x) ~ P(max(X1, ..., Xn)>x) при x®¥. Это свойство называется иногда "единственным большим прыжком" (single big jump) или "принципом катастрофы" (catastrophe principle) и означает, что большие суммарные величины достигаются не за счет накопления многих слагаемых, а за счет одного большого слагаемого. И в этом семействе имеется чемпион – распределение лог-Коши, которое обладает супертяжелым хвостом, превышающим тяжесть хвоста распределения Парето. 

Добавим напоследок жирные хвосты (fat), которые определяются наиболее просто среди упомянутых: такие хвосты стремятся к нулю как степенная функция: P(X>x~ x-a, a>0 при x®¥. Величина показателя связана с существованием k-го момента простым неравенством k £ a–1; например, при a>2 не существует ни дисперсии, ни всех остальных моментов выше второго порядка). Жирными хвостами обладают распреде-ление Коши и все так называемые устойчивые распределения (кроме нормального), введеные в обиход П. Леви в 1925 г. в простой формули-ровке: любая сумма н.о.р случайных величин, имеющих устойчивое распределение, распределена также по устойчивому закону (с точностью до линейной нормировки) [17, 21]. Семейства этих и субэкспоненциальных распределений имеют большую область пересечения, так как устойчивые законы определяются также через свертку функций распределения. Устойчивые распределения представляют собой четырехпараметрическое семейство S(х,a,b,m,s), aÎ(0,2], bÎ[-1,+1], которое лишь в отдельных случаях может выражаться в явном виде. К устойчивым законам относятся распределения Коши, нормальное (при a=2) и упомянутое распределение Леви, связанные между собой неожиданно простой зависимостью: если  X и Y подчиняются стандартному нормальному закону, то X/Y имеет распределение Коши, а X-2  распределено по закону Леви. Принадлежность части устойчивых распределений к жирнохвостым проявляется в асимптотическом соотношении     – довольно сложная функция от a.

Многообразие хвостов структурировать непросто. Укажем лишь некоторые соответствия и включения в рамках предыдущих определений. Три распределения с тяжелыми (НD), длинными (LD) и субэкспо-ненциальными (SD) хвостами упорядочены строгими включениями: SD Ì LD Ì НD. Строгость порядка означает, что, например, все длиннохвостые распределения SD входят в семейство тяжелохвостых НD, но имеются такие распределения с тяжелыми хвостами, которые на входят в семейство SD. При этом большинство известных тяжелохвостых распределений являются субэкспоненциальными, таковы однохвостые Парето, лог-нормальное, Леви, Вейбулла с параметром формы между 0 и 1, Барра, лог-логистическое, лог-гамма, Фреше, лог-Коши, и двухвостые Коши, устойчивое (кроме однохвостового Леви), t-распределение.    

 

2.2. Вторая теорема об экстремумах    

Эта теорема относится к превышениям порогов, датируется 1975 г. и носит имена Пикандса, Балкема и де Хаана [43]. Предельным распределением данной теоремы служит обобщенное распределение Парето (Generalized Pareto Distribution, GPD). Ее практическая важность была впервые осознана и активно использована в финансовой математике [44]. В настоящее время и теорема, и обобщенное распределение Парето широко применяются в самых разных областях, в том числе и в русскоязычных статьях разной направленности [11, 12, 27, 29, 32].

Ниже мы будем различать превышение как факт (событие) и как размер (величину). В английской терминологии эти различия даются терминами exceedance (выход за пределы) и excess (избыток, излишек) соответственно.

Перейдем к формальным определениям. Пусть Х1, ..., Хn подчиняются распределению F. Обозначим правую конечную точку распределения символом w(F) = sup{x|F(x) <1}. Значок sup (верхняя грань) указывает на то, что точка достигается в пределе, т. е. она может быть конечной или бесконечной и не принадлежать области определения F.

Буквой u обозначим пороговое значение, близкое (но меньшее) к правой конечной точке F. Нас интересуют значения х, превышающие u. Условная функция распределения значений этих превышений x>u (избытков) удовлетворяет соотношению

 

.                   (2)

 

Обобщенное распределение Парето W(x) и обобщенное распределение экстремальных величин G(x) связаны соотношением W(x) = 1 + logG(x) при условии logG(x) > -1. Воспользовавшись g-представлением класса GEV, получаем сходное представление соответствующих моделей GP:  

 

                                                                     (3)

 

              (4)

 

Следуя инерции определений, получаем в зависимости от значения и знака параметра g набор трех типов частных распределений: экспоненциальное (W0), Парето (W+) и Бета (W-). Как и в первой теореме, типы предельных распределений являются классами эквивалентности.

Аналогично распределению GEV, переход к нормированному аргументу добавит параметры положения и масштаба (зависящего от порога), при этом параметр формы останется без изменений. Обозначим соответствующее распределение через Wg,u,s(u). Распределения типа GPD являются единственными непрерывными распределениями F,  такими, что для определенного набора констант bn и an выполняется соотношение пороговой устойчивости (в полной аналогии с максимум-устойчивостью):  где  также остается распределением превышений порогового значения u. 

Теорема Пикандса-Балкема-де Хаана. Если  имеет непрерывное предельное распределение при стремлении (снизу) порога u к конечной точке w=w(F), то

 

                                             (5)

 

для некоторого распределения  из семейства обобщенного распределения Парето с параметрами формы g, положения u и масштаба s(u) соответственно.

На рис. 2 представлены типы GPD. В частности, видно, что плотности всех типов в нуле равны 1. Можно показать, что все распределения семейства первой теоремы об экстремумах попадают в области притяжения соответствующих типов семейства второй теоремы с преобразованными параметрами положения и масштаба; опять же – параметр формы не изменяется (примеры в [59]). 

На рис. 3 показаны плотности распределения Коши g(x)=1/p(1+x2) и распределения Парето w(x)=a[(x-m)/s]-(1+a); хвост распределения Коши находится в области притяжения распределения Парето W1,a,m,s(x) = 1 – ((xm)/s)-a , a=1/g [59]. Напомним, что распределение Коши симметрично и на рис. 1 оставлено лишь положительное крыло распределения.

Важность второй теоремы об экстремумах и ее практическое преимущество перед первой теоремой состоят в следующем:

– во-первых, анализ экстремальных величин переводится в хвост распределения, что дает дополнительные возможности пороговой устойчивости: если случайная величина Y распределена по закону обобщенного Парето и u>0, то условное распределение величины  Yu (при условии Y > u) распределено по этому же закону;

– во-вторых, благоприятное свойство заключается в том, что если N распределено по закону Пуассона и величины Y1, ..., YN  являются независимыми и одинаково распределенными по GP, то случайная величина max(Y1, ..., YN) распределена по обобщенному закону GEV. Отсюда следует, что распределение пуассоновского процесса моментов времени превышений, помноженное на обобщенное распределение Парето для значений этих превышений, приводит к трем классическим типам класса GEV.

 

Рис. 2. Обобщенное распределение Парето H(x) (левая панель) и плотность распределения h(x) (правая панель) для трех типов: g=0 (экспоненциальное) – сплошная линия; g=0.5 (Парето) – точечная линия; g = -0.5 (Бета) – штриховая линия. Во всех случаях  s=1.

Fig. 2. Generalized Pareto distribution H(x) (left panel), and distribution density (right panel) for three types:  g=0 (Exponential) – solid line; g=0.5 (Pareto) – dotted line; g = -0.5 (Beta) – dashed line. In all cases  s=1.

 

 

Рис. 3. Плотность стандартного распределения Коши (сплошная, показана только для неотрицательного аргумента) и плотность распределения Парето (a = 1, m = -0.25, s = 1/p).

Fig. 3. Density of standard Cauchy distribution (solid line) and
of Pareto distribution with parameters
a = 1, m = -0.25, s = 1/p. 

 

 

Наиболее полезная практическая особенность содержится в математическом ожидании R = E(Yu|Y>u) как функции от порога, известной из актуарной математики под невеселым названием среднего времени дожития. При выполнении для параметров формы g, масштаба s и положения m (т. е. порога m=u) условий в виде g<1, u>0, s+ug>0, среднее время R и порог оказываются линейно связанными: R = E(Yu|Y>u)= (s+gu)/(1–g). Таким образом, оценив R по фактическим данным, можно по графику получить оценку сразу нескольких свойств и характеристик:

1) если предположение об обобщенном распределении Парето справедливо, то график должен представлять прямую линию с пересечением оси х в точке s/(1+g) и с наклоном g/(1+g), что

2) дает одновременно оценку s и g; 

3) если интервал линейности заметен (визуально!), то в качестве допустимого порога можно взять наименьшее значение u на этом интервале, которое сохранит максимально возможный объем выборки экстремумов.

Условия для параметров (g<1, u>0, s+ug>0) выполняются в большинстве интересных для нас случаев. Так как параметры распределения могут оцениваться по наблюдениям отдельно, например с помощью взвешенных вероятностей, или L-статистик, комбинация данного графика с отдельно оцененными параметрами приведет к более надежным выводам. Особенно рекомендуется оценивать параметр формы методами Хилла или Пикандса, приводящими к робастным, состоятельным, асимптотически эффективным и нормально распределенным оценкам. 

При всех перечисленных достоинствах главное условие второй теоремы, состоящее в использовании достаточно высокого порога, совсем непросто удовлетворить: чем больше порог, тем меньше пиков, и наоборот, чем меньше порог, тем больше пиков. Но если порог растет, то конструируемая модель становится ближе к асимптотической, значит, более точной; однако при этом теряются данные – точность оценок параметров модели падает. И наоборот, если порог понижается, то количество данных растет, а значит, точность оценки параметров повышается; однако при этом конструируемая модель удаляется от асимптотической – точность модели падает. Ситуация малоутешительна: универсальной оптимальной стратегии выбора порога при конкуренции между вероятностной точностью модели и статистической надежностью оценок ее параметров не существует.

 

2.3. Нарушение исходных условий асимптотических теорем

2.3.1. Замечание о слабой сходимости распределений

Слабая сходимость распределений присутствует в теоремах об экстремумах: в первой теореме явно, во второй теореме – через равномер-ную метрику на мерах. В теории вероятностей этот тип сходимости включается в более общий круг проблем сходимости вероятностных мер и возникает вопрос о сути и важности этой аналитической тонкости в определении для прикладников.

Постараемся для краткости описать проблематику, не прибегая к формулам. В предельных теоремах теоретических публикаций слабая сходимость мер вводится с помощью сходимости интегралов по мерам для ограниченных непрерывных вещественных функций. Утверждение, что из сходимости конечных мер следует сходимость соответствующих распределений в точках непрерывности предельного распределения, принимается часто за определение слабой сходимости – иногда под другим наименованием (в пособии [7] это называется сходимостью в основном). В случае теорем для экстремумов все предельные распределения непрерывны, являются корректными вероятностными мерами и слабая сходимость гарантирована.    

Однако полезность обобщения на меры можно обосновать следующими рассуждениями. В формулировках обеих теорем имеется сходящаяся последовательность функций распределения с известными свойствами (ограниченность, неубывание, непрерывность слева или справа и т. д.). Но функция распределения является вторичным продуктом вероятностной меры на "множестве событий" [19], значит, и их аналитические свойства естественнее определять для соответствующих мер.

Существует несколько различных типов сходимости последователь-ностей вещественных функций, и также вполне естественно желание учитывать свойства и исходного пространства, и полученного предельного распределения. Например, могут возникнуть вопросы о статистических характеристиках распределений: следует ли из сходимости распределений сходимость их моментов? Наконец, важно учитывать вид используемых метрик в пространстве мер для оценок скорости сходимости к пределам. Большинство подобных вопросов решается именно с помощью понятия слабой сходимости мер; ее постулирование в предельных теоремах можно считать некоторой гарантией безопасности в применении результатов предельных переходов. Пожалуй, наиболее важным следствием постулата слабой сходимости является возможность применения аппарата характеристических функций, связанных с функциями распределений критериальным свойством: две вероятностные меры на борелевских можествах прямой R1 с одинаковыми характеристическими функциями совпадают.

Обсуждение сходных проблем можно найти в многочисленных монографиях, например в [2, 9, 16, 17, 21, 22, 28, 31, 34, 59]. Добавим лишь, что слабая сходимость вероятностных мер получила наибольшее разви-тие во второй половине прошлого века при решении предельных проблем в теории случайных процессов. Так, в двухтомнике о предельных теоремах для случайных процессов [16] авторы прямо заявляют во введении, что все основные результаты в данной области исследований относятся к "теории слабой сходимости вероятностных мер на метрических пространствах". Из современной англоязычной литературы об анализе стохастических процессов и видов сходимостей с уклоном в практические приложения мы воспользовались сведениями активно цитируемых пособий [34, 40, 48, 59].

Что означает отсутствие слабой сходимости для функций распреде-ления? Возможны по меньше мере такие неприятности, как 1) отсутствие предела вообще, 2) наличие предельного распределения, но в его точках непрерывности отсутствует гарантия сходимости, или же 3) оно не принадлежит исходному типу. Нечего и говорить, что утрачивается способность корректного анализа параметров создаваемой на таких основах статистической модели.      

Сформулируем некоторые общие выводы. Что касается слабой сходимости, то с предельным распределением экстремальных величин нам повезло, однако желательно понимать последствия при переходе к более общим пространствам, другим метрикам и к более сложным объектам исследования (например, к процессам).

Для удовлетворительного решения такого рода задач неизбежно использование и таких фундаментальных понятий, как типы распреде-лений, устойчивые и максимум-устойчивые распределения, области притяжения, экстремальные типы, метризация распределений, виды и скорость сходимостей и т. п. Важно понимать, что, например, вложение теории экстремумов в общую теорию устойчивых распределений позволило увидеть "парадоксальную регулярность экстремумов" [5], их параллелизм и одновременно разительное отличие от классических предельных законов [21]. В частности, связь с центральной предельной теоремой о средних значениях заключается в постепенном (с ростом объема выборки) уменьшении зависимости от распределения исходных величин. Но если в центральной предельной теореме речь идет о сходимости линейно нормированной средней к стандартному нормальному распределению для любого исходного распределения (при единственном условии конечности дисперсии), то в теореме об экстремумах утверждается лишь, что только если распределение линейно нормированного максимума сходится к невырожденному распределению, это предельное распределение принадлежит одному из трех перечисленных типов. Далее, в первом случае предел существует всегда, в то время как во втором случае имеются исходные распределения, не сходящиеся к невырожденному при любой линейной нормировке.

Серьезные практические проблемы возникают со скоростью сходимости, важность которой была отмечена основателями теории экстремумов еще в 1928 г. [46]. Проблема скорости сходимости к предельному распределению с толстым хвостом наиболее эффективно разрешается при использовании фундаментальных понятий правильно и медленно меняющихся функций, введенных в 1930 году Й. Караматой.

 

2.3.2. Ослабление основных условий и парадигма экстремального значения   

Уже в ранних исследованиях экстремумов проявлялось стремление ослабить условия независимости и одинакового распределения или проверить, к чему приведет их нарушение. Так, Гумбель, ссылаясь на работы о приемлемости классических предельных распределений для некоторых коррелированных наблюдений, утверждает, что "независимость является менее важной для теории экстремальных значений, чем это кажется с первого взгляда" [13, с. 204]. Огромное количество новых результатов было получено при переходе к дискретным последовательностям, к случайным процессам, полям, а также к многомерным экстремумам [6, 14, 22, 60, 61]. Среди предложенных отклонений классического набора условий Галамбош [6] перечисляет, как важнейшие, комбинацию независимости с разными распределениями, наложение на последовательность зависимости в виде перестановочности и перемешиваний, замену линейной нормировки нелинейными или монотонными функциями. 

Авторы большинства публикаций предупреждают о том, что в приложениях необходим учет предпосылок теоретических результатов. В книге Коулза [36] сформулирована парадигма экстремального значения (extreme value paradigm), состоящая в моделировании экстремальных значений на базе конечных выборок по принципам асимптотических теорем. Под парадигмой понимается набор признанных научным сообществом методов исследования, позволяющих, по словам автора, "при подходящих предположениях о приближенном поведении экстремума" выбрать семейство моделей, "которые можно затем калибровать на основе данных". Ключевые требования парадигмы таковы: 1) с самого начала учитывать ограничения асимптотических подходов, 2) на каждом шаге проверять соответствие модели физической основе процесса и 3) оценивать эффект от возможной растраты данных из-за отбора экстремумов для калибровки.

Некоторые другие общие и конкретные рекомендации собраны ниже в разделе 3.3.

 

3. Обобщенное распределение Парето

Дадим развернутую формулировку обобщенного распределения Парето в том виде, в котором оно использовано в нашей работе – с явным указанием параметров. Функция F и плотность f распределения с параметрами положения μ, масштаба σ и формы ξ имеют следующий вид:

 

;                                         (7)

 

                                              (8)

 

где , σ > 0, x > μ.

Напомним в этих обозначениях простую связь тяжести хвоста с параметром формы: математическое ожидание существует только при ξ <1, дисперсия – при ξ <1/2, асимметрия – при ξ <1/3 и т. д. Как уже упоминалось, обобщенное распределение Парето является приближением тех максимальных значений временного ряда, которые выше некоторого порога, описываются хвостом обобщенного распределения экстремумов и относятся к моментам времени, удовлетворяющим параметрам простого потока Пуассона.

Приведем некоторые исторические сведения о моделировании временного ряда с помощью двух распределений: Парето и Пуассона.

 

3.1. Комбинация потока Пуассона и обобщенного распределения Парето

Пороговые методы моделирования получили наибольшее развитие в гидрологии в конце прошлого столетия начиная с 1970-х гг. [39]. В первых версиях модели пиков над порогом предполагалось, что неоднородный пуассоновский процесс моделирует моменты времени превышений (exceedances) над высокими порогами, а независимое экспоненциальное распределение описывает случайные величины, представляющие размеры превышений порогов (excesses). В 1975 г. Пикандс вместо экспоненциального распределения превышений обосновал использование в качестве предельного обобщенное распределение Парето и доказал, что распределение пуассоновского процесса моментов времени превышений, помноженное на обобщенное распределение Парето для значений этих превышений, приводит к обобщенному распределению экстремальных величин. Такая комбинация называется моделью Парето–Пуассона и обозначается через GP-Poisson.

Вполне ожидаемо, что все более редкие пики при растущем пороге приводят к закону малых чисел точно так же, как упомянутое выше свойство малости вероятности при переходе к хвостам распределения. Одно из обобщений ситуации было получено в форме теоремы Реньи для редеющих потоков, в которой рассматривается распределение суммы случайного числа случайных величин [1]. Недавно эта теорема была плодотворно применена к осадкам в работе [12], в которой два приема противоходного изменения порогов (начиная снизу и сверху) привели к неожиданно асимметричным выводам для рядов осадков разных сумм.

Использование модели превышений порога во временных рядах сталкивается с серьезной трудностью, вызванной так называемой кластеризацией превышений. В автоматическом режиме обработки данных все последовательные пики (при любой временной дискретности) будут отнесены к выборке экстремумов, что в условиях инерционности процессов нарушает принцип независимости. Анализ кластеров экстремумов в стационарных последовательностях имеет уже солидную историю (например, [10, 22, 45, 53, 54]). Классический теоретический результат Лидбеттера [53] относится к превышениям уровня с условием, отражающим степень независимости максимумов на отдельных интервалах. Это условие называется условием перемешивания D(un) и определяется следующим образом. Обозначим через  совместную функцию распределения случайных величин , и вместо F(u, ..., u)  будем для краткости использовать обозначение F(u). Договариваемся, что условие перемешивания D(un) выполняется, если для любых целых чисел 1£ i1 <...<  ip <...<  j1<...<  jq £ n, для которых семейства индексов {i} и {j} разделены интервалом длины не менее ln, т. е.  j1 ip ³ ln,  справедливо неравенство

 

                         (9)

 

где  при n®¥ для некоторой последовательности ln = o(n).

Результат Лидбеттера звучит следующим образом (в формулировке [45]). Пусть , i ³1, последовательность независимых случайных величин с распределением F и . Если существуют последовательности an > 0, bn такие, что при n®¥ имеет место слабая сходимость (w) к невырожденной функции G(x)

 

                                                               (10)

 

и если условие D(un) выполняется для un = anx+bn и вероятность P{(Mnbn)/an £ x} сходится к невырожденной функции для каждого х, то эта функция имеет вид Gq(x) при некотором qÎ[0,1].

Константа q называется индексом экстремальности: при  q = 1 случайные величины последовательности независимы, а при q<1 мы имеем дело с последовательностью зависимых величин. Примечательно, что индекс экстремальности напрямую связан с размером кластера экстремумов в модели пиков над порогом [53]: величина 1/q равна предельному среднему размеру кластера, или, другими словами, в среднем в каждом кластере (в нашей работе – в каждой ситуации) количество превышений равно ~1/q. 

Важность полученного результата очевидна, однако условия стационарности и перемешивания исходного ряда делают теорему в таком виде малопригодной для практических приложений.

В любом случае, по сравнению с моделью "годовых максимумов", в которой предполагается, что отбор одного значения в год обеспечивает физическую, а потому и статистическую независимость всех значений в выборке, модель пиков над порогом требует чрезвычайно внимательного разделения именно физически независимых пиков – при всей условности понятия физической независимости (см. [26]). Ниже в разделе 3.3 приводится пример физико-статистического подхода к определению порогов и временных интервалов, отделяющих независимые пики.  

 

3.2. Скорость сходимости к предельному распределению с тяжелым хвостом

Асимптотическое сходство теорий (сумма-) устойчивых, максимум-устойчивых и порого-устойчивых распределений [5, 21] полностью теряется при переходе к вопросу о скорости сходимости: в анализе экстремумов каждая выборка и каждое исходное распределение требуют индивидуального подхода для обеспечения необходимого уровня значимости оценок параметров. Для двух типов моделирования ("блочных максимумов" или "пиков над порогом") это означает потребность в таком объеме выборки или в такой высоте порога, которые бы удовлетворили заданной точности приближения выборочного распределения экстремумов или превышений порога к GEV или GP. Математическим инструментом анализа сходимости является теория правильно и медленно меняющихся функций.

Правильно меняющиеся функции. Как было показано Гнеденко [52], при выводе необходимых условий принадлежности функции распределения F к областям притяжения законов Фреше и Вэйбулла используются предельные соотношения для хвоста распределения , имеющие вид lim для всех t>0 и при х®¥ или х®0 соответственно. Измеримые положительные функции с аналогичным предельным свойством при условии х®¥ были уже в 1930 г. выделены и изучены Й. Караматой. Их определение, аналитические и статистические свойства обстоятельно описаны, например, в [30, 34, 42, 47]. 

Дадим формальные определения. Вещественная функция f(x) называется правильно меняющейся (на бесконечности) с индексом r, если она положительна (начиная с некоторого х), измерима на положительной полуоси и если для каждого t>0 и для некоторого r выполняется предельное соотношение

 

                                                                    (11)

 

Функция называется медленно меняющейся, если она правильно меняющаяся и имеет нулевой индекс r=0. Строгим образом "измеримость" вводится через понятие меры Лебега, однако можно представлять себе измеримую функцию как такую, которую на каждом конечном интервале можно превратить в непрерывную функцию "малой деформацией" (детали, например, в [20]).

Квантильная, или обратная функция Q для распределения F(x) определяется соотношением Q(y) = inf{x | F(x) ³ y}, 0 £y£1. Инфимум можно без потери общности поменять на минимум; разница только в том, что первые значения могут не принадлежать исходному множеству и не достигаться в пределах. 

Хвостовая квантильная функция определяется соотношением U(y) = Q(1 – 1/y). Часто используется симметричная запись: U(y) = Q(1 – 1/y) = x и F(x) = 1 – 1/y.

Модель распределения типа Парето, или Парето-подобное распределение (в списке предельных распределений – тяжелохвостая), может быть задана двумя эквивалентными способами: хвост распределен по закону

 

                                                          (12)

 

или хвостовая квантильная функция имеет вид 

 

                                        (13)

 

где g>0, а  – медленно меняющиеся функции. В частности, точная модель Парето – это знаменитая модель автора закона распределения:    

Таким образом, в модели типа Парето имеются две неопределенности: параметр формы (хвоста), или параметр Парето, и медленно меняющаяся функция. В монографии [34] перечислены несколько способов оценки параметра Парето и соответствующих доверительных интервалов. Среди них имеются подходы, с помощью которых можно избавиться от медленно меняющейся функции и которые необходимо приводят к оценке Хилла хвостового параметра распределения типа Парето (и Фреше). Эта оценка построена на порядковых статистиках, проста для расчетов и графического представления. Приведем ее формулу, предварительно определив через X1,n£ ... £ Хk,n £ ... £ Xn,n порядковые статистики исходного ряда независимых и одинаково распределенных случайных величин {Xi; 1 ≤ i n}, расположенных в хвосте 1 – F(x) Парето-подобного распределения:

 

.                         (14)

 

Свойства оценки Хилла исследованы чрезвычайно детально [41]: ее сходимость и скорость сходимости к параметру формы, асимптотическая нормальность, пригодность к слабо зависимым случайным величинам и к линейным процессам, статистическая эффективность и т. д. При этом нельзя не указать на потенциальные опасности. Во-первых, для каждого k имеется отдельная и местами чрезвычайно изменчивая оценка, что затрудняет определение линейной части на графике, выделяющей интервал постоянства параметра Парето. Во-вторых, устранение медленно меняющейся функции при конструировании оценки Хилла не означает ее устранения из принципиального определения модели: при чрезмерно оптимистичном постулировании модели Парето медленная функция критично увеличит систематическую ошибку. Наконец, следует иметь в виду

возможные систематические ошибки оценок параметра формы из-за логарифмического преобразования исходных случайных величин, так как это преобразование не инвариантно к сдвигам значений данных.

Оценка хвостового параметра без предположений о глобальной форме распределения относится к полупараметрическим методам оценки параметров модели, при этом сама оценка оказывается корректной только в случае положительного хвостового параметра (хвост тяжелый) в фактическом распределении. Для оценок полного набора параметров (масштаба и формы) в зависимости от порога требуются параметрические методы, основанные на более сложных комбинациях правильно меняющихся функций и других дополнительных функций, составляющих, в частности, теорию областей притяжения второго порядка и теорию предпоследних распределений (penultimate distributions) [42, 46]. Общие рекомендации по надежному оцениванию параметров тяжелохвостых распределений в рамках полупараметрических и параметрических методов приведены ниже в разделе 3.3.

Скорость сходимости к предельному распределению. В 1987 г. Резник получил неожиданный теоретический результат: всегда можно построить распределение со сколь угодно медленной сходимостью к обобщенному распределению Парето [58]. Этот результат находится в разительном контрасте с центральной предельной теоремой, в условиях которой сходимость для конечной дисперсии всегда имеет порядок n−1/2.

Существует серьезная опасность аппроксимаций предлагаемых распределений предельными распределениями теории экстремумов без учета особенностей медленно меняющихся функций, входящих в асимптотическое соотношение. Возможны ситуации, когда по каким-либо известным критериям, например c-квадрат, аппроксимируемые распределения имеют сходное качество моделирования, но результирующие оценки параметров окажутся существенно различными из-за наведенных медленными функциями систематических ошибок.

Опишем проблему сходимости в терминах теоремы Пикандса–Балкема–де Хаана с явным выделением погрешности аппроксимации:

 

                      (15)

 

Заметим, кстати, что погрешность аппроксимации d(u) для заданного порога u является аналогом критериальной статистики Колмогорова, которую иногда называют равномерной метрикой на пространстве мер [33]. Приближение функции Fu(x) обобщенным распределением Парето называется сходимостью первого порядка, соответствующие условия теоремы – условиями первого порядка. Однако для оценки параметров GPD и высоких квантилей более важными оказываются условия второго порядка, учитывающие также производные от F (прием, плодотворно использованный Мизесом в 1936 году).

В [58] приводится таблица оценки скорости сходимости к обобщенному распределению Парето как функции исходного распределения и порога при условиях сходимости второго порядка. Так, для экспоненциального и строгого распределения Парето сходимость, можно сказать, "мгновенная": d(u)=0; довольно быстрая сходимость для распределений Стьюдента и Гаусса: d(u)=O(u-2); очень медленная для логнормального и лог-гамма-распределений: d(u)=O(1/logu). Дадим простую интерпретацию этим оценкам. Предположим, мы оцениваем погрешность аппроксимации обобщенным распределением Парето в d0 при использовании эксцессов над довольно большим порогом u. Если мы желаем уменьшить погрешность вдвое, то для исходных экспоненциального и строгого распределения Парето беспокойств нет – погрешность исходно нулевая; для распределений Стьюдента и Гаусса порог следует увеличить примерно в ; для лог-нормального и лог-гамма распределений порог придется возвести в квадрат.

Во второй части нашей статьи будут приведены примеры оценок порогов Парето при изменяющихся предположениях об исходном (или промежуточном) распределении анализируемой величины. 

 

3.3. Общие и предметные рекомендации о применении распределения Парето

При бурном развитии теории экстремумов и обилии ее практических приложений большинство исследователей проявляют чрезвычайную осторожность в выводах, избегают категоричностей и часто подчеркивают разведочный характер полученных результатов. Так, видные специалисты в финансовой математике, авторы монографии [44], предупреждают читателя о возможных провалах, называют некоторые собственные графики оценок параметра формы "кошмарными" и философски замечают, что в приложениях теории экстремумов "бесплатного обеда не существует" (there is no free lunch). Имея ввиду финансовые приложения теории, они откровенно пишут о резких переменах настроения исследователей от эйфории до пессимизма, с признанием нередких случаев скепсиса и недоверия "заказчиков-практиков" к результатам проведенного анализа экстремумов. Опубликовано заметное количество работ с приложениями теории экстремумов к метеорологическим величинам, включая осадки. Обескураживающее разнообразие методов и построенных моделей, иногда противоречащих друг другу, отражено в обзоре [57] под названием "битва распределений экстремальных величин".

В сложившейся обстановке чрезвычайно важны как общие рекомендации, относящиеся к методологии, так и конкретные, практические примеры удачных приложений к физическим величинам, процессам и явлениям. 

Методический, отчасти даже алгоритмический подход в применении общего распределения Парето сформулирован в монографии [59], в которой принято такое же разделение подходов на полупараметрические и параметрические, а в список планомерных действий включаются приемы, рекомендованные еще Гумбелем [13]. Изложим вкратце этот "алгоритм".

Вначале рекомендуется строить простейшую экспоненциальную модель, применив различные методы оценок. Если по диагностическим результатам (в основном графическим) она окажется неприемлемой, то следует перейти к ограниченной модели Парето (с нулевым порогом), дополнив параметрические оценки оценкой Хилла. Полезно рассчитать оценку Байеса (с априорным гамма-распределением параметра формы) и сравнить ее с оценкой Хилла. В благоприятном случае они должны оказаться близкими. Для большей достоверности желательно провести имитационное моделирование случайных величин на основе распределения Парето с полученными оценками.

Если диагностика (например, по графику выборочной средней функции эксцессов) сигнализирует о существенной некорректности этой модели, следует перед следующим шагом проанализировать причины. Например, некорректной могла оказаться исходная гипотеза о тяжелых хвостах, и тогда нет смысла переходить к полной модели Парето.

Если проанализированные причины не исключили "тяжелохвостость", то наступает очередь полной модели Парето с такими методами оценок параметров, как максимальное правдоподобие, L-моменты, вероятностно-взвешенные моменты, Байеса и т. д.

Аналогичная иерархия предложена и для комбинации модели Парето с распределением Пуассона (Poisson-GP models).

По мнению Райса и Томаса, выбор порогов наиболее надежно основывать на графиках среднего значения эксцессов (на функциях дожития), а также на анализе поведения оценок параметров распределения и их доверительных интервалов. Помимо последовательного перебора порогов из некоторого разумного интервала, рекомендуется экспериментировать со "случайными порогами" для порядковых статистик в конце исходного вариационного ряда, как советует, например, Галамбош [5].

Вышеупомянутые сложности, спорные моменты, и особенно неудовлетворенность "заказчиков" оценками квантилей и периодов повторяемости экстремумов, побуждают проявлять сдержанность. В этой связи авторы [59] формулируют «прагматический подход» следующим образом. Во-первых, мы не можем знать, будет ли польза от полученного анализа экстремумов для экстраполяции за пределами той области, в которой собраны предыдущие данные; во-вторых, "скрестите пальцы на удачу" и публикуйте оценку риска будущих экстремальных наблюдений при условиях оцененного распределения; наконец, в-третьих, с появлением дополнительной информации откорректируйте модель.

В отличие от советов "здравого смысла", изобилующих в работах методического характера, более полезными оказываются рекомендации из области конкретных, предметных приложений. Опишем физико-статистический анализ экстремумов, в котором статистическая независимость обеспечивается соображениями физической независимости процессов и подкрепляется результатами статистических экспериментов с накопленным архивом данных. В статье [56] реализованы идеи работы [39] в приложении к экстремальной средней суточной высоте морских волн по наблюдениям в 10-минутной дискретности одного буя NOAA за 29 лет. Ключевая идея заключалась в присоединении дополнительных переменных (ковариат), помогающих учесть взаимосвязи этих экстремумов с годовыми циклами, трендами и индексами взаимодействия океана и атмосферы.

Тестируются варианты модели (1) GEV годовых блочных максимумов (по максимальным в году суточным значениям) и (2) совместной модели GPD-Р (Generalized Pareto-Poisson) пиков над порогом с обобщенным распределением Парето накопленных эксцессов и распределением Пуассона моментов времени на суточной шкале. Дополнительно для определения порога используется квантильный подход (например, квантилем 99.5 %). 

Для оценок параметров применяется стандартный метод максимального правдоподобия: на материале выборочных эксцессов составляется система уравнений для первых производных по частоте, масштабу и форме от логарифмов функции правдоподобия, построенной на произведении плотности распределения Пуассона и GPD. Зависимость от времени (от суток) вводится в общем случае во все параметры с помощью регрессий, но параметры формы и масштаба зафиксированы расчетами на модели GEV. Из разных комбинаций основных параметров и ковариат составляются две модели типа GEV (одна – с учетом тренда) и шесть моделей типа GPD-Р. 

Качество конструируемых моделей оценивается статистиками Смита [31] и представляется графически с добавлением квантильных и вероятностных графиков выборочных и теоретических распределений. Сравнительная оценка аналогичных моделей проводится с помощью максимумов значений информационных матриц, критерия c-квадрат, а также с привлечением критерия Акаике, также учитывающего количество параметров.

Отбор подходящего порога и определение интервала времени, отделяющего независимые значения, авторы [56] производили последовательным перебором вариантов и графическим анализом устойчивости оценок. Так, после испытания порогов для высот волн  от 6 до 11 м в качестве наиболее подходящего был выбран порог в 810 см.

Компромиссный выбор минимального интервала времени, обеспечи-вающего приближение моментов времени моделью Пуассона, но гаранти-рующего физическую независимость соседних штормовых событий, был сделан следующим образом. Учитывая, что по публикациям разброс выбора составлял от 1.25 до 20 сут., авторы протестировали значения между 3 и 10 сут., и хотя предположение пуассоновости немного лучше оправдывалось при 6 сут., был отобран вдвое меньший интервал в 3 сут. Предпочтение было обусловлено практическими соображениями: качество моделирования почти то же, но меньший период обеспечивал большее количество экстремумов и чуть более узкие доверительные интервалы.

 

4. Оценка параметров распределения Парето с помощью математических пакетов

Использованные нами математические пакеты и их функции (в основном, SpatialVx и ExtRemes из хранилища языка R) настраивались по минимуму: параметры, кроме очевидных опций (например, радиуса осреднения и порога идентификации объекта), замещались значениями по умолчанию. В свою очередь опции умолчания оценивались на основе выборочных характеристик и не приводили к заметным провалам или искажениям результатов.

Приближения набора максимальных размеров распределением Парето производились с помощью функции fevd библиотеки extRemes, основные свойства которого описаны в [51]. Помимо разнообразных методов оценки параметров, предусмотрено подключение дополнительных переменных (ковариат), например, времени – для учета сезонного хода или для настройки совместной модели Парето–Пуассона [51, 55]. Выбор для испытаний теплого и холодного периодов по отдельности позволил по крайней мере на данном этапе обойтись без ковариаты времени, и было решено ограничиться моделью Парето, но с предварительными оценками пуассоновости распределения пиков на временной шкале [26]. При обобщенном распределении умолчание означает использование выборочной частоты для оценки интенсивности пуассоновского процесса.

Опишем три протестированных нами метода оценки параметров, оставив без пояснений метод максимального правдоподобия как известный.

1. Обобщенное максимальное правдоподобие. Обобщенный метод максимального правдоподобия был предложен ввиду того, что стандартный метод максимального правдоподобия порождал в гидрологическом анализе экстремумов неестественные оценки параметра формы на малых выборках. Авторы [55] использовали "усеченный" байесовский подход, предположив, что параметр формы можно ограничить разумными пределами (например, обычным для гидрологии интервалом [-0.5, +0.5]) и сделать его случайной величиной с бета-распределением B(p, q,), p=6, q=9. Априорная плотность распределения параметра формы использована в виде p(x) = (0.5 + x)p-1 (0.5 – x)q-1/B(p,q), при этом среднее значение сдвинуто в положительную область и равно 0.1, а дисперсия равна  (0.122)2. 

При моделировании распределения моментов превышения порога m потоком Пуассона с интенсивностью l формулы для самого порога, легко выписываемые из формул (7) и (8),  модифицируются следующим образом:

 

m* = m s(1 – lx)/x, s* = slx  при x¹0,                                   (16)

 

m* = m + s ln(l), s* = s  при x=0.                                            (17)

 

Квантили модели Парето–Пуассона являются функциями параметров и периода повторяемости (ожидаемого времени между моментами превышений):

 

хр = m s[1 – (lТр)x]/x при x¹0,                                               (18)

 

хр = m + s ln(lТр)  при x=0.                                                      (19)

 

Оценка параметра интенсивности  равна частоте превышений на выделенном интервале времени, из которого извлекаются исходные пиковые значения. Логарифмическая функция правдоподобия для параметров модели Парето–Пуассона с пиками {x1, x2, ..., xm}, превосходящими порог x0 из совокупности n единиц времени, записывается в виде

 

,            (20)

 

где q = (l, s, x). Выражение (20) до символа суммирования представляет собой правдоподобие наблюдения точно m значений, превышающих порог х0 в архиве длиной n единиц времени, а вторая часть представляет правдоподобие того, что эти m превышений имели наблюденные значения хi; yi=1+x(xix0)/s.

Обобщенная функция правдоподобия записывается в виде GL(l,s,x | x) = L(l,s,x | x) p(x), x набор наблюдаемых пиков. В формуле (20) для модели Парето–Пуассона функция p(x) добавляется аддитивно, и решение отыскивается для максимального значения логарифма обобщенной функции правдоподобия теми же методами вычислительной математики. Подход считается усеченным байесовским, так как совместное априорное распределение здесь не используется.  

2. L-моменты. Для оценки параметров s и x модели Парето–Пуассона с помощью L-моментов вначале определяются основные коэффициенты br с использованием рангового ряда исходных значений пиков (в нашем случае – максимальных площадей объектов) х(1) £ х(2) £ ... £  х(n), где n – количество элементов в выборке (в нашем случае – выделенных ситуаций в период испытаний):

 

 .                   (21)

 

Первые три L-момента рассчитываются по формулам:

 

l1 = b0;  l2 = 2b1b0;  l3=6b2 – 6b1 +b0.                                          (22)

 

С помощью обозначения t2=l2/l1 запишем расчетные формулы для оценок:

 

 .                                                       (23)

 

Стандартным методом моментов эти оценки рассчитываются по простым формулам:

 

,                                             (24)

 

где a и s2 – выборочное среднее и выборочная дисперсия соответственно.

Формально L-моменты определяются с помощью формулы

 

,                                            (25)

 

где Xk:n k-е наименьшее значение в выборке размером n из распределения случайной величины Х; Е – оператор математического ожидания. В статистике первые четыре L-момента называются L-средним (или L-положением), L- масштабом, L-асимметрией и L-эксцессом.    

Удобное свойство L-моментов заключается в использовании порядковых статистик, основанных на значениях ранжированного ряда реализаций исходной случайной величины, что, во-первых, обеспечивает более робастные статистические характеристики по сравнению с обычным методом моментов, а, во-вторых, гарантирует наличие высших моментов при единственном условии ограниченности математического ожидания. Однако последствием этой благоприятной особенности является потеря чувствительности: так, распределение Лапласа имеет эксцесс, равный шести, и легкие экспоненциальные хвосты, а распределение Стьюдента с тремя степенями свободы имеет бесконечный эксцесс и тяжелые хвосты; в то же время L-асимметрия для распределения Лапласа выше такой же оценки для указанного распределения Стьюдента.

3. Байесовский метод. Метод реализован в пакете ExtReemes с помощью моделирования цепи Маркова на основе приемов Монте–Карло (Markov Chain Monte Carlo methods, MCMC). Алгоритм был разработан около 1950 г. в Лос-Аламосской лаборатории под руководством Метрополиса, примерно через 20 лет Гастингс обобщил результат, и в настоящее время он называется алгоритмом Метрополиса–Гастингса и состоит в следующем.

Извлекаются выборки из целевого вероятностного распределения Р(х), параметры которого требуется определить и относительно которого известна только функция f(x), пропорциональная Р(х). Алгоритм стартует с начального значения, оцененного по характеристикам выборки, и набирает состояния Марковской цепи, в совокупности приближающие искомое распределение Р(х) с растущей точностью. Выборки производятся итеративно с единственным условием, что каждое следующее значение (кандидат) зависит только от предыдущего значения (отсюда свойство марковости). Отбор рассматриваемого кандидата на пополнение выборки зависит от сравнения значений функции f(x) с учетом искомого распределения Р(х).       

Последовательность конкретных действий, отражающих существо байесовской стратегии, заключается в том, что в качестве функции f(x) иcпользуется ненулевая функция правдоподобия h(x|q), где q – вектор оцениваемых параметров, а х – исходная выборка наблюдений длины n. В окончательном виде f(x) представляет собой отрицательную сумму n логарифмов соответствующих плотностей распределения реализаций х при условии q.

Функцией отбора кандидата (сэмплером) служит безусловная и априорно задаваемая плотность распределения вектора параметров g(q), действующая как матрица g(q*,q) вероятностей перехода q в q*. 

В расчетном модуле fevd() реализована следующая итеративная процедура:

1. Фиксируется начальное значение qо, как правило, близкое к некоторому среднему положению априорного распределения g, которое предполагается по умолчанию нормальным (с параметрами, предварительно оцененными методом максимального правдоподобия). С помощью датчика случайных чисел, настроенного на распределение g, извлекается кандидат q*, рассматриваемый как следующий за qо элемент случайного блуждания (простейшего варианта цепи Маркова). 

2. Рассчитывается отношение Гастингса

 

r(qo, q*) =  [h(x|q*) g(q*,qo)] / [h(x|qo) g(qo, q*)],                           (26)

 

которое в формуле Байеса избавляет от необходимости оценивать неизвестный знаменатель – интеграл от правдоподобия по вероятностной мере параметра.

3. Производится операция, которую называют отказом Метрополиса:

+ рассчитывается a(qo, q*) = min(1, r(qo, q*)),  рассматриваемая как вероятность а;

+ с помощью датчика равномерно распределенных чисел на [0, 1] извлекается число u и принимается решение: при u £ a допускается переход состояния qo в q*, при u > a переход не допускается и новое состояние совпадает с предыдущим. 

Рекурсия на шагах 2–3 приводит к генерированию выборки значений, воспроизводящих искомое распределение параметра Р(q), среднее значение (или мода) которого может быть принято за байесовскую оценку  параметра распределения исходной случайной величины Х. Из результирующей выборки состояний цепи Маркова берутся ранговые оценки достоверного интервала (credible interval), отличающегося от доверительного интервала (confidence interval) тем, что в первом случае границы интервала фиксированы, а параметр переменный, во втором – границы переменные, а параметр постоянен.      

Замечание. В байесовской стратегии оценок параметров построена теория оптимальных решений с использованием сопряженных априорных распределений, существенно облегчающих решение возникающих задач [15]. Если априорная функция (или плотность) распределения случайного параметра Q есть g, а условная функция распределения случайной величины Х при Q=q есть f(x|q), то апостериорное распределение g(q|x) параметра Q при Х=х пропорционально g(q)f(x|q) для всех q. Тогда говорят, что семейство распределений g сопряжено семейству распределений f.   

Облегчение решений статистических проблем заключается в том, что искомая апостериорная функция не требует параметрического оценивания – следует только модифицировать параметры по несложным формулам. Составлены таблицы соответствия распределений по принципу сопряженности в байесовских задачах.

Пример. Пусть Х1, ..., Хn – повторная выборка из распределения Бернулли с неизвестным параметром q. Допустим, априорное распределение q есть бета-распределение с параметрами p>0, q>0. Тогда апостериорное распределение q при Xi=xi (i=1,...,n) есть бета-распределение с параметрами p+y, q+n-y, y=Sxi. В частности, именно это свойство бета-распределения пригодилось в методе обобщенного максимального правдоподобия [55]. 

Известно, что постулирование семейства априорных распределений параметра является наиболее уязвимой стороной байесовской методологии, и применение этой методологии на практике, включая, в частности, условие сопряженности, должно сопровождаться дополнительными проверками в духе "ортодоксальной статистики", по замечанию редактора перевода книги Де Гроота [15]. Помимо этого, имеется два существенных недостатка самого алгоритма МСМС. Во-первых, выборки коррелированы, отчего даже их большой объем не будет вполне корректно отражать искомое распределение Р(х). Во-вторых, при неизбежной сходимости марковской цепи к искомому распределению, начальные выборки могут относиться к другому распределению, ввиду чего требуется задание периода отбраковки (или отжига дефекта, burn-in period). 

В последние десятилетия разработано множество вариаций этого алгоритма, но простой и устойчивый алгоритм Метрополиса–Гастингса в своей первоначальной форме продолжает оставаться "универсальным инструментом как в байесовских выводах, так и при решении многочисленных задач вне байесовского сообщества" [49].

 

Выводы

Каждая величина, исследуемая статистическими методами, может рассматриваться как объект приложения теории экстремальных величин. Однако при этом приходится соблюдать определенные требования, среди которых наиболее важными являются максимально возможное соблюдение предпосылок прилагаемой теории, поддержка связи конструируемой модели с физической природой величины, понимание смысла и последствий применяемых статистических средств обработки данных и моделирования предельных распределений. В представленной работе обсуждаются перечисленные требования и последствия их игнорирования.

С максимально возможной математической точностью определяются две классические модели экстремумов, содержащиеся в первой и второй теоремах об экстремумах. Подробно рассмотрена модель второй теоремы, так называемая модель превышений над порогом, описываемая обобщенным распределением Парето. Перенос анализа экстремумов в хвост распределения с растущим порогом превышения порождает проблемы конкуренции между точностью асимптотической модели и надежностью оцениваемых параметров. Так как объектом приложения теории экстремумов являются временные последовательности размеров областей осадков значительной площади, то к условиям второй теоремы добавляется пуассоновость распределения моментов времени этих превышений.

Определение оптимального порога, методы оценки параметров, учет скорости сходимости к предельным распределениям, особенности оценок параметров распределений с тяжелым хвостом, проблема кластеризации пиков и некоторые другие вопросы рассмотрены в статье с разной степенью детализации. Сделан обзор рекомендаций анализа экстремумов, которые либо учтены, либо целенаправленно использованы в следующей части статьи.

Ввиду того, что основные процедуры – от выделения объектов для верификации до расчетов параметров распределения Парето с графическим представлением результатов – были выполнены программными средствами на языке R, один раздел посвящен инициализации настроечных параметров расчетных функций и описанию алгоритмов оценок параметров тестируемых моделей.

Работа была выполнена в рамках темы 1.1.5 НИТР Росгидромета.

 

Список литературы

 

1. Беляев Ю.К. Предельные теоремы для редеющих потоков // Теория вероятности и ее применение 1963. Т. 8. Вып. 2. С. 175-184.

2. Биллингсли П. Сходимость вероятностных мер: Пер. с англ. М.: Наука, 1977. 352 с.

3. Бундель А.Ю, Муравьев А.В, Ольховая Е.Д. Обзор методов пространственной верификации и их применение для ансамблевых прогнозов // Гидрометеорологические исследования и прогнозы. 2021. № 4 (382). С. 30-49.

4. ВMO-168. Руководство по гидрологической практике. Том II. Управление водными ресурсами и практика применения гидрологических методов: 6-е изд.. 2012 (2009).

5. Галамбош Я. Асимптотическая теория экстремальных порядковых статистик. М.: Наука, 1984. 304 с.

6. Галамбош Я. О развитии математической теории экстремумов за последние полвека // Теория вероятностей и ее применения. 1994. Т. 39, № 2. С. 272-293.

7. Гнеденко Б.В. Курс теории вероятностей. М.: Наука, 1988. 448 с.

8. Гнеденко Б.В. Предельные теоремы для максимального члена вариационного ряда // ДАН СССР. 1941. Т. 32, № 1. С. 7-9.

9. Гихман И.И., Скороход А.В. Введение в теорию случайных процессов. М.: Наука, 1977. 664 с.

10. Голдаева А.А. Экстремальные индексы и кластеры в линейных рекуррентных стохастических последовательностях // Теория вероятностей и ее применения. 2013. Т. 58, № 4. С. 795-804.

11. Горшенин А.К. Полупараметрические методы анализа неоднородных данных и их применение в задачах математического моделирования: дисс. ... докт. физ.-мат. наук. М, 2021. 355 с.

12. Горшенин А.К., Королев В.Ю. Определение экстремальности объемов осадков на основе модифицированного метода превышения порогового значения // Информатика и ее применения. 2018. Т. 12. Вып. 4. С. 16-24.

13. Гумбель Э. Статистика экстремальных значений. М.: Мир, 1965. 453 с.

14. Гумбель Э. Статистическая теория экстремальных значений (основные результаты) // Введение в теорию порядковых статистик. М.: Фазис, 1970. С. 61-93.

15. Де Гроот М. Оптимальные статистические решения. М.: Мир, 1974. 492 с.

16. Жакод Ж., Ширяев А.Н. Предельные теоремы для случайных процессов. В 2-х т.: Пер. с англ. М.: Физматлит, 1994. Том 1. 544 с. Том 2. 368 с.

17. Золотарев В.М. Одномерные устойчивые распределения. М.: Наука, 1983. 304 с.

18. Киктев Д.Б., Муравьев А.В., Смирнов А.В. Наукастинг метеорологических параметров и опасных явлений: опыт реализации и перспективы развития // Гидрометеорологические исследования и прогнозы. 2019. № 4 (374). С. 92-111.

19. Колмогоров А.Н.  Основные понятия теории вероятностей. М.: Наука, 1974. 119 с.

20. Колмогоров А.Н., Фомин С.В. Элементы теории функций и функционального анализа. 4-е изд. М.: Наука, 1976. 544 с.

21. Лебедев А.В. Основы стохастической теории экстремумов. М.: ЛЕНАНД, 2018. 104 с.

22. Лидбеттер М., Линдгрен Г., Ротсен Х. Экстремумы случайных последовательностей и процессов. М.: Мир, 1989. 392 с.

23. Муравьев А.В., Киктев Д.Б., Смирнов А.В. Оперативная технология наукастинга осадков на основе радарных данных и результаты верификации для теплого периода года (май-сентябрь 2017 г.) // Гидрометеорологические исследования и прогнозы. 2018. № 1 (367). C. 6-38.

24. Муравьев А.В., Киктев Д.Б., Смирнов А.В., Зайченко М.Ю. Оперативная технология наукастинга осадков на основе радиолокационных данных и сравнительные результаты точечной верификации для теплого и холодного периодов года // Гидрометеорологические исследования и прогнозы. 2019. № 2 (372). C. 12-40.

25. Муравьев А.В., Киктев Д.Б., Смирнов А.В. Сравнительная верификация усовершенствованной системы радиолокационного наукастинга осадков с учетом пропусков и при различных методах формирования выборок (по результатам испытаний в теплый период года май-сентябрь 2017 и 2020 гг.) // Результаты испытания новых и усовершенствованных технологий, моделей и методов гидрометеорологических прогнозов. 2022. Информационный сборник № 49. С. 3-56.

26. Муравьев А.В., Бундель А.Ю., Киктев Д.Б., Смирнов А.В. Опыт пространственной верификации радиолокационного наукастинга осадков: определение и статистика объектов, ситуаций и условных выборок // Гидрометеорологические исследования и прогнозы. 2022. № 2 (384). С. 6-52.

27. Назаренко К.М. О новом методе моделирования многомерных экстремальных величин на основе порогового подхода // Вестник РУДН. Серия Математика. Информатика. Физика. 2008. № 2. С. 30-38. 

28. Прохоров Ю.В., Розанов Ю.А. Теория вероятностей. Основные понятия. Предельные теоремы. Случайные процессы. М.: Наука, 1987. 400 с.

29. Родионов И.В. Вероятностный и статистический анализ экстремумов дискретных стохастических систем: дисс. ... докт. физ.-мат. наук. М, 2021. 259 с.

30. Сенета Е. Правильно меняющиеся функции. М.: Наука, 1985. 144 с.

31. Феллер В. Введение в теорию вероятностей и ее приложения. Том 2: Пер. с англ. М.: Мир, 1984. 752 с.

32. Шетинин Е.Ю. Математическая теория экстремальных величин в моделировании и оценивании финансовых рисков // Финансовая информатика. 2008. Том 1 (1). С. 63-70.  

33. Энциклопедия. Вероятность и математическая статистика / Под ред. Ю.В. Прохорова. М.: Большая Российская Энциклопедия, 1999. 910 с.

34. Beirlant J., Goegebeur Y., Teugels J., Segers J., De Waal D., Ferro C. Statistics of Extremes. Theory and Applications. England: John Wiley & Sons Ltd, 2004, 504 p.

35. Bowler N., Pierce С., Seed А. STEPS: A probabilistic precipitation forecasting scheme which merges an extrapolation nowcast with downscaled NWP // Q. J. R. Meteorol. Soc. 2006. Vol. 132. P. 2127-2155.

36. Coles S.G. An Introduction to Statistical Modeling of Extreme Values // Springer Series in Statistics. Springer-Verlag London Ltd., 2001. 300 p.

37. Davis C.A., Brown B.G., Bullock R.G. Object-based verification of precipitation forecasts, Part I: Methodology and application to mesoscale rain areas // Mon. Wea. Rev. 2006. Vol. 134. P. 1772-1784.

38. Davis C.A., Brown B.G., Bullock R.G. Object-based verification of precipitation forecasts, Part II: Application to convective rain systems // Mon. Wea. Rev. 2006. Vol. 134. P. 1785-1795.

39. Davison A.C., Smith R.L. Models for exceedances over high thresholds // J. R. Statist. Soc. Series B. 1990. Vol. 52, no. 3. P. 393-442.

40. Durrett R. Essentials of stochastic processes. New York: Springer, 2012. 265 p.

41. De Haan L, Resnik S. On asymptotic normality of the Hill estimator // Stochast. Model. 1996. Vol. 12. Р. 699-724.

42. De Haan L. On regular variation and its application to weak convergence of sample extremes // Math. Centre tracts. 1970. Vol. 32. 124 p. 

43. De Haan L., Ferreira A. Extreme value theory: An introduction // Springer Series in Operations Research. 2006. 417 p.

44. Embrechts P., Kluеppelberg C., Mikosh T. Modelling extremal events for insurance and finance. Springer, 2003. 663 p.

45. Ferro C.A.T., Segers J. Inference for clusters of extreme values // J. R. Statist. Soc. Series B. 2003. Vol. 65. P. 545-556.

46. Fisher R.A., Tippett L.H.C. Limiting forms of the frequency distribution of the largest or smallest member of a sample // Proc. Camb. Phil. Soc. 1928. Vol. 24. P. 180-190.

47. Galambos J., Seneta E. Regular varying sequences // Proc. Amer. Mat. Soc. 1973. Vol. 41(1). P. 110-116.

48. Gallager R.G. Stochastic processes: Theory for applications. Cambridge Uni. Press, 2013, 560 p.

49. Geyer C.J. Introduction to Markov Chain Monte Carlo // Handbook of Markov Chain Monte Carlo: Eds Brooks S., Gelman A., Jones G., Meng X.-L. 2011, Chapman and Hall/CRC.) P. 1- 77. DOI:https://doi.org/10.1201/b10905

50. Gilleland E. 2021. https://cran.r-project.org/web/packages/SpatialVx/SpatialVx.pdf

51. Gilleland E., Katz R.W. extRemes 2.0: An Extreme Value Analysis Package in R // J. Statist. Soft. August 2016. Vol. 7, is. 8. P. 1-39.

52. Gnedenko B.V. Sur la distribution limite du terme maximum d’une serie aleatoire // Ann. Math. 1943. Vol. 44, no. 3. P. 423-453.

53. Leadbetter M. R. On extreme values in stationary sequences // Z. Wahrsch. verw. Geb. 1974. Vol. 28. P. 289-303.

54. Markovich N.M. Clusters of extremes: modeling and examples // Extremes. 2017. Vol. 20, no. 3. P. 519-538.

55. Martins E.S., Stedinger J.R. Generalized maximum likelihood Pareto-Poisson estimators for partial duration series // Water Res. Research. 2001. Vol. 37 (10). P. 2551-2557.

56. Mendez F.J., Menendez M., Luceno A., Losada I.J. Estimation of the long-term variability of extreme significant wave height using a time-dependent Peak Over Threshold (POT) model // J. Geoph. Research. 2006. Vol. 111. C07024. P. 1-13.

57. Papalexiou S.M. Koutsoyiannis D. Battle of extreme value distributions: a global survey an extreme daily rainfall // Water Res. Research. 2013. Vol. 49 (1). P. 187-201.

58. Raoult J.-P., Worms R. Rate of convergence for the generalized Pareto approximation of the excesses // Adv. Appl. Probab. 2003. Vol. 35. P. 1007-1027.

59. Reiss R.-D., Thomas M. Statistical Analysis of Extreme Values with Applications to Insurance, Finance, Hydrology and Other Fields. 3d Ed. Berlin, Birkhauser Verlag, 2007. 516 p.

60. Tawn J.A. An extreme value theory model for dependent observations // J. Hydrol. 1988. Vol. 101. P. 227-250.

61. Tawn J.A., Shooter R., Towe R., Lamb R. Modelling spatial extreme events with environmental applications // Spatial Statistics. 2018. Vol. 28. P. 39-58.

62. Wilks D.S. Statistical methods in the atmospheric sciences. Elsevier, 2019. 816 p.

63. WMO-No.168. Guide to Hydrological Practices, Volume II: Management of Water Resources and Applications of Hydrological Practices. 2009.

 

References

1. Belyaev Yu.K. Predel'nye teoremy dlya redeyushikh potokov. Teoriya veroyatnostej i ee primeneniya, 1963, vol. 8, no. 2, pp. 175-184 [in Russ.].

2. Billingsley P. Convergence of probability measures. Second ed. WILEY, 1999, 287 р.

3. Bundel A.Yu., Muraviev A.V., Olkhovaya E.D. Overview of spatial verification methods and their application to ensemble forecasting. Hydrometeorological Research and Forecasting [Gidrometeorologicheskie issledovaniya i prognozy], 2021, no. 4 (382), pp. 30-49 [in Russ.].

4. WMO-No. 168. Guide to Hydrological Practices. Vol. II. Management of Water Resources and Application of Hydrological Practices. WMО, Geneva, 2009, 738 p.

5. Galambos J. The Asymptotic Theory of Extreme Order Statistics. 1978, Wiley. 

6. Galambos J. The development of the mathematical theory of extremes in the past half century. Theory of Probability and its Applications, 1994, vol. 39, no. 2, pp. 234-248.

7. Gnedenko B.V. Kurs teorii verojatnostej. Moscow:Nauka publ., 1988, 448 p. [in Russ.].

8. Gnedenko B.V. Predel'nie teoremy dlya maksimal'nogo chlena variatsionnogo ryada. DAN SSSR, 1941, vol. 32, no.1, pp. 7-9 [in Russ.].

9. Gihman I.I., Skorohod A.V. Vvedenie v teoriju sluchanyh processov. Izd.2. Moscow, Nauka publ., 1977, 664 р.

10. Goldaeva A.A. Ekstremal'nye indeksy i klastery v linejnykh rekurrentnykh stokhasticheskikh posledovatel'nostyakh. Teoriya veroyatnostej i ee primeneniya, 2013, vol. 58, no. 4, pp. 795-804 [in Russ.].

11. Gorshenin A.K. Poluparametricheskie metody analiza neodnorodnykh dannykh i ikh primenenie v zadachakh matematicheskogo modelirovaniya: diss. ... dokt. fiz.-mat. nauk. Moscow, 2021, 355 p. [in Russ.].

12. Gorshenin A.K., Korolev V.Yu. Opredelenie ekstremal'nosti ob'emov osadkov na osnove modifitsyrovannogo metoda prevysheniya porogovogo znacheniya. Informat. i ee primenen., 2018, vol. 12, no. 4, pp. 16-24 [in Russ.].

13. Gumbel E. Statistics of extremes. N.Y., Columbia Univ. Press, 1958.

14. Gumbel E. Statistical theory of extreme values (main results). Contributions to order statistics. Ed. Sarhan A., Greenberg B. John Wiley & Sons, New York, London, 1962, pp. 56-94.

15. De Groot M. Optimal statistical decisions. McGrow-Hill Comp., New York, London, 1970.

16. Jacod J., Shiryaev A.N. Limit theorems for stochastic processes. Springer-Verlag, Berlin, New York, London, 1987.

17. Zolotarev V.M. Odnomernye ustojchivye raspredelenija. Moscow: Nauka publ., 1983, 304 p. [in Russ.].

18. Kiktev D.B., Muravev A.V., Smirnov A.V. Nowсasting of meteorological parameters and hazards: implementation experience and development prospects. Hydrometeorological Research and Forecasting [Gidrometeorologicheskie issledovaniya i prognozy], 2019, no. 4 (374), pp. 92-111 [in Russ.].

19. Kolmogorov A.N.  Osnovnye ponyatiya teorii veroyatnostej. Moscow: Nauka publ., 1974, 119 p. [in Russ.].

20. Kolmogorov A.N., Fomin S.V. Elementy teorii funktsyj i funktsional'nogo analiza. 4-e izd. Moscow: Nauka publ., 1976, 544 p. [in Russ.].

21. Lebedev A.V. Osnovy stokhasticheskoj teorii ekstremumov. Moscow: LENAND publ., 2018, 104 p. [in Russ.].

22. Leadbetter M.R., Lindzen G., Rootzen H. Extremes and related properties of random sequences and processes. Springer-Verlag, New York, Berlin, 1986.

23. Muravev A.V., Kiktev D.B., Smirnov A.V. Operational precipitation nowcasting system based on radar data and verification results for the warm period of the year (May-September 2017). Hydrometeorological Research and Forecasting [Gidrometeorologicheskie issledovaniya i prognozy], 2018, no. 1 (367), pp. 6-38 [in Russ.].

24. Muravev A.V., Kiktev D.B., Smirnov A.V., Zajchenko M.Yu. Operational precipitation nowcasting system based on radar data and comparative pointwise verification results for the warm and cold seasons. Hydrometeorological Research and Forecasting [Gidrometeorologicheskie issledovaniya i prognozy], 2019, no. 2 (372), pp. 12-40 [in Russ.].

25. Muravev A.V., Kiktev D.B., Smirnov A.V. Sravnitel'naya verifikatsiya usovershenstvovannoj sistemy radiolokatsionnogo naukastinga osadkov s uchetom propuskov i pri razlichnykh metodakh formirovaniya vyborok (po rezul'tatam ispytanij v teplyj period goda maj-sentyabr' 2017 i 2020 gg.). Rezul'taty ispitaniya novykh i usovershenstvovannykh tekhnologij, modelej i metodov gidrometeorologicheskikh prognozov, 2022, Informatsionnij sbornik no. 49, pp. 3-56 [in Russ.].

26. Muravev A.V., Bundel A.Yu., Kiktev D.B., Smirnov A.V. Expertise in spatial verification of radar precipitation nowcasting: identification and statistics of objects, situations and conditional samples. Hydrometeorological Research and Forecasting [Gidrometeorologicheskie issledovaniya i prognozy], 2022, no. 2 (384), pp. 12-40 [in Russ.].  

27. Nazarenko K.M. O novom metode modelirovaniya mnogomernykh ekstremal'nykh velichin na osnove porogovogo podkhoda. Vestnik RUDN, Seriya Matematika. Informatika. Fizika, 2008, no. 2, pp. 30-38 [in Russ.].

28. Prohorov Ju.V., Rozanov Ju.A. Teorija verojatnostej. Osnovnye ponjatija. Predel'nye teoremy. Sluchajnye processy. Izd.3, Moscow: Nauka publ., 1987, 400 p. [in Russ.].

29. Rodionov I.V. Veroyatnostnyj i statisticheskij analiz ekstremumov diskretnykh stokhasticheskikh sistem: diss. ... dokt. fiz.-mat. nauk. Moscow, 2021, 259 p. [in Russ.].

30. Seneta E. Regularly Varying Functions, Springer-Verlag, Berlin, Heidelberg, 1976.

31. Feller W. An introduction to probability theory and its applications. Sec. ed., Vol II, 1971, John Wiley & Sons, New York, Londn, Toronto.

32. Shetinin E.Yu. Matematicheskaya teoriya ekstremal'nykh velichin v modelirovanii i otsenivanii finansovykh riskov. Finansovaya informatika, 2008, vol. 1, no. 1, pp. 63-70 [in Russ.].

33. Jenciklopedija. Verojatnost' i matematicheskaja statistika. Pod red. Ju.V. Prohorova, Moscow: Bol'shaja Rossijskaja Jenciklopedija publ., 1999, 910 p. [in Russ.].

34. Beirlant J., Goegebeur Y., Teugels J., Segers J., De Waal D., Ferro C. Statistics of Extremes. Theory and Applications. John Wiley & Sons Ltd, England, 2004, 504 p.

35. Bowler N., Pierce С., Seed А. STEPS: A probabilistic precipitation forecasting scheme which merges an extrapolation nowcast with downscaled NWP. Q. J. R. Meteorol. Soc., 2006, vol. 132, pp. 2127-2155.

36. Coles S.G. An Introduction to Statistical Modeling of Extreme Values. Springer Series in Statistics, Springer-Verlag, London Ltd., 2001, 300 p.

37. Davis C.A., Brown B.G., Bullock R.G. Object-based verification of precipitation forecasts, Part I: Methodology and application to mesoscale rain areas. Mon. Wea. Revol., 2006, vol. 134, pp. 1772-1784.

38. Davis C.A., Brown B.G., Bullock R.G. Object-based verification of precipitation forecasts, Part II: Application to convective rain systems. Mon. Wea. Rev., 2006, vol. 134, pp. 1785-1795.

39. Davison A.C., Smith R.L. Models for exceedances over high thresholds. J. R. Statist. Soc., Series B., 1990, vol. 52, no. 3, pp. 393-442.

40. Durrett R. Essentials of stochastic processes. 2nd ed. Springer, 2012, New York, 265 p.

41. De Haan L, Resnik S. On asymptotic normality of the Hill estimator. Stochast. Model., 1996, vol.12, pp. 699-724.

42. De Haan L. On regular variation and its application to weak convergence of sample extremes. Amsterdam. Math. Centre Tracts, 1970, vol. 32, 124 p. 

43. De Haan L., Ferreira A. Extreme value theory. An introduction. Springer, 2006, 417 p.

44. Embrechts P., Kluеppelberg C., Mikosh T. Modelling extremal events for insurance and finance. Springer, 2003, 663 p.

45. Ferro, C.A.T., Segers J. Inference for clusters of extreme values. J. R. Statist. Soc., 2003, B, no. 65, pp. 545-556.

46. Fisher R.A., Tippett L.H.C. Limiting forms of the frequency distribution of the largest or smallest member of a sample. Proc. Camb. Phil. Soc., 1928, vol. 24, pp. 180-190.

47. Galambos J., Seneta E. Regular varying sequences. Proc. Amer. Mat. Soc., 1973, vol. 41, no. 1, pp. 110-116.

48. Gallager R.G. Stochastic processes: Theory for applications. Cambrige Uni. Press, 2013, 560 p.

49. Geyer C.J. Introduction to Markov Chain Monte Carlo. (In: Handbook. Markov Chain Monte Carlo, Eds Brooks S., Gelman A., Jones G., Meng X.-L. 2011, Chapman and Hall/CRC.) pp. 1- 77, DOI:https://doi.org/10.1201/b10905.

50. Gilleland E. 2021, available at: cran.r-project.org/web/packages/SpatialVx/SpatialVx.pdf

51. Gilleland E., Katz R.W. extRemes 2.0: An Extreme Value Analysis Package in R. J. Statist. Soft., August 2016, vol. 7, no. 8, pp.1-39.

52. Gnedenko B.V. Sur la distribution limite du terme maximum d’une serie aleatoire. Ann. Math., 1943, vol. 44, no. 3, pp. 423-453.

53. Leadbetter M. R. On extreme values in stationary sequences. Z. Wahrsch. verw. Geb., 1974, vol. 28, pp. 289-303

54. Markovich N.M. Clusters of extremes: modeling and examples. Extremes, 2017, vol. 20, no. 3, pp. 519-538.

55. Martins, E.S., Stedinger J.R. Generalized maximum likelihood Pareto-Poisson estimators for partial duration series. Water Res. Research, 2001, vol. 37, no. 10, pp. 2551-2557.

56. Mendez F.J., Menendez M., Luceno A., Losada I.J. Estimation of the long-term variability of extreme significant wave height using a time-dependent Peak Over Threshold (POT) model. J. Geoph. Research, 2006, vol. 111, C07024, pp. 1-13.

57. Papalexiou S.M. Koutsoyiannis D. Battle of extreme value distributions: a global survey an extreme daily rainfall. Water Res. Research, 2013, vol. 49, no. 1, pp. 187-201.

58. Raoult J.-P., Worms R. Rate of convergence for the generalized Pareto approximation of the excesses. Adv. Appl. Probab., 2003, vol. 35, pp. 1007-1027.

59. Reiss R.-D., Thomas M. Statistical Analysis of Extreme Values with Applications to Insurance, Finance, Hydrology and Other Fields. 3d Ed. Berlin, Birkhauser Verlag, 2007, 516 p.

60. Tawn J.A. An extreme value theory model for dependent observations. J. Hydrol., 1988, vol. 101, pp. 227-250.

61. Tawn J.A., Shooter R., Towe R., Lamb R. Modelling spatial extreme events with environmental applications. Spatial Statistics, 2018, vol. 28, pp. 39-58.

62. Wilks D.S.