1. Skip to Menu
  2. Skip to Content
  3. Skip to Footer

Доступ к данным

На сервере ВНИИГМИ-МЦД доступ к массиву данных, выборка данных по интересующим пользователя станциям, их просмотр и копирование обеспечиваются специализированной технологией (http://meteo.ru/it/178-aisori).
Авторы- канд. физ.-мат. наук В.М. Веселов и канд. техн. наук И.Р. Прибыльская.

- Получить данные через новый сайт по технологии Web  Аисори-М (режим опытной эксплуатации) : http://aisori-m.meteo.ru

- Получить данные через старый сайт по технологии Web Аисори : http://aisori.meteo.ru/ClimateR

Описание массива данных

Шерстюков А.Б.

 

Описание массива суточных данных о температуре почвы на глубинах до 320 см по метеорологическим станциям Российской Федерации (версия 2).

 

1.    Введение

В процессе создания данного массива использовались данные специализированного массива данных “Температура почвы по территории России” подготовленного Р.А. Мартугановым в отделе климатологии, а также использовались выборки из информационной базы РСБД ”Приземная метеорология” полученные с помощью технологии Аисори (http://meteo.ru/it/178-aisori, разработчик: В.М. Веселов). Первая версия массива с данными до 2008 года была подготовлена в ОКЛ в 2010 году.

 В настоящей версии массива применены доработанные авторские методы контроля, ряды наблюдений по станциям продлёны до 2015 года включительно. Подробное описание методов контроля приводится ниже.

Текущая версия массива данных подготовлена в лаборатории исследования последствий изменения климата ФГБУ “ВНИИГМИ-МЦД”.

Массив данных обновляется и дорабатывается в ЛИПИК (http://www.meteo.ru/structure/lipic), обнаруженные ошибки фиксируются с помощью признаков качества. Информация о найденных ошибках содержится внутри массива в виде признаков качества.

Перечень станций России для обновленной версии массива составлен на основании Списка станций Росгидромета, включенных в Глобальную сеть наблюдений за климатом и списка реперных метеорологических станций Росгидромета.

 

Любые замечания и рекомендации по данному массиву данных можно направлять во ВНИИГМИ-МЦД:

-старшему научному сотруднику ЛИПИК

Шерстюкову Артёму Борисовичу:

    EmailЭтот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра.

 

2. Описание

Массив данных содержит суточные значения температуры почвы на глубинах до 320 см, полученные на метеорологических станциях Российской Федерации за последние четыре десятилетия.

Наблюдения на станциях Российской Федерации начинались не одновременно.  В связи с этим, период наблюдений на станциях различен, самый ранний год в массиве 1963.

Под естественным покровом температура почвы измеряется на глубинах 2, 5, 10, 15, 20, 40, 60, 80, 120, 160, 240, 320 см.

Основные глубины наблюдений за температурой почвы под естественной поверхностью (по вытяжным термометрам) – 20, 40, 80, 160 и 320 см, дополнительные – 60  см (в 60-х гг. вышла из употребления), 120 см и 240 см.

Наблюдения по вытяжным термометрам на глубинах 80 - 320 см производятся в течении всего года один раз в сутки в срок, ближайший к 14 ч поясного декретного (зимнего) времени. Наблюдения на глубинах 20 и 40 см в теплую половину года производятся в единые синхронные сроки. Зимой, когда высота снежного покрова достигает 15 см и более, наблюдения производятся один раз в сутки в срок, ближайший к 14 ч поясного декретного (зимнего) времени. Наблюдения в единые синхронные сроки возобновляются весной при высоте снежного покрова менее 5 см.

В наблюдениях, по причинам не всегда известным, возникали перерывы на отдельных глубинах или на всех глубинах одновременно, а в архивах в это время возникали пропуски в данных. Иногда эти пропуски в данных совпадают с различными историческими событиями и переходными моментами в развитии страны.

Кроме того, в архивах, созданных в ГУ «ВНИИГМИ-МЦД» на основе перфокартотек до 1976 года, имеются сравнительно большие пропуски в данных о температуре почв, так как со времени их создания (1970-е гг.) до ввода в ЭВМ и создания в 1980-х годах архивных файлов перфокартотеки деградировали из-за старения основы (перфокарт) и хранения в неподходящих условиях.

При создании массива проводился контроль качества исходных данных.

В ходе выполнении контроля никакие из исходных данных не были исправлены, результатом контроля являются только признаки качества каждого значения. Это сделано специально, чтобы каждый пользователь этого массива, мог иметь возможность дополнительно проводить свой контроль и принимать свое решение относительно достоверности того или иного значения. Следует помнить, что выполненные методы контроля могли пропустить некоторые ошибочные значения, т.е. признаки качества, характеризующие то или иное значение, носят рекомендательный характер.

Массив по температуре почвы имеет следующую структуру:

 

1. Данные по каждой станции представлены отдельным файлом.

2. Строка файла представляет собой данные на всех глубинах за один день по одной станции. 

3. В строке записаны:

-        Индекс ВМО станции,

-        год,

-        месяц,

-        день,

-        температура на глубине 2 см, увеличенная в 10 раз; признак качества.

-        температура на глубине 5 см, увеличенная в 10 раз; признак качества.

 -       температура на глубине 10 см, увеличенная в 10 раз; признак качества.

-        температура на глубине 15 см, увеличенная в 10 раз; признак качества.

-        температура на глубине 20 см, увеличенная в 10 раз; признак качества.

-        температура на глубине 40 см, увеличенная в 10 раз; признак качества.

-        температура на глубине 60 см, увеличенная в 10 раз; признак качества.

-        температура на глубине 80 см, увеличенная в 10 раз; признак качества.

-        температура на глубине 120 см, увеличенная в 10 раз; признак качества.

-        температура на глубине 160 см, увеличенная в 10 раз; признак качества.

-        температура на глубине 240 см, увеличенная в 10 раз; признак качества.

-        температура на глубине 320 см, увеличенная в 10 раз; признак качества.


Фрагмент файла данных:

 

 

 

 

2

p

5

p

10

p

15

p

20

p

40

p

60

p

80

p

120

p

160

p

240

p

320

p

22217

1963

1

 1

9999

9

9999

9

9999

9

9999

9

-18

0

9999

9

 -6

5

 2

0

9999

9

16

0

9999

9

35

0

22217

1963

1

 2

9999

9

9999

9

9999

9

9999

9

-17

0

9999

9

 -7

5

 2

0

9999

9

16

0

9999

9

35

0

22217

1963

1

 3

9999

9

9999

9

9999

9

9999

9

-17

0

9999

9

 -7

5

 2

0

9999

9

15

0

9999

9

34

0

22217

1963

1

 4

9999

9

9999

9

9999

9

9999

9

-19

0

9999

9

 -8

5

 1

0

9999

9

15

0

9999

9

34

0

22217

1963

1

 5

9999

9

9999

9

9999

9

9999

9

-17

0

9999

9

 -8

5

 1

0

9999

9

14

0

9999

9

34

0

22217

1963

1

 6

9999

9

9999

9

9999

9

9999

9

-18

0

9999

9

 -9

5

 0

0

9999

9

14

0

9999

9

32

0

22217

1963

1

 7

9999

9

9999

9

9999

9

9999

9

-15

0

9999

9

-10

5

 0

0

9999

9

14

0

9999

9

32

0

22217

1963

1

 8

9999

9

9999

9

9999

9

9999

9

-12

0

9999

9

-10

5

 0

0

9999

9

14

0

9999

9

33

0

22217

1963

1

 9

9999

9

9999

9

9999

9

9999

9

-10

0

9999

9

-10

5

 0

0

9999

9

14

0

9999

9

33

0

22217

1963

1

10

9999

9

9999

9

9999

9

9999

9

-14

0

9999

9

-10

5

-2

0

9999

9

14

0

9999

9

32

0

22217

1963

1

11

9999

9

9999

9

9999

9

9999

9

-19

0

9999

9

-12

5

-2

0

9999

9

13

0

9999

9

32

0

22217

1963

1

12

9999

9

9999

9

9999

9

9999

9

-21

0

9999

9

-15

5

-3

0

9999

9

13

0

9999

9

32

0

22217

1963

1

13

9999

9

9999

9

9999

9

9999

9

-22

0

9999

9

-17

5

-4

0

9999

9

13

0

9999

9

32

0

22217

1963

1

14

9999

9

9999

9

9999

9

9999

9

-23

0

9999

9

-18

5

-6

0

9999

9

13

0

9999

9

31

0

22217

1963

1

15

9999

9

9999

9

9999

9

9999

9

-27

0

9999

9

-18

5

-6

0

9999

9

13

0

9999

9

31

0


Константой отсутствия данных является “9999”.

 

Признаки качества:

 

0 – значение достоверно.

1 – значение ошибочно, забраковано методом 1.

2 – значение ошибочно, забраковано методом 2.

3 – значение ошибочно, забраковано методом 3.

4– значение ошибочно, забраковано методом 4.

5– значение сомнительно, по методу 1 (т.к. данный метод контроля применить не удалось).

6 – значение сомнительно, по методу 2.

7– значение сомнительно, по методу 3.

8–значение ошибочно: забраковано более, чем одним методом одновременно.

9 – отсутствие данных.

Методы контроля

 

Представленный массив данных был проконтролирован с помощью четырех методов статистического контроля. Статистический контроль был необходим, поскольку исходные данные наблюдений имеют некоторые ошибки, вызванные разными причинами.

Как известно, статистические методы дают более точные (хорошо трактуемые, понятные) результаты, если применять их к непрерывному последовательному ряду значений (Это идеальный случай). Однако на практике последовательный ряд наблюдений имеет пропуски значений, т.е. некоторые данные отсутствуют.

Вследствие этого при выполнении контроля, приходилось прибегать к некоторым ограничениям применимости того или иного метода контроля или к ограничениям на выполнение каких-либо внутренних расчетов внутри метода. Это делалось, чтобы избежать некорректного контроля, в случаях, если недостаточно данных для выполнения конкретного метода контроля. Эти ограничения часто приводили к  тому, что те или иные значения остались не проконтролированы каким-то из методов, при этом в массиве имеются пометки в виде флагов (признак качества) рядом с каждым значением, указывающие на это обстоятельство.

 

Метод 1. «Метод гистограмм»

Метод предназначен для обнаружения грубых ошибок, выходящих за допустимые пределы правильных экстремальных значений. Он основан на анализе гистограмм распределения температуры по градациям.

 

Общая идея метода:

Гистограмма отражает повторяемость температуры по отдельным градациям температуры. Повторяемость – это число случаев с температурой в градации, деленное на общее число членов ряда. При достаточном количестве данных гистограмма должна быть гладкой на краях, а ее значения на краях слева и справа должны плавно переходить в нули.

Общая идея метода заключается в определении граничных минимальной и максимальной градаций безошибочных значений температуры с целью последующего отсечения значений, которые значительно выходят за пределы этих граничных значений.

 Предполагается, что ошибочные значения превышают экстремальные правильные значения на величину более чем одна градация. Такие ошибочные значения должны выходить за пределы правильных значений температуры и отделяться от основных значений градациями с нулевой повторяемостью в левой и правой частях гистограммы. Значения принимаются ошибочными, если на краях гистограммы они попадают в градации, следующие после градации с нулевой повторяемостью.

 

Примечание: алгоритм применяется на каждой станции и на каждой глубине отдельно.

 

Метод 2. «Метод проверки на сигмы»

Общая идея метода:

Идея метода заключается в том, что при отсутствии ошибок в исходных данных среднеквадратическое отклонение (σ) всех исходных данных температуры характеризует наиболее вероятные пределы отклонений исходных данных от среднего значения (от нормы). В связи с этим, метод 2 применяется после метода 1, к данным которые признаны корректными по методу 1 - это позволяется снизить влияние грубых ошибок на вычисление среднеквадратического отклонения (σ). В интервале ±4σ (количество сигм подобрано эмпирически) от среднего значения находятся практически все правильные исходные данные (в предположении, что температура имеет нормальное распределение).

 

Метод 3. «Проверка на связанность соседних по времени значений»

Значения температуры в соседние дни не могут сильно отличаться из-за инерционности изменения температуры почвы. Это свойство используется для выявления скачкообразных ошибок, при анализе  последовательных дней.

Общая идея метода:

Идея метода заключается в том, чтобы проверить каждое суточное значение температуры на допустимые пределы отклонений от линейного изменения температуры между предыдущим и последующим днем.

Для проверки каждого суточного значения температуры вычисляется соответствующее ему интерполированное значение температуры между предыдущим и последующим днем. Т.е., например, для проверки температуры 2 января вычисляется интерполированное значение ti на этот день по данным за первое i-1 и третье января i+1 .

ti = (i+1 + i-1)/2,  где 

i – номер дня года

i+1 –температура в последующий день

i-1 –температура в предшествующий день

ti – интерполированная температура на проверяемый день

 

Вычисленное ti  и фактическое Ti значения на 2 января могут отличаться в некоторых пределах. Необходимо определить допустимые пределы величины ΔTi = Ti - ti , при которых Ti можно признать правильным значением. Допустимые пределы определяются по анализу среднеквадратического отклонения σо(i) значений ΔTi на проверяемый день за все годы. Если ΔTi выходит за установленные пределы ±5σо(i), то соответствующее проверяемое  значение температуры признается некорректным (в нашем примере некорректным признается исходное значение на 2 января).

Метод 3 применяется после метода 1, к данным которые признаны корректными по методу 1. Это позволяется снизить влияние грубых ошибок на вычисление среднеквадратического отклонения (σо(i)). Интервал ±5σо подобран эмпирически.

 

Метод 4. «Проверка соседних значений на ошибку обратного знака»

Метод 4 является дополнительным к первым трем методам. Это очень простой метод контроля, призванный найти единичные ошибки “в знаке” значения.

В исходном массиве очень редко встречаются такие ошибки, когда в ряду положительных температур вдруг попадается такое же по величине число, но с обратным знаком.

Метод 4 применяется, как и метод 1, к исходному массиву, в отличие от методов 2 и 3, которые применяются к массиву, проконтролированному методом 1.

 

Общая идея метода:

В каждых трех последовательных значениях температуры проверяется соответствие знака второго значения со знаком первого и третьего значения температуры.  Если знак второго значения отличается, то выполнятся сравнение значений, чтобы определить переход ли это через 0 оС (т.е. корректное значение) или же это появление одиночного резкого выброса (т.е. появление ошибки).

Конечно, возможно появление неверного знака и в других различных сочетаниях, например, появление двух последовательных чисел с неверным знаком подряд и т. д. – такие ситуации этот метод не учитывает, но такие ситуации редкие.