Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

ПОСТРОЕНИЕ ЭНТРОПИЙНОЙ МОДЕЛИ ДИНАМИКИ МНОГОМЕРНОЙ СТОХАСТИЧЕСКОЙ СИСТЕМЫ ПО ЭКСПЕРИМЕНТАЛЬНЫМ ДАННЫМ

Авторы:
Город:
Москва
ВУЗ:
Дата:
23 февраля 2016г.

Представим стохастическую систему S в виде многомерной случайной величины Y = (Y1,...,Ym ) . Будем считать, что данное представление является адекватной математической моделью системы S. Каждый элемент Yk вектора Y является одномерной непрерывной случайной величиной, которая характеризует функционирование соответствующего элемента исследуемой системы. Элементы могут быть как взаимозависимыми, так и не зависеть друг от друга. Совместную дифференциальную энтропию многомерной случайной величины Y будем определять по формуле [7]:

где fY (x1, x2 ,...,xm ) - совместная плотность распределения случайных величин Y1,Y2 ,...,Ym . В [5] показано, что если распределения компонент Yk имеют параметры сдвига и масштаба, то при условии сохранения типов распределений, изменение энтропии случайного вектора Y определяется по формуле

Очевидно, что основная трудность использования модели (1) состоит в формализации оценивания индексов детерминации, поскольку формы соответствующих регрессионных зависимостей не известны.

Множественный   индекс  детерминации показывает долю дисперсии результативной переменной  Y, объясненной вариацией факторных переменных X1, … , Xm, включѐнных в нелинейную модель регрессии [1]





У эмпирической регрессии функциональная форма не известна, поэтому значения yˆi определяют без построения уравнения регрессии, используя непараметрические методы.

Известны два основных подхода для построения непараметрической регрессии – это группировка данных и сглаживание данных.

Рассмотрим вычисление показателя тесноты связи по аналитической группировке. Группировка – это распределение единиц по группам в соответствии со следующим принципом: различия между единицами, отнесенными к одной группе, должны быть меньше, чем между единицами, отнесенными к разным группам [2]. При вычислении показателя тесноты методом группировки характер данных (количество, плотность расположения на диаграмме рассеяния) должен допускать:

-   их группирование относительно объясняющей переменной;

-       возможность подсчета средних значений объясняемой переменной внутри каждого интервала группирования.

Один из известных способов группировки для случая, когда имеется одна объясняющая переменная, по которой производится группировка, основан на задании числа интервалов L разбиения по формуле Старджесса [2]

L =1 + 3,222lg n ,




при этом величина интервала равна h = (xmax  - xmin ) / L , где xmax -   xmin –   разность между наибольшим и наименьшим значениями признака.

Основным недостатком аналитического группирования является невозможность его эффективного применения при многомерности данных.

Другим известным методом группировки статистических данных является кластерный анализ. Кластерный анализ – это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек (кластеров, таксонов) [3, 4]. В кластерном анализе группировочные признаки подвергаются объединению с помощью некоторой «метрики» – евклидова расстояния или иной, то есть качество кластеризации многомерной выборки (окончательный вариант разбиения объектов на классы) напрямую зависит от того, насколько правильно выбрана эта метрика, отражающая расстояния между объектами выборки.

Основными недостатками кластерного анализа при группировании являются:

-   невозможность применения при плохой разделимости данных на кластеры;

-   необходимость априорных знаний о радиусе кластеров.

Таким образом, метод группирования не позволяет оценить индекс детерминации для произвольных многомерных данных, так как требует априорной информации для разбиения исследуемых данных на группы.

В [6] рассмотрен ряд непараметрических алгоритмов построения регрессии, основанных на сглаживании значений yi. К ним следует отнести ядерное сглаживание, оценки k-ближайших соседей, оценки ортогональных разложений, сглаживание сплайнами и др.

Основным недостатком данного подхода является проблема выбора размера окрестности усреднения (апертуры сглаживающего фильтра). Заниженное значение окрестности недостаточно сглаживает непараметрическую регрессию, что приводит к завышению индекса детерминации. А, завышенное значение окрестности, наоборот, приводит к чрезмерному сглаживанию, при этом индекс детерминации занижается. Какого-либо универсального критерия выбора оптимальной окрестности сглаживания не предложено.

В [6] представлены различные методы выбора параметра сглаживания, такие как кросс-проверка, штрафные функции и метод постановки. Показано, что в действительности существует целая область субъективного выбора ширины окна внутри медленно сужающегося доверительного интервала, соответствующего оптимуму. Представлены различные методы адаптации параметра сглаживания к локальной кривизне кривой, такие как бутстреп и суперсглаживатель. Недостатками предложенных в [6] методов является их многообразие и сложность, что затрудняет их использование на произвольных, многомерных выборках данных.

Рассмотрим подход, устраняющий недостатки, присущие методам группировки и сглаживания.

Опишем алгоритм, осуществляющий построение непараметрической регрессии с помощью сглаживания линейной регрессией.

По сформированному таким образом множеству значений детерминации множественной регрессии.


yˆ i , i = 1,...,n , по (2) найдем оценку индекса



Очевидно, что оптимальные размеры локальных выборок Li согласно (4) в общем случае будут различными. Это позволит учесть изменение градиента теоретической функции регрессии в зависимости от значений факторных переменных и дисперсии случайной компоненты. Так  как не использовалось никаких предположений о виде функции регрессии, то описанный алгоритм является непараметрическим.

Отметим, что оценку коэффициентов регрессии в (3) выполняют по-разному, в зависимости от особенностей исходных данных, например, можно использовать метод наименьших квадратов, метод наименьших модулей, а также робастные методы.

На модельных данных выполним сравнение известных алгоритмов непараметрического оценивания индекса детерминации и предложенного алгоритма на основе сглаживания линейной регрессией. Воспользуемся методом статистического моделирования Монте-Карло.








В многомерном случае алгоритмы группирования требуют априорной информации для разбиения исследуемых данных на группы. При использовании алгоритмов сглаживания, как в одномерном, так и в многомерном случае возникает вопрос выбора оптимального критерия окрестности сглаживания. Сравним индексы детерминации известных алгоритмов с различными апертурами и алгоритма на основе сглаживания линейной регрессией с теоретическим значением индекса детерминации.



Пример 4, как видно из Табл.6, свидетельствует, что предложенный алгоритм на основе сглаживания линейной регрессией для многомерного случая значительно превосходит известные алгоритмы. Он обеспечивает высокую точность оценивания индекса детерминации. Известные алгоритмы являются не устойчивыми, их результаты зависят от параметров L ,h.

Выводы.

Предложенное сглаживание на основе линейной регрессии обладает следующими особенностями.

1.    Для каждого наблюдения мы выбираем ближайшие по евклидову расстоянию точки. Действительно, нелинейная зависимость может проявлять себя по-разному. Рассмотрение простой окрестности точки для сложной нелинейной зависимости при вычислении регрессии может привести к ошибочным результатам.

2.    Для выбора  оптимальной окрестности,  мы не используем априорные данные  о виде  модели и не подбираем окрестность эвристически, а для каждого наблюдения ищем окрестность с минимальной дисперсией ошибок регрессии. Очевидно, что чем меньше значение дисперсии ошибок регрессии, тем качество однотипной модели выше. Поэтому задачу (4) можно считать формальным критерием эффективности для нахождения оптимальной окрестности (числа соседних точек).

3.   Если градиент теоретической функции регрессии существенно изменяется, то при сглаживании вместо линейной регрессии можно использовать нелинейную регрессию, например, в виде квадратических функций. В частности, для двух переменных вместо парной линейной регрессии имеем параболическую регрессию. При этом критерий оптимальности выбора окрестности для сглаживания остается тем же. Это делает рассматриваемый подход универсальным.

4.    Для многомерного случая (три и более переменных) сглаживание на основе регрессии существенно выигрывает по сравнению с известными алгоритмами.

5.    Предложенный метод непараметрического оценивания индекса детерминации на основе локального сглаживания регрессией обеспечивает достаточную точность для многомерных выборочных данных. Это позволяет на его основе оценивать энтропийные модели динамики многомерных стохастических систем по экспериментальным данным.



Список литературы

1.     Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Исследование зависимостей. – М.: Финансы и статистика, 1985. – 487 с.

2.     Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник / Под ред. И.И. Елисеевой. – 5-е изд., перераб. и доп. – М.: Финансы и статистика, 2004. – 656 с.

3.     Загоруйко Н.Г. Прикладные методы анализа данных и знаний. – Новосибирск: Изд-во института математики, 1999. – 270 с.

4.     Мандель И.Д. Кластерный анализ. – М.: Финансы и статистика, 1988. – 176 с.

5.     Тырсин А.Н., Ворфоломеева О.В. Исследование динамики многомерных стохастических систем на основе энтропийного моделирования / Информатика и ее применения. – 2013. – Т. 7. Вып. 4. – С. 3–10.

6.     Хардле В. Прикладная непараметрическая регрессия. М.: Мир, 1993. – 349 с.

7.     Шеннон К. Работы по теории информации и кибернетике. – М.: Издательство иностранной литературы, 1963. – 830 с.