Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

ОЦЕНКА АЛГОРИТМОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

Авторы:
Город:
Оренбург
ВУЗ:
Дата:
07 марта 2016г.

На сегодняшний день информационные технологии достигли высокого уровня развития в сфере сбора и хранения данных. Перманентное увеличение информации в сети интернет и на предприятиях привело к тому, что возможностей и знаний экспертов не достаточно для обработки такого объема данных. Более эффективной альтернативой является интеллектуальный анализ данных (Data Mining). Алгоритмы интеллектуального анализа данных получили широкое распространение в поисковых системах, где объемы данных колоссальны, а полученная в результате поиска информация должна соответствовать не только точному запросу пользователя, но и его семантике.

Модель интеллектуального анализа данных в зависимости от выбранного алгоритма может иметь различные формы:

1)     набор кластеров, описывающих связи вариантов в наборе данных;

2)     дерево решений, которое предсказывает результат и описывает, какое влияние на этот результат оказывают различные критерии;

3)     математическую модель;

4)     набор ассоциативных правил [1].

В результате проведенного анализа литературных источников авторами статьи была составлена укрупненная классификация алгоритмов интеллектуального анализа данных, представленная на Рисунке 1.

В Табл.1 приведен  сравнительный  анализ наиболее распространенных алгоритмов  интеллектуального анализа данных.



Выбор необходимого алгоритма для использования в конкретной задаче может быть достаточно сложным. Для выполнения одной и той же задачи можно использовать различные алгоритмы, при этом каждый алгоритм может выдавать различный результат, а некоторые алгоритмы могут выдавать более одного типа результатов. В случае задачи поиска полезной информации с учетом семантики запроса пользователя целесообразно использовать комбинацию алгоритма классификации на первом этапе и алгоритма взаимосвязей в дальнейшем, когда понятийная база достаточно сформирована.



Свойства основных алгоритмов Data Mining


Таблица 1




 

Описание

С

учител ем или без

Преимущества

Недостатки

Использов ание

C4.5

Алгоритм классификации. Создает классификатор в виде дерева решений. Для этого C4.5 дается набор данных, представляющий собой уже классифицированные объекты.

С

учител ем

Простота, скорость распространенн ость

Неприменим для случаев с нечёткой логикой

Weka

Наивны й байесовс кий классиф икатор

Простой вероятностный классификатор, основанный на применении Теоремы Байеса со строгими (наивными) предположениями о независимости. В зависимости от точной природы вероятностной модели, наивные байесовские классификаторы могут обучаться очень эффективно. Во многих практических приложениях, для оценки параметров для наивных байесовых моделей используют метод максимального правдоподобия.

С

учител ем

Малое количество данных для обучения

Не предназначен для решения сложных задач и большого количества условий классификации

Фильтрац ия спама

Метод опорных векторов

Алгоритм классификации. Метод опорных векторов (SVM) находит гиперплоскость для классификации данных в два класса. В отличие от C4.5 не использует деревья решений.

С

учител ем

Позволяет решать задачи с большим шумовым разбросом данных

Невозможност ь калибровки вероятности попадания в определенный класс.

Подходит только для решения задач с 2 классами. Параметры модели сложно интерпретиров ать

Matlab Libsvm Scikit- learn

AdaBoos t

Алгоритм усиления классификаторов, путем объединения их в комитет.

AdaBoost является адаптивным в том смысле, что каждый следующий комитет классификаторов строится по объектам, неверно классифицированным предыдущими комитетами.

С

учител ем

Простота, скорость, гибкость, приспосаблива емость

Не исключены ошибки классификацм м

Scikit- learn ICSIBoost Gbm Generalize d Boosted Regression Models

Apriori

Алгоритм взаимосвязей. Ищет ассоциативные правила и применят их к базе данных, содержащей большое количество транзакций.

Самоо бучаю щийся

Понятен Легок в реализации

Алгоритм может быть достаточно требователен по отношению к памяти и времени генерации элементных наборов

ARtool Weka Orange

FPG

В основе метода лежит предобработка

Самоо

Позволяет

Значительно

Weka

базы транзакций, в процессе которой

бучаю

произвести

сложнее в

Orange

эта база данных преобразуется в

щийся

декомпозицию

реализации,

компактную древовидную структуру,

сложной

чем Apriori

называемую Frequent-Pattern Tree –

задачи на n

дерево популярных предметных наборов.

простых; Эффективное и полное извлечение предметных наборов

 

 

k-means

Алгоритм сегментации.

Разбивет множество элементов вектор ного пространства на заранее известное число кластеров k.

На каждой итерации перевычисляется центр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кластеры вновь.

Полук онтрол ируем ый

Простота. Крайне эффективен при больших объемах, данных.

Использование для предварительн ого кластерного анализа

Высокая зависимость от набора входных данных. Не предполагает работу с дискретными значениями

Apache Mahout Julia SciPy Weka Matlab SAS

 

C-means

Алгоритм сегментации. Вместо однозначного ответа на вопрос к какому кластеру относится объект, он определяет вероятность того, что объект принадлежит к тому или иному кластеру.

Полуко нтроли руемы й

В отличие от k- means не зависит от начального выбора центров кластеров

Сложнее по сравнению с k- means

Apache Mahout Julia SciPy Weka Matlab SAS

 

EM

Алгоритм кластеризации.

Каждая итерация алгоритма состоит из двух шагов. На E-шаге (expectation) вычисляется ожидаемое

значение функции правдоподобия, при этом скрытые переменные рассматриваются как наблюдаемые. На M-шаге (maximization) вычисляется оценка максимального правдоподобия, таким образом увеличивается ожидаемое правдоподобие, вычисляемое на E-шаге. Затем это значение используется для E-шага на следующей итерации.

Самооб учающ ийся

Прямолинейная реализация. Дополняет недостающие данные

Медленный на больших количествах итераций, не всегда находит оптимальные параметры и застревает в локальных оптимумах

Weka Scikit-learn

 

Алгоритм кластериза ции последова тельносте й

Алгоритм изучает вероятность переходов и измеряет различия, или расстояния, между всеми возможными последовательностями в наборе данных, чтобы определить, какие последовательности лучше всего использовать в качестве входных данных для кластеризации. После создания алгоритмом списка вероятных последовательностей он использует данные этой последовательности в качестве входных данных для EM-метода кластеризации.

Самооб учающ ийся

Масштабируем ость

Не поддерживается использование языка разметки прогнозирующи х моделей (PMML) для создания моделей интеллектуальн ого анализа данных

MicroSoft

 

С целью увеличения релевантности и комфортности информационного поиска искомого документа при сравнительно небольших и редко изменяющихся объемах данных авторами разработана модель пользователя, основанная   на  критериально  -   экстремизационных  механизмов  выбора   с предварительным  разбиением документов на группы [2].

 

Список литературы

1.     Извозчикова В.В., Матвейкин И.В. Использование модели ассоциативной семантической сети для поиска информации // Вестник Ростовского государственного университета путей сообщения, №1 (29) 2008 г., Ростов-на-Дону. - с.37-40.

2.     Извозчикова В.В., Матвейкин И.В. Методика поиска информации в информационной системе технического сервиса //Вестник Саратовского госагроуниверситета им. Н.И. Вавилова, №1 2008 г., Саратов. - с.33-35.