Новости

12.04.2024

Поздравляем с Днём космонавтики!

08.03.2024

Поздравляем с Международным Женским Днем!

Подробнее

23.02.2024

Поздравляем с Днем Защитника Отечества!

Подробнее

Оплата онлайн

При оплате онлайн будет
удержана комиссия 3,5-5,5%

Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

Главная
Актуальные вопросы т..
СЕКЦИЯ №20. ИНФОРМАЦ..

ОЦЕНКА АЛГОРИТМОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

Авторы:

Извозчикова В.В.

Черкасова А.А.

Город:

Оренбург

ВУЗ:

Оренбургский государственный университет

Дата:

07 марта 2016г.

На сегодняшний день информационные технологии достигли высокого уровня развития в сфере сбора и хранения данных. Перманентное увеличение информации в сети интернет и на предприятиях привело к тому, что возможностей и знаний экспертов не достаточно для обработки такого объема данных. Более эффективной альтернативой является интеллектуальный анализ данных (Data Mining). Алгоритмы интеллектуального анализа данных получили широкое распространение в поисковых системах, где объемы данных колоссальны, а полученная в результате поиска информация должна соответствовать не только точному запросу пользователя, но и его семантике.

Модель интеллектуального анализа данных в зависимости от выбранного алгоритма может иметь различные формы:

1) набор кластеров, описывающих связи вариантов в наборе данных;

2) дерево решений, которое предсказывает результат и описывает, какое влияние на этот результат оказывают различные критерии;

3) математическую модель;

4) набор ассоциативных правил [1].

В результате проведенного анализа литературных источников авторами статьи была составлена укрупненная классификация алгоритмов интеллектуального анализа данных, представленная на Рисунке 1.

В Табл.1 приведен сравнительный анализ наиболее распространенных алгоритмов интеллектуального анализа данных.

Выбор необходимого алгоритма для использования в конкретной задаче может быть достаточно сложным. Для выполнения одной и той же задачи можно использовать различные алгоритмы, при этом каждый алгоритм может выдавать различный результат, а некоторые алгоритмы могут выдавать более одного типа результатов. В случае задачи поиска полезной информации с учетом семантики запроса пользователя целесообразно использовать комбинацию алгоритма классификации на первом этапе и алгоритма взаимосвязей в дальнейшем, когда понятийная база достаточно сформирована.

Свойства основных алгоритмов Data Mining

Таблица 1

	Описание	С учител ем или без	Преимущества	Недостатки	Использов ание
C4.5	Алгоритм классификации. Создает классификатор в виде дерева решений. Для этого C4.5 дается набор данных, представляющий собой уже классифицированные объекты.	С учител ем	Простота, скорость распространенн ость	Неприменим для случаев с нечёткой логикой	Weka
Наивны й байесовс кий классиф икатор	Простой вероятностный классификатор, основанный на применении Теоремы Байеса со строгими (наивными) предположениями о независимости. В зависимости от точной природы вероятностной модели, наивные байесовские классификаторы могут обучаться очень эффективно. Во многих практических приложениях, для оценки параметров для наивных байесовых моделей используют метод максимального правдоподобия.	С учител ем	Малое количество данных для обучения	Не предназначен для решения сложных задач и большого количества условий классификации	Фильтрац ия спама
Метод опорных векторов	Алгоритм классификации. Метод опорных векторов (SVM) находит гиперплоскость для классификации данных в два класса. В отличие от C4.5 не использует деревья решений.	С учител ем	Позволяет решать задачи с большим шумовым разбросом данных	Невозможност ь калибровки вероятности попадания в определенный класс. Подходит только для решения задач с 2 классами. Параметры модели сложно интерпретиров ать	Matlab Libsvm Scikit- learn
AdaBoos t	Алгоритм усиления классификаторов, путем объединения их в комитет. AdaBoost является адаптивным в том смысле, что каждый следующий комитет классификаторов строится по объектам, неверно классифицированным предыдущими комитетами.	С учител ем	Простота, скорость, гибкость, приспосаблива емость	Не исключены ошибки классификацм м	Scikit- learn ICSIBoost Gbm Generalize d Boosted Regression Models
Apriori	Алгоритм взаимосвязей. Ищет ассоциативные правила и применят их к базе данных, содержащей большое количество транзакций.	Самоо бучаю щийся	Понятен Легок в реализации	Алгоритм может быть достаточно требователен по отношению к памяти и времени генерации элементных наборов	ARtool Weka Orange
FPG	В основе метода лежит предобработка	Самоо	Позволяет	Значительно	Weka
	базы транзакций, в процессе которой	бучаю	произвести	сложнее в	Orange
	эта база данных преобразуется в	щийся	декомпозицию	реализации,
	компактную древовидную структуру,		сложной	чем Apriori
	называемую Frequent-Pattern Tree –		задачи на n	чем Apriori

	дерево популярных предметных наборов.		простых; Эффективное и полное извлечение предметных наборов
k-means	Алгоритм сегментации. Разбивет множество элементов вектор ного пространства на заранее известное число кластеров k. На каждой итерации перевычисляется центр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кластеры вновь.	Полук онтрол ируем ый	Простота. Крайне эффективен при больших объемах, данных. Использование для предварительн ого кластерного анализа	Высокая зависимость от набора входных данных. Не предполагает работу с дискретными значениями	Apache Mahout Julia SciPy Weka Matlab SAS
C-means	Алгоритм сегментации. Вместо однозначного ответа на вопрос к какому кластеру относится объект, он определяет вероятность того, что объект принадлежит к тому или иному кластеру.	Полуко нтроли руемы й	В отличие от k- means не зависит от начального выбора центров кластеров	Сложнее по сравнению с k- means	Apache Mahout Julia SciPy Weka Matlab SAS
EM	Алгоритм кластеризации. Каждая итерация алгоритма состоит из двух шагов. На E-шаге (expectation) вычисляется ожидаемое значение функции правдоподобия, при этом скрытые переменные рассматриваются как наблюдаемые. На M-шаге (maximization) вычисляется оценка максимального правдоподобия, таким образом увеличивается ожидаемое правдоподобие, вычисляемое на E-шаге. Затем это значение используется для E-шага на следующей итерации.	Самооб учающ ийся	Прямолинейная реализация. Дополняет недостающие данные	Медленный на больших количествах итераций, не всегда находит оптимальные параметры и застревает в локальных оптимумах	Weka Scikit-learn
Алгоритм кластериза ции последова тельносте й	Алгоритм изучает вероятность переходов и измеряет различия, или расстояния, между всеми возможными последовательностями в наборе данных, чтобы определить, какие последовательности лучше всего использовать в качестве входных данных для кластеризации. После создания алгоритмом списка вероятных последовательностей он использует данные этой последовательности в качестве входных данных для EM-метода кластеризации.	Самооб учающ ийся	Масштабируем ость	Не поддерживается использование языка разметки прогнозирующи х моделей (PMML) для создания моделей интеллектуальн ого анализа данных	MicroSoft

С целью увеличения релевантности и комфортности информационного поиска искомого документа при сравнительно небольших и редко изменяющихся объемах данных авторами разработана модель пользователя, основанная на критериально - экстремизационных механизмов выбора с предварительным разбиением документов на группы [2].

Список литературы

1. Извозчикова В.В., Матвейкин И.В. Использование модели ассоциативной семантической сети для поиска информации // Вестник Ростовского государственного университета путей сообщения, №1 (29) 2008 г., Ростов-на-Дону. - с.37-40.

2. Извозчикова В.В., Матвейкин И.В. Методика поиска информации в информационной системе технического сервиса //Вестник Саратовского госагроуниверситета им. Н.И. Вавилова, №1 2008 г., Саратов. - с.33-35.

Главная Конференции Редколлегия Учреждения Документация Авторы Новости Контакты

Наверх

Цитаты
великих
людей

«Наука есть наилучший путь для того, чтобы сделать человеческий дух героическим»

Джордано Бруно

ГОРОДА: Москва, Санкт-Петербург, Новосибирск, Екатеринбург, Нижний Новгород, Казань, Самара, Челябинск, Омск, Ростов-на-Дону, Уфа, Красноярск, Пермь, Волгоград, Воронеж, Владивосток, Ярославль, Обнинск, Калининград, Орел, Тюмень, Томск, Тамбов, Тверь, Улан-Удэ, Смоленск, Саранск, Сочи, Ставрополь, Сыктывкар, Рязань, Пенза, Оренбург, Набережные Челны, Новгород Великий, Новороссийск, Магадан, Магнитогорск, Липецк, Калуга, Кемерово, Краснодар, Ижевск, Иваново, Иркутск, Забайкальск, Владимир, Вологда, Белгород, Брянск

Разработка и
продвижение: AdHeads