Новости
09.05.2023
с Днём Победы!
07.03.2023
Поздравляем с Международным женским днем!
23.02.2023
Поздравляем с Днем защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

СРАВНИТЕЛЬНЫЙ АНАЛИЗ НЕКОТОРЫХ ОТЕЧЕСТВЕННЫХ ПРОГРАММ КОЛИЧЕСТВЕННОГО КОНТЕНТ-АНАЛИЗА

Авторы:
Город:
Омск
ВУЗ:
Дата:
22 февраля 2016г.

Статья посвящена изучению функциональных возможностей отечественных программ количественного контент-анализа:SimpleWordSorter, Wordstat,ContentAnalyzer, Vaal-mini.

Ключевые слова: программное обеспечение; количественный контент-анализ; функциональные возможности; роль исследователя в проведении контент-анализа.

В настоящее время программное обеспечение контент-анализа условно делится на две части:

-   количественный контент-анализ;

-   качественный контент-анализ.

Укажем наиболее популярные программы количественного контент-анализа: The Yoshikoder, Grawdad Text Analysis System 1.2, CATRAC, Diction 6.0, DIMAP, General Inquirer, INTEXT/TextQuest-Text Analysis Software, Lexa, LIWC (Lingustic Inquiry and Word Count software), MCCA Lite, PCAD 2000, Salt ( Systematic Analysis of Language Transcripts), TABARY (Text Analysis By Augmented Replacement Instructions), TextAnalyst, WordStat v5.0. Разные программы количественного контент-анализа могут решать разные задачи, делать акцент на различных аспектах обрабатываемой информации[1,5].

Целью данной работы является сравнение функциональных возможностей некоторых отечественных программ количественного контент-анализа SimpleWordSorter, Wordstat, ContentAnalyzer, Vaal-mini и выявление ролиисследователя при работе с данным программным обеспечением контент-анализа.

1.SimpleWordSorter

Программа SimpleWordSorter служит для подсчета общего количества слов и количества одинаковых слов в текстовом файле или в тексте буфера обмена, тем самым программа способна подготовить массив для дальнейшей обработки информации и еѐ интерпретации в рамках структурного контент-анализа. Программа SimpleWordSorter позволяет подсчитывать отдельно количество русских и английских слов заданной длины и количество слов, повторяющихся больше заданного числа раз. Результат подсчета программа выводит в виде списка, который можно отсортировать по алфавиту или количеству повторений слов в тексте (Рисунок 1).

В виду того, что программа SimpleWordSorterотображает общее количество слов в массиве, появляется возможность расчета коэффициента доли присутствия признака в исследуемом массиве. Однако для самого расчета коэффициента необходимо использовать уже другое программное обеспечение или рассчитывать коэффициент доли присутствия признака вручную.

Главный недостаток программы SimpleWordSorter состоит в том, что в ней отсутствует механизм распознавания словоформ. Например, слова «технология», «технологии» программа распознает как разные и считает раздельно число появлений этих слов в тексте. Кроме того, данное программное обеспечение не дает возможности для ручной корректировки и объединения слов в словоформы, что существенно снижает потенциал данной программы для множественных замеров.

2.Wordstat

Программа Wordstat предназначена для статистического анализа текстов и указывает, сколько раз то или иное слово встречается в выбранном тексте. Таким образом, программа Wordstatпроводит  подготовку выборочной совокупности для структурного анализа. Исследуемый текст может быть выбран либо из простого текстового файла (обычно с расширением .txt), либо из файла гипертекста (обычно с расширением .htm или

.html). Допускаются следующие кодировки: win1251, КОИ-8r, cp866 (dos). Эти кодировки программа распознает автоматически. Результаты подсчета слов сохраняются в отдельном текстовом файле (Рисунок 2).

Особенность программы Wordstat и преимущество еѐ по сравнению с программой SimpleWordSorter заключается в том, что она обладает функцией «объединять похожие слова», несмотря на имеющиеся изменения словоформы (различные окончания, суффиксы, префиксы). Однако в руководстве пользователя программой Wordstat рекомендуется данный режим использовать с осторожностью, так как некоторые слова могут обрабатываться неверно, поэтому исследователь вынужден осуществлять ручной контроль за процедурой фиксации единиц анализа.

Другая особенность Wordstat заключается в возможности накопления сумм результатов измерений, что бывает полезным при работе с большими массивами текстов, а также когда необходимо получить информацию, как по конкретному тексту, так и по всему массиву данных. Однако при использовании режима накопления суммы результатов, рекомендуется избегать объединения словоформ.

Результаты, полученные программой Wordstat могут быть интерпретированы исследователем в следующем смысле: например, анализируя файл результатов подсчета количества направлений подготовки и специальностей в Информационном бюллетене приемной комиссии ОмГТУ, можно заметить, что частота упоминаний единиц анализа, относящихся к одному направлению подготовки, превышает частоту упоминания слов, относящихся к другим специальностям; это может свидетельствовать о том, что для каждого направления подготовки и специальности характерны свои ключевые слова и термины.

Недостатком программы Wordstat можно считать то, что программа не выдает общего количества слов в массиве и не позволяет формировать единицы анализа, которые состоят более чем из одного слова (например, «информационные технологии»).

3. ContentAnalyzer

Программа ContentAnalyzer служит для подсчета ключевых слов на веб-страницах и адресована интернет- разработчикам для оптимизации своих Web-страниц и анализа чужих страниц, выдаваемых поисковыми системами. Достоинством программы ContentAnalyzer является то, что при анализе она учитывает не только слова, но и словоосновы, а также словосочетания (сравните с программами Wordstat иSimpleWordSorter). Кроме того программа ContentAnalyzer имеет список так называемых стоп-слов, который исключаются из подробного анализа. К ним относятся слова «этот», «он», «от» и другие.

Программа ContentAnalyzer содержит интегрированные в интерфейс весовые коэффициенты. Специфика этой программы такова, что каждой единице анализа она назначает отдельный весовой коэффициент, в зависимости от HTML-теги, к которой относится единица. Например, тексту, отмеченному тегами заголовков

, назначается вес, равный 10, а тексту, отмеченному тегами , соответствует коэффициент, равный 2. Таким образом, производится ранжирование гипертекста по значимости.

Кроме того, программа ContentAnalyzer производит расчеты коэффициентов, характерных для структурного анализа с учетом весовых коэффициентов веб-документов. Программа ContentAnalyzer значительно упрощает проведение структурного контент-анализа за счет возможного параллельного анализа словооснов, слов и словосочетаний (Рисунок 3).

Особенность программы ContentAnalyzer состоит в том, что она считает всю текстовую информацию на веб-странице, в том числе контекстную рекламу. Роль исследователя, работающего с этой программой состоит в разделении всей информации вручную на интересующую исследователя часть и прочую информацию.

3. ВААЛ, Vaal-mini

Цель программ ВААЛ, Vaal-mini – оценка эмоционального воздействия фонетики  слова и текста на человека. В основе программы лежат результаты докторской диссертации А.П.Журавлева, которые нашли отражение в его книге «Звук и смысл», изданной в 1981 году [2,3].

В качестве источников необходимой информации для разработки программы использовались труды по фоносемантике, психолингвистике, психиатрической лингвистике, НЛП, контент-анализу.

Для оценки фоносемантического воздействия в системе ВААЛ используются специальные шкалы. Пользователь может использовать до двадцать различных шкал. Всем звукам русского языка по этим шкалам сопоставлены оценки. Эти оценки не осознаются людьми, но особым образом поставленные эксперименты показывают, что воздействие на подсознание имеет место и что оно довольно сильное.

В основу работы программы Vaal-miniположен описанный метод шкалирования фонетических компонентов текста по критерию различия в их восприятии.

При анализе Информационного бюллетеня ОмГТУ с помощью программы Vaal-mini получены следующие результаты (Рисунок 4):

Программа ВААЛ осуществляет разработку наиболее сложной и важной для исследователя формы контент-анализа, а именно психологического воздействия документа на абитуриента, а не ограничивается только структурной формой анализа, характерной для уже рассмотренных выше программ количественного контент- анализа.

ЗАКЛЮЧЕНИЕ

Рассматривая развитие информационного обеспечения количественного контент-анализа, следует выделить следующие факторы, обуславливающие его эволюцию:

-   развитие системы поиска и отбора данных в глобальной сети Интернет;

-    расширение возможностей цифрового формата данных (возможности оцифровки текста и увеличение объема текста в цифровом формате облегчает работу по его редактированию и контент-анализу в условиях локализации данных не только в пространстве, но и во времени).

-   узкая специализации программного обеспечения. Например, ContentAnalyzer, в первую очередь, служит для оптимизации работы поисковых систем, ВААЛ – для исследования психолингвистических характеристик текста, Wordstat – для подсчета слов для структурного анализа. Направленность программного обеспечения на реализацию отдельных процедур обусловлено тем, что контент-анализ может проводиться по различным методикам и характеризуется широким спектром своего применения[4].

-     применение информационных технологий подразумевает высокий профессионализм исследователя в проведении контент-анализа. Программное обеспечение не позволяет полностью «исключить» исследователя даже из процесса обработки текста. Это связано, в первую очередь, с тем, что программное обеспечение не может адекватно воспринимать оценочные, контекстуальные, ценностно-нагруженные суждения, что требует непосредственного вмешательства исследователя в процедуру.

В заключение укажем перспективные направления развития содержательного аспекта контент-анализа. Первое направление связано с программами исследования искусственного интеллекта, применение которого должно позволить проводить ранжирования оценочного, содержательного компонента текста. Второе направление связано с формализацией качественной стороны метода, через выделение объективных характеристик текста.

 

 

Список литературы

1.     Гаркуша М.Ю., Сечкин Г.И. Цель и задачи использования новых информационных технологий в PR- продвижении информационных ресурсов технического вуза: Сборник научных трудов SWorld. Том 11. Технические науки. Материалы международной научно-практической конференции «Перспективные направления в науке, образовании, производстве и транспорте’ 2013». ЦИТ 413-0709.- с. 65-66.

2.     Манаев, О.Т. Методологические проблемы исследования эффективности средств массовой информации: дисс.док.социол.наук / О.Т. Манаев. — Мн., БГУ, 1991. – 353 с.

3.     Мангейм, Д.Б., Политология. Методы исследования / Д.Мангейм, Б.Рид. – М., «Весь мир», 1997. – 544 с.

4.     Ротман, Д.Г. Оперативные социологические исследования: методика и опыт организации / Д.Г. Ротман, А.Н. Данилов, Л.Г. Новикова. – Мн., БГУ – 2001. – 354 с.

5.     Сечкин Г.И., Гаркуша М.Ю. Исследования внутренних и внешних коммуникаций технического университета методом контент-анализа (синтетический подход). Прикладная математика и фундаментальная информатика. Ежегодный научный журнал, № 1, 2014. Под ред. А.В. Зыкина. – Омск: Изд-во ОмГТУ, 2013. - 278 с.