Аннотация. Латентно-семантический анализ (ЛСА) (англ. Latent semantic analysis, LSA), также известный как латентно-семантическое индексирование (ЛСИ) (англ. Latent semantic indexing, LSI) – это основной метод, используемый для анализа отношений между документами и терминами в коллекции и для извлечения высокоуровневых понятий и преобразования представления документов в соответствии с идентифицированными отношениями.

Ключевые слова: интеллектуальный анализ текста, text mining, кластеризация, классификация, семантика, латентно-семантический анализ, ЛСА, LSA.

Извлечение скрытой семантической информации

В идеале, свойства, извлеченные из документов должны однозначно определять высокоуровневые понятия и темы для того, чтобы дать точное представление их содержимого. На практике же, слова или другие свойства, как правило, далеки от идеального условия из-за того факта, что в каждой теме большинство слов используются довольно часто, и каждое слово может встречаться в более, чем одной теме. С точки зрения языка, слова могут иметь несколько значений (многозначность) и одно и то же значение может принадлежать нескольким словам (синонимия). Кроме того, некоторые слова могут иметь разные смысловые значения, но быть в тоже время каким-то образом связанными [2].

Эти особенности иногда затрудняют правильное определение точечных сходств и взаимосвязей в данных. Например, два документа могут обсуждать одну и ту же тему с использованием разных слов, что может, по-видимому, привести к тому, что программа посчитает, что они никак не связаны друг с другом. Тем не менее, соответствующие релевантные слова обоих документов могут в значительной степени встречаться как в нескольких, так во многих других сходных по тематике документах: эта информации может означать, что все эти слова каким-то образом семантически связаны между собой, поэтому и эти два примера документов будут потенциально связаны, несмотря на то, что значительно отличаются в словах, которые они содержат.

Существуют решения на основе использования внешних баз данных. Однако, другой возможный подход заключается в анализе доступных документов для того, чтобы распознать повторяющиеся зависимости между словами, которые обычно указывают на взаимосвязь этих документов. Эти методы извлечения скрытой (латентной) семантической информации из документов основываются на статистике и вероятности и используются в различных областях и приложениях интеллектуального анализа текста и общего поиска информации [3].

И все-таки как же находить тексты похожие по смыслу? Какие есть алгоритмы для поиска текстов одной тематики? Подход, который широко используется для этих целей называется латентно-семантический анализ (ЛСА) (англ. Latent semantic analysis, LSA), также известный как латентно-семантическое индексирование (ЛСИ) (англ. Latent semantic indexing, LSI).

Допустим, ставится задача написать алгоритм, который сможет отличать новости о политике от новостей о культуре. Первое, что сразу же приходит на ум, это выбирать слова, которые встречаются исключительно в статьях каждого вида и использовать их для классификации. Очевидная проблема такого подхода: как перечислить все возможные слова и что делать в случае, когда в статье есть слова из нескольких классов. Дополнительную сложность представляют омонимы, т.е. слова, имеющие множество значений. Например, слово «банки» в одном контексте может означать стеклянные сосуды, а в другом контексте это могут быть финансовые институты.

Латентно-семантический анализ производит отображение документов и отдельных слов в так называемое «семантическое пространство», в котором и производятся все дальнейшие сравнения. При этом делаются следующие предположения:

1) Документы — это просто набор слов. Порядок слов в документах игнорируется. Важно только то, сколько раз то или иное слово встречается в документе.

2) Семантическое значение документа определяется набором слов, которые, как правило, идут вместе. Например, в биржевых сводках, часто встречаются слова: «фонд», «акция», «доллар»

3) Каждое слово имеет единственное значение. Это, безусловно, сильное упрощение, но именно оно делает проблему разрешимой.

Латентно-семантический анализ

Латентно-семантический анализ (ЛСА) (англ. Latent semantic analysis, LSA), также известный как латентно-семантическое индексирование (ЛСИ) (англ. Latent semantic indexing, LSI) – это основной метод, используемый для анализа отношений между документами и терминами в коллекции и для извлечения высокоуровневых понятий и преобразования представления документов в соответствии с идентифицированными отношениями.

В общем случае, ЛСА переносит документы коллекции и термины в них в скрытое (латентное) пространство свойств, в котором размерности и измерения идеально соответствуют высокоуровневым понятиям или компонентам. Поэтому, каждый документ представляется в виде взвешенного сочетания таких компонентов, в то время как каждый термин может в различной степени быть аналогичным образом связан с другими понятиями. Эта схема очень похожа на метод главных компонент (англ. principal component analysis, PCA), который используется для отображения векторного пространства с возможными взаимосвязями между измерениями, на другое пространство, у которого нет таких взаимоотношений.

Пусть дана коллекция из 𝑛 документов и 𝑚 различных терминов, извлеченных из них. Для применения модели ЛСА, нужно построить 𝑚 × 𝑛 матрицу «термин-документ» 𝐗, с ячейками 𝑥𝑖,𝑗 , содержащими весовые коэффициенты термина 𝑡𝑖 в документе 𝑑𝑗 . Столбцы матрицы 𝐗 на практике соответствуют мультимножеству слов (англ. «bag-of-words») для документа, при этом могут быть использованы термины, «взвешенные» по какой-либо схеме: например, это может быть широко-известная схема ТF-IDF или 𝑡𝑓. 𝑖𝑑𝑓 (от англ. TF – term frequency, IDF – inverse document frequency) или также могут быть эффективны различные схемы, основанные на энтропии. Структура формулы 𝑡𝑓. 𝑖𝑑𝑓 более подробно описывается в конце статьи.

Внутри данной матрицы для оценки взаимосвязи (корреляции) может быть вычислено скалярное произведение между двумя строками (терминами) или двумя столбцами (документами). Полная матрица взаимосвязей для терминов или документов может быть получена путем вычисления 𝐗𝐗^T или 𝐗^T𝐗 соответственно.

В матрице «термин-документ» применяется сингулярное разложение (англ. singular value decomposition, SVD), математическая методика, которая вычисляет разложение исходной матрицы 𝐗 на три матрицы.

𝐗 = 𝐔𝚺𝐕^T

Из полученных матриц, матрицы 𝐔 и 𝐕 являются ортогональными матрицами размерностей 𝑚 × 𝑟 и 𝑛 × 𝑟 соответственно, а матрица 𝚺 – это 𝑟 × 𝑟 диагональная матрица, содержащая собственные значения. Обоснование заключается в том, что каждое из 𝑟 собственных значений соответствует одному из вышеупомянутых высокоуровневых компонентов, отслеживаемых в коллекции документов, и обозначает, насколько этот компонент актуален во всей коллекции.

Собственные значения сортируются по диагонали матрицы 𝚺 в порядке убывания, так что те собственные значения, которые идут первыми, связаны с наиболее важными компонентами. Это позволяет легко отрезать наименее важные компоненты до числа 𝑘 ≤ 𝑟, просто удалив соответствующие строки и столбцы в матрицах. Это сокращение потенциально позволяет удалить «шум» в данных, который может быть составлен, например, из терминов или групп, появляющихся только в нескольких документах и плохо связанных с другими.

Как только такое значение 𝑘 установлено, можно рассчитать построенную аппроксимированную версию исходной матрицы «термин-документ» 𝐗 путем перемножения трех усеченных матриц: результирующая матрица 𝐗′ будет иметь свой ранг, уменьшенный от 𝑟 до 𝑘. Матрица 𝐗′ структурно идентична матрице 𝐗 (ее строки и столбцы являются представлениями для тех же терминов и документов, что и в матрице 𝐗), но весовые коэффициенты скорректированы теперь так, что «шум» устранен, и учитаны очевидные взаимосвязи между терминами (или между документами). Например, если два термина 𝑡𝑎 и 𝑡𝑏 часто встречаются вместе в документах, то документ содержащий только термин 𝑡𝑎 из этих двух терминов, будет в любом случае иметь вес для термина 𝑡𝑏 больше нуля (и наоборот).

Из восстановленной матрицы 𝐗′ или непосредственно из усеченных матриц, используемых для ее вычисления, сходство между терминами и между документами может быть вычислено в соответствии с скорректированными весовыми коэффициентами, которые в общем случае будут отличаться от соответствующих весов, вычисленных из исходной матрицы. В общем случае, когда должны быть найдены документы, наиболее удовлетворяющие запросу, используется общий подход, в котором запрос представляется, как документ, который должен быть сравнен или сопоставлен с каким-то известным документом. Он должен быть сначала отображен в скрытое (латентное) пространство) для того, чтобы пройти такую же коррекцию значений: эта процедура известна как свертка. В скрытом пространстве можно найти связанные документы, которые не содержат точных слов запроса, но при этом строго соответствуют им [1].

Структура формулы TF-IDF или 𝑡𝑓. 𝑖𝑑𝑓

TF — частота слова (англ. term frequency) — отношение числа вхождений некоторого термина к общему числу слов документа. Таким образом, оценивается важность термина 𝑡𝑖 в пределах отдельного документа.

где 𝑛𝑡 есть число вхождений термина 𝑡 в документ, а в знаменателе — общее число слов в данном документе.
IDF — обратная частота документа (англ. inverse document frequency) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Основоположником данной концепции является Карен Спарк Джонс. Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF.

Выбор основания логарифма в формуле не имеет значения, поскольку изменение основания приводит к изменению веса каждого слова на постоянный множитель, что не влияет на соотношение весов.
Таким образом, мера TF-IDF является произведением двух сомножителей: 𝑡𝑓. 𝑖𝑑𝑓(𝑡, 𝑑, 𝐷) = 𝑡𝑓(𝑡, 𝑑) × 𝑖𝑑𝑓(𝑡, 𝐷)
Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах.

Заключение

Несмотря на трудоемкость и непрозрачность ЛСА, он может успешно применяться для разного рада задач, где важно поймать семантику сообщения, обобщить или расширить «смыслы» поискового запроса.

Список литературы

1. Roberto Pasolini. Learning methods and algorithms for semantic text classification across multiple domains — 2015 — 198 p.

2. Федюшкин Н.А., Федосин С.А. Краткий обзор методов и моделей интеллектуального анализа текста— Проблемы и достижения в науке и технике. Сборник научных трудов по итогам международной научно-практической конференции — № 4 — г. Омск — 2017 — 102 с.

3. Федюшкин Н.А., Федосин С.А. Основные технологии интеллектуального анализа текста — Развитие технических наук в современном мире. Сборник научных трудов по итогам международной научно-практической конференции — № 3 — г. Воронеж — 2016 — 128 с.

Главная Конференции Редколлегия Учреждения Документация Авторы Новости Контакты

Наверх

Цитаты
великих
людей

«Наука — дело очень нелегкое. Наука пригодна лишь для сильных умов»

Мишель Монтень

ГОРОДА: Москва, Санкт-Петербург, Новосибирск, Екатеринбург, Нижний Новгород, Казань, Самара, Челябинск, Омск, Ростов-на-Дону, Уфа, Красноярск, Пермь, Волгоград, Воронеж, Владивосток, Ярославль, Обнинск, Калининград, Орел, Тюмень, Томск, Тамбов, Тверь, Улан-Удэ, Смоленск, Саранск, Сочи, Ставрополь, Сыктывкар, Рязань, Пенза, Оренбург, Набережные Челны, Новгород Великий, Новороссийск, Магадан, Магнитогорск, Липецк, Калуга, Кемерово, Краснодар, Ижевск, Иваново, Иркутск, Забайкальск, Владимир, Вологда, Белгород, Брянск

Разработка и
продвижение: AdHeads