Протоколы Internet


Современные поисковые системы - часть 14


Для построения систем поиска информации с использованием кластеров необходимо использовать методы для определения степени взаимосвязи между объектами. На основе определенных взаимосвязей можно построить систему кластеров. Взаимосвязь между документами определяется понятиями “степень сходства”, “степень различия” и “степень соответствия”. Значение степени сходства и степени соответствия между документами увеличивается по мере увеличения количества совпадающих параметров. В рассмотрении могут участвовать совершенно разные параметры. Некоторыми исследователями отмечалось, что различие в производительности поисковых систем при использовании различных способов определения степени ассоциации является несущественным, при условии, что функции, используемые для ее определения, являются соответствующим образом нормализованными. Интуитивно, такой вывод можно понять, так как большинство методов определения взаимосвязи между документами используют одни и те же параметры (использующие, в большинстве, статистический анализ текстовых документов). Данное предположение подтверждается в работах И. Лермана, где показано, что многие из способов определения степени соответствия являются монотонными по отношению друг к другу.

В теории поиска информации используется пять основных способов определения степени соответствия. Документы и запросы представляются, в основном, с помощью индексных терминов или ключевых слов, поэтому для облегчения описания моделей обозначим посредством размер множества ключевых слов, представляющих рассматриваемый документ или запрос.

Самая простая из моделей для определения степени соответствия – это так называемый простой коэффициент соответствия: , показывающий количество общих индексных терминов. При вычислении коэффициента не берутся в рассмотрение размеры множеств X и Y.

В следующей таблице показаны другие подходы к определению степени соответствия, использующие коэффициенты, учитывающие размеры множеств и .

Таблица 4.5.14.2

Коэффициент

Название

Коэффициент Дайса (dice)

Коэффициент Джаккарда (jaccard)

Косинусный коэффициент

Коэффициент перекрытия

<


Начало  Назад  Вперед