Протоколы Internet


Современные поисковые системы - часть 16


.

Если xi и xj - независимы, тогда и ). Дополнительно выполняется условие, что

, показывающее, что функция является симметричной.

Функция интерпретируется как статистическая мера информации, содержащейся в документе о документе (и наоборот). Когда данная функция применяется для определения степени связи между двумя индексными терминами, например, i и j, тогда xi и xj являются бинарными переменными. Таким образом, является вероятностью присутствия индексного термина i и, соответственно P(xi=0) является вероятностью его отсутствия.

Та степень взаимосвязи, которая существует между индексными терминами i и j вычисляется затем функцией , показывающей степень отклонения их распределений от статистически независимого.

Были предложены и другие функции, похожие на описанную выше функцию для определения степени соответствия (см. Jardine, N. and Sibson, R., Mathematical Taxonomy, Wiley, London and New York (1971)) между парами документов.

Как и в случае автоматической классификации документов, использование вероятностных методов при формировании кластеров содержит в себе достаточно высокий потенциал и представляет крайне интересную область для исследований.

Итак, для формирования кластеров необходимо использовать некую функцию соответствия для определения степени связи между парами документов из коллекции.

Постулируем теперь основную идею, на которой, собственно говоря, и построена вся теория кластерного представления коллекции документов. Гипотеза, приведшая к появлению кластерных методов, называется Гипотезой Кластеров и может быть сформулирована следующим образом: “Связанные между собой документы имеют тенденцию быть релевантными одним и тем же запросам”.

Базисом, на котором построены все системы автоматического поиска информации, является то, что документы, релевантные запросу, отличаются от нерелевантных документов. Гипотеза кластеров указывает на целесообразность разделения документов на группы до обработки поисковых запросов. Естественно, она ничего не говорит о том, каким образом должно проводиться это разделение.




Начало  Назад  Вперед



Книжный магазин