Протоколы Internet


Современные поисковые системы - часть 10


. [2]

В формуле [2] коэффициенты lij стоимостной функции определяют потери, вносимые при ожидании события wi, когда на самом деле произошло событие wj.

Для практической реализации вероятностного поиска вводится упрощающее предположение относительно P(x|wi). Принимается, что значения xi вектора x являются статистически независимыми. Данное утверждение математически представляется в виде: .

Определим переменные: и , представляющие собой вероятность того, что в документе присутствует i-ый индексный термин при условии, что документ является релевантным (нерелевантным). Соответствующая вероятность для отсутствия индексных терминов имеет вид .

Вероятностные функции, используемые для подстановки в правило [1] имеют вид:

и

.

Подставляя значения в [2] и логарифмируя, получаем:

, где

и .

Функция G(x) представляет собой ничто иное, как весовую функцию, в которой коэффициенты Сi представляют собой веса присутствующих в документе индексных терминов. Константа С одинакова для всех документов x, но, конечно, различна для разных запросов и может рассматриваться в качестве порогового значения для поисковой функции. Единственными параметрами, которые могут меняться для данного запроса являются параметры стоимостной функции, вариации которых позволяют получать в ответе большее или меньшее число документов.

Теперь рассмотрим коэффициенты Сi функции G(x) с использованием следующей терминологии:

Таблица 4.5.14.1.

 

Релевантные документы

Нерелевантные документы

Общее количество документов

Всего

N - полное число документов в системе.

R - число релевантных документов

r - число релевантных документов, выданных в ответ на запрос

n - полное число документов, выданных в ответ на запрос

Таблица представляет результаты запроса, направленного системе поиска. Представленная таблица должна существовать для каждого из индексных терминов.

Если мы обладаем всей информацией о релевантных и нерелевантных документах в коллекции документов, то применимы следующие оценки: и . Тогда функция g(x) может быть переписана в виде .




Начало  Назад  Вперед