Практические советы по реализации систем извлечения информации

среда, октября 18, 2006

Байес для сужения области поиска

Одним из главных достоинств классификаторов Байеса является скорость работы. Это позволяет использовать их для сужения области работы другого, более сложного и затратного механизма классификации и распознования. Идея очень простая: мы обрабатываем входные данные Байесом и выбираем k результатов с наибольшей вероятностью, среди которых уже ищем окончательный ответ.

Если копнуть чуть глубже, с помощью такого метода можно превратить линейную зависимость скорости работы самого Байеса от числа категорий в логарифмическую. Для этого надо построить классификатор похожий на decision tree, в котором решение в узлах будет приниматься с помощью Байеса. Формула для расчета вероятностей в таком классификаторе остается точно такой же, мы просто подставляем туда другие данные. Если объект принадлежит какой-либо категории, то он принадлежит и всем ее родителям, соответственно, слово описывающее объект также принадлежит всем родителям категории. При этом вероятность для каждого слова в категории надо считать относительно "братьев" этой категории, а не всех категорий сразу.

Есть еще один момент отличающий полученный классификатор от decision tree. Из каждого узла мы спускаемся вниз не по одному направлению, а сразу по нескольким, наиболее вероятным. Это нужно, чтобы не потерять маленькие категории внутри больших.

Результатом работы этого классификатора будет набор категорий, которые были им пройдены в спуске по дереву. Дальше мы применяем классического Байеса к этому набору и получаем искомый ответ за гораздо меньшее время.

7 комментариев:

Unknown комментирует...

Интересные мысли. А Вы не воплоти такой классификатор в реальность? :) Инетерсно было бы узнать его эффективность, скорость и прочие характеристики на реальных данных.

krondix комментирует...

В реальности воплотили. Характеристики сказать не могу, надеюсь что это временно, но они очень радуют :-)

Unknown комментирует...

Егор,а у Вас есть статья на эту тему? На что можено сослаться в публикации?

krondix комментирует...

Пока нет. Если разрешит наш PR-отдел, напишу после запуска.

Unknown комментирует...

Пишите, а то своруют идею :(

Блудник комментирует...

Интересная идея

Анонимный комментирует...

Уважаемый пользователь интернет читающий сей коротенький очерк.
Общество Мегаполиса Pi7.ru порадовала новым выходом очередного сборника нюансов.
Меня удивила предположим это "[url=http://www.pi7.ru/seks-video/31072-traxnul-devushku-v-uzinkoe-ochko.html ]В Рязани ограбили секс-шоп [/url]" - Канечно вы можете найти и для себя бездну интерестного
Ну а однако лучшее противоядие от скуки это анекдотец.
[b]Школа....

Ровно в 8:15 в школу входит Вовочка, в костюме, с галстуком...
все дела... Пока он идет в свой класс, народ медленно охреневает.
Стоит абсолютная тишина, все внимание на Вовочку... Слышен тихий
шепот: "Не опоздал...", "смотрите... смотрите... Вовочка идет...".
Не разбив ни одного стекла, не обложив никого матом, не придираясь
ни к кому, Вовочка подходит к своему классу. Из класса выходит
Марь Иванна.
Вовочка:
- Здравствуйте, Марь Иванна.
Учительница шарахается от него в сторону, выронив при этом книги
из рук:
- ПОШЕЛ НА ХУЙ!!!!!!!!! [/b]