Байес для сужения области поиска
Одним из главных достоинств классификаторов Байеса является скорость работы. Это позволяет использовать их для сужения области работы другого, более сложного и затратного механизма классификации и распознования. Идея очень простая: мы обрабатываем входные данные Байесом и выбираем
Если копнуть чуть глубже, с помощью такого метода можно превратить линейную зависимость скорости работы самого Байеса от числа категорий в логарифмическую. Для этого надо построить классификатор похожий на decision tree, в котором решение в узлах будет приниматься с помощью Байеса. Формула для расчета вероятностей в таком классификаторе остается точно такой же, мы просто подставляем туда другие данные. Если объект принадлежит какой-либо категории, то он принадлежит и всем ее родителям, соответственно, слово описывающее объект также принадлежит всем родителям категории. При этом вероятность для каждого слова в категории надо считать относительно "братьев" этой категории, а не всех категорий сразу.
Есть еще один момент отличающий полученный классификатор от decision tree. Из каждого узла мы спускаемся вниз не по одному направлению, а сразу по нескольким, наиболее вероятным. Это нужно, чтобы не потерять маленькие категории внутри больших.
Результатом работы этого классификатора будет набор категорий, которые были им пройдены в спуске по дереву. Дальше мы применяем классического Байеса к этому набору и получаем искомый ответ за гораздо меньшее время.
k
результатов с наибольшей вероятностью, среди которых уже ищем окончательный ответ.Если копнуть чуть глубже, с помощью такого метода можно превратить линейную зависимость скорости работы самого Байеса от числа категорий в логарифмическую. Для этого надо построить классификатор похожий на decision tree, в котором решение в узлах будет приниматься с помощью Байеса. Формула для расчета вероятностей в таком классификаторе остается точно такой же, мы просто подставляем туда другие данные. Если объект принадлежит какой-либо категории, то он принадлежит и всем ее родителям, соответственно, слово описывающее объект также принадлежит всем родителям категории. При этом вероятность для каждого слова в категории надо считать относительно "братьев" этой категории, а не всех категорий сразу.
Есть еще один момент отличающий полученный классификатор от decision tree. Из каждого узла мы спускаемся вниз не по одному направлению, а сразу по нескольким, наиболее вероятным. Это нужно, чтобы не потерять маленькие категории внутри больших.
Результатом работы этого классификатора будет набор категорий, которые были им пройдены в спуске по дереву. Дальше мы применяем классического Байеса к этому набору и получаем искомый ответ за гораздо меньшее время.
7 комментариев:
Интересные мысли. А Вы не воплоти такой классификатор в реальность? :) Инетерсно было бы узнать его эффективность, скорость и прочие характеристики на реальных данных.
В реальности воплотили. Характеристики сказать не могу, надеюсь что это временно, но они очень радуют :-)
Егор,а у Вас есть статья на эту тему? На что можено сослаться в публикации?
Пока нет. Если разрешит наш PR-отдел, напишу после запуска.
Пишите, а то своруют идею :(
Интересная идея
Уважаемый пользователь интернет читающий сей коротенький очерк.
Общество Мегаполиса Pi7.ru порадовала новым выходом очередного сборника нюансов.
Меня удивила предположим это "[url=http://www.pi7.ru/seks-video/31072-traxnul-devushku-v-uzinkoe-ochko.html ]В Рязани ограбили секс-шоп [/url]" - Канечно вы можете найти и для себя бездну интерестного
Ну а однако лучшее противоядие от скуки это анекдотец.
[b]Школа....
Ровно в 8:15 в школу входит Вовочка, в костюме, с галстуком...
все дела... Пока он идет в свой класс, народ медленно охреневает.
Стоит абсолютная тишина, все внимание на Вовочку... Слышен тихий
шепот: "Не опоздал...", "смотрите... смотрите... Вовочка идет...".
Не разбив ни одного стекла, не обложив никого матом, не придираясь
ни к кому, Вовочка подходит к своему классу. Из класса выходит
Марь Иванна.
Вовочка:
- Здравствуйте, Марь Иванна.
Учительница шарахается от него в сторону, выронив при этом книги
из рук:
- ПОШЕЛ НА ХУЙ!!!!!!!!! [/b]
Отправить комментарий