Практические советы по реализации систем извлечения информации

вторник, ноября 28, 2006

Контроль над поисковой выдачей

Nigma первой в рунете сделала удивительно полезную вещь: возможность управлять результатами поиска в зависимости от цели запроса. Не секрет, что большинство интернет-магазинов очень хорошо оптимизированы и занимают первые места в выдаче, хотя нам очень часто нужна только информация о товаре, обзоры, отзывы с форумов. Теперь при поиске в Нигме есть возможность отключать целые кластеры результатов, например "интернет-магазины".

Стоит отметить, что Yahoo запустил подобную поиск больше года назад и он как раз целиком направлен на исключение (или включение) магазинов из результатов.

Дальнейшим развитием этой идей должны быть уточняющие вопросы, то есть при запросе "слон" у пользователя должны спросить "вы хотите купить слона, посмотреть на слона или узнать про слона?" и, в зависимости от ответа, отсортировать результаты.

14 комментариев:

wowik комментирует...

Слушай, а есть же русский новый поисковик, который прям уточняет запросы. Я видел где-то месяца четыре назад в каких-то топ стартапах из разных стран.

Ссылку не могу найти пока :(, quintra или что-то в этом роде. Там тоже на основе нейронных сетей он строит кластеры, только там он сразу нацелен на уточнение запросов, а не вывод результатов с кластерами.

krondix комментирует...

Да, Quintura , совсем забыл про него. Это еще один шаг в правильном направлении, но пока еще это больше похоже на развлечение. Слишком много вариантов.

wowik комментирует...

Много вариантов да, а главное вопросы задаются в виде ключевых слов, что часто сбивает с толку.

krondix комментирует...

Вообще, идеал мне представляется так: по запросу определяются два вида кластеров: обычные (магазин, описание и т. п.) и hot topics (кластера, которые появились в последнее время). После чего задается несколько простых наводящих вопросов.

Анонимный комментирует...

http://www.exalead.com/search - поисковик, разработку которого финансировало французское правительство. Способы уточнения поиска(exclude/include): related terms(видимо кластеры), тип источника(RSS, etc.), directory(непонятно, как туда что-то попадает), языки(естественные:) ), типы файлов и географическое положение. В описаниях обещали даже named entity extraction и затем использование в refine search.
Правда, они пока маловато интернета проиндексировали.

Практически идеально, но...
вот что странно: после некоторого периода радостного "вот оно - новое!" при пользования кластерными поисковиками(типа clusty, quintura, exalead, etc.) возвращаешься опять в гугл ;)

krondix комментирует...

Спасибо за ссылку, интересно! Вот только мне на запрос "apple macbook" не предложил убрать интернет магазины из выдачи. Related terms это не кластера, а именно уточнение запроса, причем отвечающее на вопрос "какой?". Например, на "elephant" предлагают выбрать среди
* African Elephant
* White Elephant
* Pink elephant
* Baby elephant
* Elephant seals
Это полезно, когды ты ищешь что-то, а как называется забыл или не знаешь.

Нигма (частично) и Яху (более явно) отвечают на вопросы "зачем?" и "что ты хочешь с этим сделать?".

Все эти поиски пока что еще игрушки, поэтому и возвращаемся к Гуглу :-)

wowik комментирует...

Вопрос привычки возможно :)

+ У гугла уже в открытую personalized search идёт, что в 90% случаев радует качеством.

krondix комментирует...

Да, при этом абсолютно одинаковые кластера показываются как разные. Например, "the hp compaq nx6125", "hp compaq nx6125 notebook pc" и "hp compaq business notebook nx6125". Suffix tree clustering, который они используют, тут не подходит, как мне кажется.

Анонимный комментирует...

>запрос "apple macbook" не предложил убрать

На самом деле есть там такая возможность:
1. Внизу кнопка - More choices
2. В директориях - Shopping - Exclude
Результат:
apple macbook without Shopping

krondix комментирует...

И правда! Странно только, что они это так глубоко запрятали.

Анонимный комментирует...

Того и гляди, эта Nigma скоро и Гугл переплюнет по качеству поиска!

krondix комментирует...

О! Меня сам Гугл комментирует :-)

Вряд ли это будет и вряд ли скоро.

LB комментирует...

Еще Вебальта позволяет крутить настройки поиска.

krondix комментирует...

Это два ползунка "внешние факторы... контент" и "WR... тексты ссылок"?