Что такое text mining
Решил написать небольшую серию постов, некоторое введение в text mining. Что это такое, какие задачи ставятся, как решаются, какие направления сейчас развиваются. Начну с общего обзора.
Text mining, в отличие от своего старшего брата data mining, сравнительно молодая область computer science, большинство значительных результатов было получено в последние 10-15 лет. Как мне кажется, связано это в первую очередь с появлением очень большого количества доступной каждому текстовой информации и появлением соответствующих таким объемам вычислительных мощностей. Для задач data mining входной информацией являются некоторые объекты с небольшим числом свойств, на основании которых делаются определенные выводы. Например, объектом может быть история болезни, свойствами — результаты анализов и осмотров, а выводы, соответственно, диагноз. Системы text mining оперируют с набором документов, слова из которых можно аналогичным образом считать свойствами. При этом размер таких документов может быть очень большим (несколько тысяч слов), а размер общего словаря по всем документам может достигать нескольких сотен тысяч слов. Здесь нужно отметить одно важное свойство набора документов: если представить его в виде матрицы документ-слово (где элемент
Text mining, в отличие от своего старшего брата data mining, сравнительно молодая область computer science, большинство значительных результатов было получено в последние 10-15 лет. Как мне кажется, связано это в первую очередь с появлением очень большого количества доступной каждому текстовой информации и появлением соответствующих таким объемам вычислительных мощностей. Для задач data mining входной информацией являются некоторые объекты с небольшим числом свойств, на основании которых делаются определенные выводы. Например, объектом может быть история болезни, свойствами — результаты анализов и осмотров, а выводы, соответственно, диагноз. Системы text mining оперируют с набором документов, слова из которых можно аналогичным образом считать свойствами. При этом размер таких документов может быть очень большим (несколько тысяч слов), а размер общего словаря по всем документам может достигать нескольких сотен тысяч слов. Здесь нужно отметить одно важное свойство набора документов: если представить его в виде матрицы документ-слово (где элемент
aij
равен 1
, если слово j
содержится в документе i
и 0
в противном случае), мы увидим, что она имеет сильно разреженную структуру, то есть большинство элементов равно 0
. Это позволяет создавать эффективные (по памяти и скорости) алгоритмы обработки очень больших объемов данных.Задачи text mining
- Классификация (classification). Задача заключается в отнесении документа к одной из нескольких заранее определенных категорий, основываясь на содержании документа. Для построения классификаторов используется обучающая выборка из документов с присвоенными им категориями. Классический пример: классификация писем по категориям спам/не спам. Самые простые классификаторы: метод k ближайших соседей и классификатор Байеса.
- Кластеризация (clustering) отличается от классификации тем, что мы не знаем какие существуют категории. У нас нет никакой обучающей выборки, есть только документы, которые надо попытаться определенным образом сгруппировать в кластеры (категории). Причем, как правило, неизвестно даже число возможных категорий (хотя его можно более-менее точно оценить. Существует два типа алгоритмов кластеризации: одни работают с заранее определенным числом категорий (например, алгоритм k-средних), другие с неизвестным (например, иерархическая кластеризация). Известные примеры использования кластеризации: Яндекс.Новости и Nigma.
- Извлечение фактов (fact/information extraction). Название говорит за себя, задача заключается в извлечении из неструктурированного текста информации определенного вида, например пресс-портрета или цитат.
119 комментариев:
Воооот с этого и надо было начинать. А то читал ваш блог вообще не понимая зачем. Изначально занес его потому что вижу что написано что-то умное, непонятное, но жутко интересное. А теперь хоть немного понимаю про что это все )))
Да, я уже понял свою ошибку :-)
Насколько я помню, в Компьютерре использовали термин "интеллектуальный анализ текстов".
Я предпочитаю не переводить "text mining" по двум причинам: не все сразу поймут о чем речь и все существующие переводы достаточно странные.
А чем отличется data mining, text mining и information retrieval?
Коротко говоря, у все эти три термина подразумевают одну и ту же задачу: на основе некоторых входных данных сделать некоторое предсказание. Различаются входные данные. Data mining оперирует с хорошо структурированной информацией, которую легко представить в табличной форме, где строчки это объекты, а колонки их свойства. Text mining оперирует с неструктурированной информацией, как правило, текстами на естественных языках. Впрочем, тексты тоже представимы в виде таблицы, только колонок (слов) будет очень много.
Information retrieval, наверное, самый неоднозначный термин. В широком смысле, он включает в себя и data mining, и text mining, и вообще все что под руку попадется. Если смотреть уже, то под information retrieval часто понимают классическую поисковую задачу, то есть найти наиболее релевантные запросу документы.
Интересно чем все таки отличаются data mining, text mining!
Комментарием выше уже ответил на этот вопрос :-) Нужны еще пояснения?
Очень интересно! Когда же будет про кластеризацию документов?
http://en.wikipedia.org/wiki/Text_mining
а ещё лучше
http://de.wikipedia.org/wiki/Textmining
с IR сравнивая, text mining выдаёт единичную информацию или факты, а вот IR- целые документы.
Я вот чешу репу над парсингом объявлений, и их систематизацией. Какой софт может это делать?
Интересно
Можно ли взять одну картинку с Вашего блога? Очень понравилась. Линк на Вас есстественно поставлю.
A chto dlya vas vash blog? Vi proffesional’niy blogger ili eto prosto dlya dushi?
Автор, а Вы в каком городе живете если не секрет?
Автор, а скажите а куда написать по поводу обмена ссылок (на какое мыло)?
А какой это движок? тоже хочу блог завести
Достаточно интересная и познавательная инфа
Интересно стало, а комментарии которые не нравятся автору здесь удаляют?
Как говорится.. Не дать не взять, зачётная статья!
Все-таки на самом деле нравится мне Ваш блог. Всегда очень интересно читать, включая эту тему
[url=http://wmtraffs.ru/]WMTraffs.ru[/url] - зарабатывай деньги, разставляя ссылки на нашей партнёрской программе
Сайт WMTraffs.ru предлагает всем возможность зарабатывать на любой интернет-ссылке, не имея сайта. Такженаша партнёрка предоставляет выкуп трафика с сайтов с помощью popunder, clickunder, растяжка в шапке, обычные баннера.
Просто мега сайт! Очень помог мне в просвещении[url=http://kvartdiz.ru].[/url] Спасибо хоум пэйдж - http://kvartdiz.ru
Посмотрел сайт и его содержание. Отлично оформлен и в остальном весь классно[url=http://wertepik.ru].[/url] Спасиба Админам! :0
-----------------------------
хомяк - http://wertepik.ru
Интересно, у какого регистратора вы покупали доменное имя? Полная приватность[url=http://choojimmy.ru],[/url] вот что нужно, если не сложно оставьте свою асю...
Хомяк - http://choojimmy.ru
Не сочтите за спам.
Просто хочу сказать спасибо авторам за полезный и познавательный ресурс. Прочитал почти все статьи.
Сам тоже веду блог http://www.rusistoria.ru
Просморел контент[url=http://carvesti.ru].[/url] Неплохо бы было обновлять разделы почаще а в отсальном и блог классно оформлен.
Хотелось бы узнать цены на размещение рекламы на вашем ресурсе. Постучитесь в асю плз! Заранее Благодарю!
Хоум пейдж - http://carvesti.ru
Не думали продать свой проект? Немедленно покупаю русскоязычные. Коль интересно, оставте контакты.
http://www.restbizz.ru
Понравился ваш блог. Сильно насыщен информацией. На рсс подписался. Скажите позволительно ли подписаться на email рассылку?
http://russianug.ru/?cat=12
Здравствуйте, уважаемые админы. Хотел бы поинтересоваться на счет выкупа доменного имени вашего сайта[url=http://0vosh.ru].[/url] Всю инфу отправил на мыло хуиса, на который зареген домен. Заранее спасибо
Home Page - http://0vosh.ru
P.S ну или стукните в асю на крайняк )))
Ну не так чтоб уж очень круто. побольше бы таких блогов полезных…. Много нового узнал!
____________________________
http://artsteklo.net/
Если вам не нравится я её ещё день назад просматривал Взляните сюда
__________________________________________
http://sun7foto.ru
Если вам не нравится но нашел для себя интересные реализации Много нового узнал!
____________________________
http://homefoto36.ru
Ну круто, Просто, ясно и доступно. Взляните сюда
_________________
http://kievgals.ru
Спасибо я её ещё день назад просматривал только жалко изображения пропали:(
_________________
http://funkavkaz.ru
Хорошо я её ещё день назад просматривал респект и уважуха!
Ну не так чтоб уж очень круто. побольше бы таких блогов полезных…. только жалко изображения пропали:(
Спасибо А какой самый ? только жалко изображения пропали:(
___________________
http://olympus30.ru
Спасибо но нашел для себя интересные реализации Много нового узнал!
ДА! этих именно Взляните сюда
_____________
http://gallery007.ru
вообщем но нашел для себя интересные реализации респект и уважуха!
Если вам не нравится описанные выше, развивать ) только жалко изображения пропали:(
__________________________
http://hot4foto.ru
ДА! описанные выше, развивать ) только жалко изображения пропали:(
Хорошо побольше бы таких блогов полезных…. респект и уважуха!
___________________
http://nikon50.ru
вот этот просто вот кому интересно, . могут ставить
Только если практически бесполезна ? покрайней мере пока
вот этот просто практически бесполезна ? безобразные
Только если Глупый вопрос наверное . Так, что привыкайте граждане
не думая практически бесполезна , Позитива к не хватает
Супер доход!!! Мне оч. понравилось! Зайду к вам вторично!!!
--------------------------------------------------
http://nissan4ik.ru/avtobus.php
В ФМС утверждают, который возвышение срока действия коснется только биометрических паспортов. Газета.Ru 15:59
Во вторник, 26 января, появились сообщения о часть[url=http://remonr.ru],[/url] который также с 1 марта 2010 года прекратится выдача заграничных паспортов без электронных носителей информации. Lenta.ru 15:58
В настоящее время в России выдаются загранпаспорта двух видов -- биометрические и обычные, старого образца. Infox.ru 13:51
Добрый вечер, [url=http://onajdet.ru]таким образом [/url] мы имеем для выходе 2 [url=http://kastar.ru]алгоритма[/url]
Не судите строго это качественный сайты, [url=http://saverunet.ru/-feed=rss2&p=141.php ]спасем рунет[/url]!
Теперь всё понятно, спасибо за помощь в этом вопросе.
http://ponymen.ru/voter_110.html
Отличный материал для ознакомления! Правда хотелось бы немного поподробнее, если не сложно, распишите всё детально
http://sp3cok.ru/sluzhba-mediciny-katastrof.htm
Не судите строго, но ничего не понял
cnm4901klsmt
Не судите строго, но ничего не понял
http://micro-cook.ru
Куплю рекламу на Вашем сайте, пишите на мыло
http://micro-cook.ru
Автору привет, а Россия чемпион
http://micro-cook.ru
Не судите строго, но ничего не понял
http://micro-cook.ru
Куплю рекламу на Вашем сайте, пишите на мыло
http://micro-cook.ru
Наши наконец-то выиграли :)
http://micro-cook.ru
Автору привет, а Россия чемпион
http://micro-cook.ru
Наши наконец-то выиграли :)
http://micro-cook.ru
Наши наконец-то выиграли :)
http://micro-cook.ru
вот прям очень бы хотелось видеть больше постов
Так зачитался, что пропустил бы любимую передачу
Суперский пост! Блог уже в ридере )
Ага, теперь ясно… А то я не сразу поняла где тут связь с названием…
с нетерпением буду ждать продолжения Ваших изреченний на по этому вопросу.
Большой пост Занесу в закладки. С утра прочту
Любопытно. Автору, как говорится, респект и уважуха
Отлично!!! Вместо книги на ночь.
Спасибо за познавательную статью!
Как по мне - тема раскрыта четко, спасибо за пост!
Классная статья - спасибо!
очень занимательно было почитать
За такие посты надо награды давать, на полном серьезе!
Спасибо за статью
Пишите интересно и познавательно, хотелось бы увидить более расширенную информацию по этой тематике
А какой это движок? тоже хочу блог завести
Так-так… надо будет присмотреться к этой области
Интересненько, а кто может объяснить девушке как добавить этот блог в избранное?
Ого, прямо как для меня писали :)
Взяла себе тоже-пригодится
Сенкс. Интересно, и вообще полезный у Вас блог
Интересненько, а кто может объяснить девушке как добавить этот блог в избранное?
Читаю уже не первую неделю Ваш блог, узнаю много интересного
сначала не очень то до конца понял
А какой это движок? тоже хочу блог завести
Интересные посты - это ваш стиль безусловно!
Просто замечательно - очень интересные мысли
полностью поддерживаю, такие же мысли были.
Оригинальная идея. Интересно сколько времени он на это потратил
Занятно пишете, жизненно. Все-таки, для того, чтобы делать по-настоящему интересный блог, нужно не только сообщать о чем-то, но и делать это в интересной форме:)
Я это уже на другом сайте видел, но все равно спасибо.
Хорошая статья, узнал много нового!)
У автора очень приятный слог
Занятно пишете, жизненно. Все-таки, для того, чтобы делать по-настоящему интересный блог, нужно не только сообщать о чем-то, но и делать это в интересной форме:)
Хорошая статья, узнал много нового!)
Кто в теме тот понимает
Спасибо за статью.
Ждем еще интересных статей=)
Хехе… Мда… Таким взглядам и отношению к работе многие только будут завидовать! Молодцом!
Вчера подруга скинула на мыло адрес вашего сайта. Но я не придал особого значения, я сегодня зашел и понял что она была права - сайт действительно СУПЕР!
Хорошо написано, надо будет скинуть ссылочку товарищам, чтобы и они оценили вашу статью.
Спасибо, хорошая статья. Подписался.
Вчера подруга скинула на мыло адрес вашего сайта. Но я не придал особого значения, я сегодня зашел и понял что она была права - сайт действительно СУПЕР!
У автора очень приятный слог
Спасибо за статью.
Как хорошо что удалось отыскать такой замечательный блог, и тем более отлично, что есть такие автора толковые!
I with you agree. In it something is. Now all became clear, I thank for the help in this question.
“Как, вам блоггерам, живётся во время экономического кризиса ?”
[url=http://www.serota.ru] [/url]
Помогите плиз,люди.
[url=http://www.serota.ru] [/url]
забрала в цитатник,спасибо!
[url=http://www.serota.ru] [/url]
Неплохо-неплохо, понравился стиль автора, возьму себе на заметку :)
Отличная статейка, прочитал с удовольствием! :) Так держать )
Даже и не придирешься!
Всех с наступающим Новым Годом!!!
Това е хубава статия за четене, благодаря ти, че го споделят.
Отправить комментарий