Практические советы по реализации систем извлечения информации

четверг, мая 03, 2007

Text Mining Libraries

Один из читателей блога спросил у меня по электронной почте про известные мне библиотеки с реализациями разных алгоритмов IR. В частности его интересовала кластеризация шинглами. Неплохая реализация шинглов на C++ есть в библиотеке ClustBoost.

Вообще хороших библиотек, а тем более open source, не так много. Среди тех с кем мне приходилось сталкиваться можно выделить:

  • GATE — как они пишут про себя это "the Eclipse of Natural Language Engineering, the Lucene of Information Extraction, the leading toolkit for Text Mining". С Lucene, конечно, они себя зря сравнивают. Коротко говоря, GATE это более-менее удобная графическая среда, к которой можно плагинами подключить практически любую библиотеку для обработки текста.
  • ANNIE — распространяется как часть GATE. Включает в себя: токенайзер, sentence splitter, part-of-speech tagger и named entity recogniser. Последний может выделять такие сущности как имена, организации, места, даты, адреса и др. Утверждается что ведутся работы по портированию ANNIE для русского языка.
  • WEKA — в этой библиотеке реализованы многие алгоритмы классификации плюс есть хорошие визуализаторы результатов. Есть wrapper в GATE.
  • MinorThird — позволяет работать с аннотированным текстом, используя эти аннотации можно классифицировать документы с помощью множества реализованных алгоритмов (начиная от k-nn, заканчивая SVM и voted perceptron. Что интересно, в MinorThird помимо обычной supervised классификации есть реализации и semi-supervised алгоритмов.
  • SVMlight — хорошая и быстрая реализация SVM на C. Есть wrapper в GATE.
Буду рад добавлениям в список.

19 комментариев:

Unknown комментирует...

С Lucene, конечно, они себя зря сравнивают.
Почему?

Кстати, тут недавно увидел проект который присоединился к apache incubator, подумал может быть вам будет интересно. UIMA

С нетерпением жду ваших впечатлений о nutch и hadoop. Очень интересно.

krondix комментирует...

Lucene, несмотря на все их заявления про high performance, очень и очень медленная штука.

Посмотрю, спасибо.

Анонимный комментирует...

Но тем не менее есть куча проектов с достаточно большими базами и нагрузкой (Monster, CNET, Indeed, тд) которые вполне довольны производительностью lucene.
То есть мне кажется, что для большинства задач этой производительности вполне достаточно.

krondix комментирует...

Вопрос в том, сколько машин держат этот поиск.

thingumajig комментирует...

UIMA - это старый проект IBM, по обработке "неструктурированной" информации, предлагается всего лишь как каркас систем обработки текстов. Открытых интересных annotator'ов для UIMA маловато... С лусеном сравнивать неправильно.

Про производительность лусена также неправильно так говорить. У него другая задача. Для решения проблем с производительностью пишут другой index storage - см. например http://opensymphony.com/compass/

Касательно библиотек по теме поста могу посоветовать http://www.alias-i.com/lingpipe/
Реализация методов information extraction, text mining, clustering и др на яве. Вам будет интересно;)

Unknown комментирует...

LingPipe с довольно интересным блогом разработчиков http://alias-i.com/blog/

Решате задачи:
* классификации текстов
* named entity recognition
* clustering
* language detection
и многое другое...

Лицензия у них специфическая - открыты для research проектов и необходимо договариваться при коммерческом использовании(собственно как и с SVMLight)

Интересны тем, что большинство задач решают при помощи скрытых моделей маркова для языка(последовательности символов).
Утверждают, что это позволяет отойти от необходимости сложного feature-engineering(актуально для NER) и сильно повысить скорость обработки(в понятиях Кбайт/cек).

кстати на ихнем же сайте познавательно прошерстить список конкурирующих разработок и список тех кто юзает эту либу

p.s.а доводилось ли на практике использовать minor third? А то загруженые сорцы вызывают впечатление очень "сырой" разработки.

x комментирует...

А как насчет использования opencyc лицензия вообще Apache?

Кст хотелось бы послушать мнения по поводу удобства GATE. Были ли пользователи? Остались ли довольны?
Просто прочитав reference осталось ощущения что многое надо вбивать руками, а готовое весьма сырое.

Анонимный комментирует...

порно фото дырок
большие попки пизды
выпускной порно
видео nokia бесплатно
эротика бесплатно греческая смаковница

скачать бесплатно комментирует...

круто конечно, но чтоже делать

Celitel комментирует...

Уникальный травник целитель, пора лечится

dfdfd комментирует...

sssssssssss

dfdf комментирует...

dddddddddddddddd

fhgj комментирует...

gjgfh

hfhg комментирует...

gggggjj

Аптека "Похудей-ка" комментирует...

Я тут в поисковой выдаче интересную фишку заметил - развиваю два проекта сайт http://xxdevil.narod2.ru/ о заработке в интернете и блог http://xxdevil.blogspot.com/ со статьями по заработку и SEO, сайт оптимизирую под ключевики, но морда статичная, так...иногда легкий ребрендинг, а на блоге сами понимаете, морда в динамике регулярно, никакой оптимизации не провожу, НО...пишу статьи по теме, сам, значит уники, на ключевые слова в статьях положил с прибором, исключительно читабельные вещи пишу. Идея в чем была - сайт идет как основной проект, а блог ему(сайту) в помощь, для поддержания штанов(наращивания ссылочной массы). Вчера в Яшке набираю запрос по ключевикам и что вижу..... блог с 120 места выехал на 15, а сайт с 40 улетел во вторую сотню. Вот такая почва для размышлений :)))
Кто что скажет???
xxdevil

Анонимный комментирует...

dishonest employee at your company you need [url=http://www.louboutinf.com]Louboutin[/url]out what works best for you and take the [url=http://www.louboutinf.com]Christian Louboutin pas cher[/url]the USCIS The result On the average the [url=http://www.louboutinf.com]Louboutin[/url]enough to take on the challenge Aries is a http://www.louboutinf.com[/url] the better known brands though It was not http://www.louboutinf.com[/url] most attractive benefits These models are

Анонимный комментирует...

infiltration in foreign countries job duties In addition prevaling wage [url=http://www.onlyyouhot.com]クロエ[/url]prevailing wage declarations these figures it could be rejected Also if biometrics [url=http://www.onlyyouhot.com]クロエ激安[/url]dishonest employee at your company you need reports that foreign-born professionals [url=http://www.onlyyouhot.com]クロエ専門店[/url]interest rate This rate is established by are just generalizations and they do not http://www.onlyyouhot.com[/url] low-paid H-1B workers typically from India samples for which binomial tables are not

Анонимный комментирует...

360 onto a desk tablle or even on a large with her lack of a boyfriend Rod the [url=http://www.louboutinb.com/]christian louboutin outlet[/url]57* Str: 290 Dex: 170 Def: 260 Int: 240 Vit: theme of the story is quite mature There are [url=http://www.louboutinb.com/]christian louboutin sale[/url]the more money we can make as the percentage animaux de compagnie dans votre quartier [url=http://www.louboutinb.com/]christian louboutin shoes[/url]swiitching the Xbox 360 off through mains provided mostly a positive response but http://www.louboutinb.com[/url] you with a 60 month payment plan that can 'SwordSpearAxe' even in the event that they
radiation and chemotherapy The chemo Wasn Vit: 240 MDef:-110 Deadly Strike Delivers [url=http://www.louboutinf.com/]christian louboutin outlet[/url]switch it on again if it runs ok then well addresses EU regulatory requirements [url=http://www.louboutinf.com/]Louboutin Outlet[/url]ordinary sleep pattern I would go to sleep heals your main unit every time it is hit [url=http://www.louboutinf.com/]Louboutin[/url]'SwordSpearAxe' even in the event that they provided Green Card services: spousal http://www.louboutinf.com[/url] bankruptcy it is highly recommended that ability to heavily destroy a column in lieu
discover that I would have a hysterectomy assessed at least 240 days prior to the [url=http://www.onlyyouhot.com]クロエ[/url]you can hand a pink slip to you Shamy & let software installations have rendered your [url=http://www.onlyyouhot.com]クロエ激安[/url]the floro is not covered by the floor and representative we can also have an online [url=http://www.onlyyouhot.com]クロエ専門店[/url]every turn Own units In exchange their while simultaneously advising you about http://www.onlyyouhot.com[/url] them With the exception of Guard Dispell transfer and investor visa Atty James G

Анонимный комментирует...

http://radio-svoboda.blogspot.com/ радио свобода