Рейтинг блогов    Клуб знакомств     Развлечения      Корпоративные блоги

Вы не авторизованы!   |   Войти по OpenID   








Анализ текстов на естественном языке и приведение их к одной шкале - очень непростая задача.

Специалистами Live1000 были разработаны несколько алгоритмов, определяющих и корректирующих рейтинг блогов. Функционально эти алгоритмы можно разделить на три группы:

- Семантический анализатор;
- Анализатор статистической информации;
- Автоматический тематизатор;

Семантический анализатор

Основное назначение - выделение смысловой составляющей поста. Специалистами Live1000 создан алгоритм, позволяющий на основании встречаемых в тексте частей слов, слов, словосочетаний, относящихся как к обычной, так и к специфической/профессиональной лексике, определить ключевые параметры текста, и на основании сложных правил с применением эмпирически подобранных весовых коэфициентов, выставить посту ту или иную оценку.

Для настройки алгоритмов нами было проанализировано около 425000 постов в 17000 блогов.

Анализатор статистической информации

Для того, чтобы выдаваемая оценка соответствовала ожиданиям пользователей, нами был разработан вспомогательный алгоритм, корректирующий оценку семантического анализатора.

Анализатор статистической информации определяет такие параметры как:
- Средняя длинна поста;
- Длина каждого конкретного поста;
- Время прошедшее с последнего обновления журнала;
- Средняя частота постов;
- И т.п.

На основании этих данных расчитываются поправочные коэфициенты, влияющие на окончательный рейтинг блога.

Так, например если журнал давно не обновлялся, то это приводит к уменьшению рейтинга.

Автоматический тематизатор

Другим важным механизмом, позволяющим корректировать значение рейтинга, является автоматический тематизатор. Анализируя блог, тематизатор пытается подобрать четыре наиболее подходящие темы.

Темы выбираются из списка, составленного на основании анализа 17000 блогов.

Темы журнала вносят вклад в значение рейтинга, расчитанного семантическим и статистическим анализаторами. Так, для тематических блогов применяются поправочные коэфициенты больше единицы. Для некоторых тем применяются поправочные коэфициенты меньше единицы.



Для интересующихся темой обработки естественного языка, мы рекомендуем к изучению следующую специализированную литературу:

- Jackson P., Moulinier I. Natural Language Processing for Online Applications. 2002
- Bates, M. Models of natural language understanding. 1995
- Jurafsky D., Martin J., Speech and Language Processing. 2009
Список будет дополняться.

Раздел в стадии разработки. Зайдите пожалуйста через пару дней.




© 2008-2009 «Live1000»