Языкознание Новости Библиотека Энциклопедия Карта проектов О сайте

Пользовательского поиска



27.07.2011

Создана программа, выявляющая нечестные рецензии

Методика, опробованная на обзорах чикагских отелей, основана на анализе структуры и стиля текстов. Лживые рецензии в целом напоминают беллетристику.

Как вы считаете, какой отзыв правдивее: «Изысканная паэлья с огромной жаровни придаст сил для осмотра Ковент-Гардена» или «Чёртовы голуби гадят на противень»?
Как вы считаете, какой отзыв правдивее: «Изысканная паэлья с огромной жаровни придаст сил для осмотра Ковент-Гардена» или «Чёртовы голуби гадят на противень»?

Группа исследователей из Корнеллского университета (США) под руководством профессора компьютерных наук Клэр Карди и специалиста по теории коммуникации Джеффа Хэнкока представила программу-прототип, способную с высокой долей вероятности отсеивать очень часто встречающиеся в Сети ложные рецензии, обзоры и отзывы на продукты и услуги (то, что называется «opinion spam»).

По просьбе учёных 20 студентов университета написали намеренно лживые позитивные отзывы о 20 чикагских отелях. Затем продукты любительского PR были смешаны с верифицированными правдивыми рецензиями и отданы на просмотр ещё трём добровольцам. Последние в определении «джинсы» показали результат, не отличающийся от случайного; более того, мнения о том, какие именно отзывы не были правдивыми, не совпадали.

Люди подвержены ошибкам: многие будут верить, что читают правду, пока не убедятся в обратном («презумпция правдивости»). Завзятые скептики займут противоположную позицию; и те и другие по проницательности уступают машине. Программа способна провести анализ множества текстов и показать, что в правдивых рецензиях чаще встречаются слова, имеющие отношение к предмету. В случае с отелями это «ванная», «заселение» или «цена». Необъективные рецензии «беллетристичнее»; они изобилуют «общеконтекстуальными» словами и словосочетаниями вроде «бизнес-трип», «каникулы» или «ваш муж». Честные и нечестные рецензенты по-разному используют ключевые слова, относящиеся к человеческому поведению и личной жизни, употребляют разное количество пунктуационных знаков и длинных слов. А ещё выяснилось, что правдивые обозреватели используют больше существительных, а лжецы излишне налегают на глаголы.

Исследователи создали несколько аналитических программ; лучшие результаты (89,8% обнаруженного вранья) показала та, которая в первую очередь вычленяла в текстах ключевые слова, а также фиксировала, как некоторые слова соединялись в словосочетания.

Учёные оговариваются, что программа-прототип применима только для отелей (и, возможно, лишь для чикагских). Направления дальнейшей работы — анализ ресторанной критики и клиентских отзывов, а также создание методик отсеивания ложных негативных обзоров. После этого можно будет заниматься обзорами потребительских товаров.

Как говорят исследователи, программное обеспечение, выделяющее не соответствующие действительности отзывы, полезно и при эффективности ниже 90%: оно может выполнять роль «первого фильтра» на соответствующих сайтах-агрегаторах. Если у продукта/услуги значительно больше подозрительных откликов, чем у других, их можно пометить для дальнейшей тщательной проверки.

Николай Третьяков


Источники:

  1. www.science.compulenta.ru




Рейтинг@Mail.ru
© Манакова Наталья Александровна - подборка материалов, оцифровка, статьи; Злыгостев Алексей оформление, разработка ПО 2001-2017.
При копировании материалов проекта обязательно ставить ссылку на страницу источник:
http://genling.ru 'GenLing.ru - Общее языкознание'