Методика, опробованная на обзорах чикагских отелей, основана на анализе структуры и стиля текстов. Лживые рецензии в целом напоминают беллетристику.
Группа исследователей из Корнеллского университета (США) под руководством профессора компьютерных наук Клэр Карди и специалиста по теории коммуникации Джеффа Хэнкока представила программу-прототип, способную с высокой долей вероятности отсеивать очень часто встречающиеся в Сети ложные рецензии, обзоры и отзывы на продукты и услуги (то, что называется «opinion spam»).
По просьбе учёных 20 студентов университета написали намеренно лживые позитивные отзывы о 20 чикагских отелях. Затем продукты любительского PR были смешаны с верифицированными правдивыми рецензиями и отданы на просмотр ещё трём добровольцам. Последние в определении «джинсы» показали результат, не отличающийся от случайного; более того, мнения о том, какие именно отзывы не были правдивыми, не совпадали.
Люди подвержены ошибкам: многие будут верить, что читают правду, пока не убедятся в обратном («презумпция правдивости»). Завзятые скептики займут противоположную позицию; и те и другие по проницательности уступают машине. Программа способна провести анализ множества текстов и показать, что в правдивых рецензиях чаще встречаются слова, имеющие отношение к предмету. В случае с отелями это «ванная», «заселение» или «цена». Необъективные рецензии «беллетристичнее»; они изобилуют «общеконтекстуальными» словами и словосочетаниями вроде «бизнес-трип», «каникулы» или «ваш муж». Честные и нечестные рецензенты по-разному используют ключевые слова, относящиеся к человеческому поведению и личной жизни, употребляют разное количество пунктуационных знаков и длинных слов. А ещё выяснилось, что правдивые обозреватели используют больше существительных, а лжецы излишне налегают на глаголы.
Исследователи создали несколько аналитических программ; лучшие результаты (89,8% обнаруженного вранья) показала та, которая в первую очередь вычленяла в текстах ключевые слова, а также фиксировала, как некоторые слова соединялись в словосочетания.
Учёные оговариваются, что программа-прототип применима только для отелей (и, возможно, лишь для чикагских). Направления дальнейшей работы — анализ ресторанной критики и клиентских отзывов, а также создание методик отсеивания ложных негативных обзоров. После этого можно будет заниматься обзорами потребительских товаров.
Как говорят исследователи, программное обеспечение, выделяющее не соответствующие действительности отзывы, полезно и при эффективности ниже 90%: оно может выполнять роль «первого фильтра» на соответствующих сайтах-агрегаторах. Если у продукта/услуги значительно больше подозрительных откликов, чем у других, их можно пометить для дальнейшей тщательной проверки.