Анализ тональности текста: как и зачем его использовать?

Как узнать, что клиенты думают о вашем бренде? И как вы можете эффективнее всего использовать эту информацию для бизнеса? Решением может стать анализ тональности текста.

В этой статье мы объясним, зачем применять эту технологию обработки текста и как она может принести пользу вашему бизнесу.

1. Что такое тональность текста

Анализ тональности – это процесс обработки текста, который позволяет определить его эмоциональный тон, то есть оценивает текст или его части, выявляя отношение автора к обсуждаемой теме. Он неразрывно связан с концептом тональности, то есть с проявлением чувств и эмоций. Чаще всего эта технология используется, чтобы отследить мнение о бренде или продукте, а также понять потребности целевой аудитории.

Для анализа текста многие компании используют NLP, то есть обработку естественного языка. Она помогает бизнесу извлекать интерпретируемые инсайты из необработанных и неструктурированных данных.

В качестве данных обычно выступают переписки и расшифровки разговоров с клиентами, упоминания в блогах, комментарии в социальных сетях или отзывы. Результаты такого анализа помогают компаниям улучшать качество обслуживания клиентов и укреплять репутацию бренда. К примеру, наши клиенты часто использовали анализ тональности текста для улучшения работы виртуальных ассистентов, а также оценки и классификации отзывов клиентов.

2. Зачем нужен анализ тональности текста

Использоваться такой анализ может для совершенно разных целей: от исследований рынка до мониторинга бренда. Вот только несколько задач, с которыми может помочь анализ тональности текста:

Отслеживать упоминания бренда

Отслеживать упоминания бренда в социальных сетях, форумах и СМИ — это важный элемент работы с репутацией. Компаниям это позволяет оперативно реагировать на проблемы и жалобы, замечать позитивные и негативные тенденции и строить стратегию продвижения бренда в интернете. Анализ тональности слов позволяет оценить общее настроение клиентов или быстро обнаружить и предотвратить потенциальный репутационный кризис.

При этом можно настроиться на определённый период времени, чтобы отслеживать выпуск продуктов, маркетинговые кампании или подачи на IPO и сравнивать их с обычным количеством упоминаний.

Провести анализ рынка и сделать клиентские опросы эффективнее

Анализ тональности чувств помогает компаниям улучшить свои услуги, ассортимент или узнать, что пользуется популярностью у покупателей. Для этого часто анализируются комментарии на новостных сайтах, в социальных сетях и блогах, на форумах и обзорах продуктов.

Кроме того, такой тип анализа используется для опросов Net Promoter Score (NPS), одного из самых популярных способов получения обратной связи от потребителей.

Начинаются NPS с простого вопроса: «Рекомендуете ли вы эту компанию, продукт и/или услугу другу или члену семьи?». Клиенты дают единичную оценку по числовой шкале. Цель заключается в том, чтобы определить общие впечатления покупателей и понять, как улучшить опыт клиентов и превратить их в амбассадоров бренда.

Такие данные легко оценивать. А вот развернутые вопросы, где участников просят объяснить, почему они оставили ту или иную оценку, могут требовать открытых ответов или качественных данных. Сейчас их проще классифицировать с помощью анализа настроений, предоставив дополнительные инсайты бизнесу. Такая методология позволяет понять причину изменений в оценках NPS или настроении клиентов, выходя за рамки статистики.

Улучшить клиентский сервис

Согласно исследованиям, 76% потребителей прекращают сотрудничество с компанией после одного негативного опыта. Клиенты ожидают, что их взаимодействие с брендами будет эффективным, быстрым, интуитивно понятным, персонализированным и беспроблемным.

Сейчас с этой задачей также помогает анализ тональности речи. Благодаря ему можно автоматически организовывать входящие запросы к поддержке по темам и срочности, чтобы направлять их в правильный отдел и гарантировать, что нужные заявки будут обработаны в первую очередь.

Распознавать эмоции клиентов и реагировать на неприемлемое поведение

Еще одна задача, которая набирает популярность в последние годы, это распознавание агрессивного поведения, оскорблений и неприемлемого контента. Часто она используется для разработки виртуальных помощников: так можно обучить ассистентов анализировать тональность текста и подстроиться под эмоциональную окраску собеседника.

Благодаря этому модель может общаться с разъяренными клиентами аккуратнее или сразу переводить на оператора, чтобы он мог погасить конфликт.

К примеру, мы запускали проект для крупной онлайн-экосистемы, где мы должны были помочь в обучении виртуального ассистента с помощью переписок с клиентами.

Диалог нужно было анализировать по нескольким параметрам, определять, насколько он приемлемый и какие фразы с агрессивной тональностью содержит. Это позволило улучшить реакции виртуального ассистента и адаптировать его к общению с пользователями.

3. Типы анализа тональности

Чаще всего анализ тональности фокусируется на полярности текста (положительной, нейтральной, отрицательной), но может иметь и более широкие задачи, чтобы выявить конкретные чувства и эмоции (гнев, грусть, радость и т.д.) и даже намерения покупателей (заинтересован или не заинтересован).

В зависимости от потребностей бизнеса можно определить разные категории для в анализе тональности:

Градуированный анализ тональности

В некоторых случаях бизнесу может быть важно узнать полярность тональности. Для этого можно включить разные уровни положительного и отрицательного:

Крайне положительная
Положительная
Нейтральная
Отрицательная
Крайне отрицательная

Обычно это называется градуированным или детализированным анализом тональности. К примеру, он может использоваться для интерпретации рейтингов с пятью звездами в отзыве:

Крайне положительная = 5 звезд
Крайне отрицательная = 1 звезда

Чаще такой анализ применяется, если это не узкосфециализированная задача. Так, он может помочь с оценкой какой-то части текста или фразы в диалоге. К примеру, мы анализируем текст по какой-то субъективной оценке или критериям, которые указал заказчик, и определяем, какой конкретный балл можно выставить.

Выявление эмоций

Анализ тональности речи для выявления эмоций позволяет выйти за рамки полярности и выявить конкретные эмоции (радость, разочарование, гнев и грусть).

Многие системы выявления эмоций используют лексиконы (т.е. списки слов и эмоций, которые они передают) или сложные алгоритмы машинного обучения.

Одним из недостатков использования лексиконов является то, что люди выражают эмоции по-разному. Некоторые слова, которые обычно выражают гнев, такие как “ужасно” или “убить” (например, “ваш продукт настолько ужасен” или “ваша служба поддержки меня буквально убивает”), могут также выражать радость (например, “ужасно, что я не нашел вас раньше” или “этим продуктом вы просто убили конкурентов”).

Аспектно-ориентированный анализ тональности

Обычно при анализе тональности текстов вы хотите знать, какие конкретные аспекты или характеристики упоминаются положительно, нейтрально или отрицательно.

Здесь может помочь аспектно-ориентированный анализ тональности, например, в этом отзыве на продукт: “Срок службы батареи этой камеры слишком короткий”, аспектно-ориентированный классификатор сможет определить, что предложение выражает отрицательное мнение о сроке службы батареи рассматриваемого продукта. Чаще всего платформы, которые непосредственно контактируют с людьми и активно собирают обратную связь, постоянно анализируют эти отзывы, используя аспектно-ориентированный анализ тональности.

Применимость и специфика данной задачи очень похожи на выявление эмоций, с той разницей, что это более частный случай. Мы анализируем части текста, чтобы понять контекст (например, оценить, что говорят про срок службы батареи камеры).

Сейчас многие бизнесы, в том числе и небольшие, которые продают на различных маркетплейсах, активно занимаются обработкой комментариев и отзывов пользователей с помощью этого типа анализа тональности. Это позволяет автоматически отвечать на сообщения, особенно негативные, таким образом максимально быстро реагировать на обратную связь.

Например, модель может быть обучена отвечать на негативные отзывы, оставляя нейтральные и положительные комментарии, такие как: “Мы очень извиняемся и обязательно учтем ваши пожелания, это больше не повторится.”

Работа с отзывами на маркетплейсах сейчас является очень важной и популярной функцией в торговле, и большинство продвинутых платформ уже имеет подобный функционал.

Многоязычный анализ тональности

Один из самых сложных видов анализа тональности — это многоязычный анализ, так как он требует много предварительной обработки и ресурсов. Большинство этих ресурсов доступны онлайн (например, лексиконы тональности), в то время как другие необходимо создавать.

Фактически этот тип дополняет предыдущий: все виды анализа, о которых мы говорили ранее, можно проводить на разных языках. Альтернативой может быть автоматическое определение языка в текстах с помощью языкового классификатора, а затем обучение модели анализа тональности для классификации текстов на выбранном языке. Довольно часто многоязычный анализ тональности используется для работы служб поддержки и для других схожих задач.

4. Как работает анализ тональности

Существует несколько алгоритмов, которые применяются в моделях анализа настроений, в зависимости от объема данных и необходимой точности модели.

Алгоритмы анализа можно разделить на три категории:

Основанные на правилах: системы выполняют анализ настроений на основе набора вручную составленных правил.
Автоматические: системы, полагающиеся на методы машинного обучения для обучения на данных.
Гибридные: системы, сочетающие правила и автоматические подходы.

Подходы, основанные на правилах (Rule-based Approaches)

Обычно системы на основе правил используют набор созданных человеком правил для выявления субъективности, полярности или объекта мнения. Эти правила могут включать различные NLP техники:

Стемминг, токенизация, определение частей речи и парсинг.

При этом в NLP может использоваться как стемминг, так и лемматизация. Стемминг – это примитивный эвристический метод, который удаляет окончания слов, зачастую теряя при этом словообразовательные суффиксы. Лемматизация – это более сложный процесс, основанный на использовании словаря и морфологического анализа, который приводит слово к его стандартной форме – лемме.

В NLP существует два вида токенизации: по предложениям и по словам. Токенизация по предложениям заключается в разделении текста на отдельные предложения, а токенизация по словам – в дальнейшем делении этих предложений на отдельные слова.

Парсинг с использованием пользовательских словарей и грамматик в свою очередь преобразует текст в набор структурированных данных.

Лексиконы (списки слов и выражений).

Пример работы системы, основанной на правилах:

Определяются два списка поляризованных слов (негативные слова: плохо, ужаснее, страшный, и позитивные слова: хорошо, лучше, отличный).
Подсчитывается количество позитивных и негативных слов в тексте.
Если количество позитивных слов больше, система возвращает положительное настроение, если количество слов одинаково, система возвращает нейтральное настроение.

Но такие системы не всегда точно понимают текст, поскольку не учитывают, как слова комбинируются и в каком контексте используются. Конечно, можно добавить более сложные методы обработки или новые правила с учетом новых выражений, но это усложняет систему и требует регулярных инвестиций для ее поддержки.

Автоматические подходы

Автоматические методы, в отличие от систем на основе правил, полагаются на техники машинного обучения. Задача анализа настроений обычно моделируется как задача классификации, где классификатор получает текст и возвращает категорию: положительное, отрицательное или нейтральное.

Как может быть реализован классификатор машинного обучения:

Процессы обучения и предсказания

В процессе обучения модель учится связывать определенный ввод (текст) с соответствующим выводом (меткой) на основе обучающих образцов. Извлекатель признаков преобразует текст в вектор признаков. Пары векторов признаков и меток, к примеру, положительное, отрицательное или нейтральное, подаются в алгоритм машинного обучения для создания модели.
В процессе анализа извлекатель признаков используется для преобразования новых текстов в векторы признаков, которые подаются в модель, генерирующую предсказанные метки.

Извлечение признаков из текста

Первый шаг в классификации текста машинным обучением — это преобразование текста в вектор признаков. Классический подход включает список слов или список n‑грамм с их частотами.

Более современные методы извлечения признаков основываются на векторных представлениях слов, что позволяет словам с похожим значением иметь схожие представления, улучшая производительность классификаторов.

Алгоритмы классификации

Этап классификации обычно включает статистическую модель, такую как Naïve Bayes, Логистическая регрессия, Метод опорных векторов или Deep Learning:

Naïve Bayes: алгоритм машинного обучения, применяемый для задач классификации текстов. Он основывается на вероятностных принципах для выполнения классификационных задач.
Логистическая регрессия: широко известный алгоритм в статистике, используемый для предсказания значения (Y) на основе набора признаков (X).
Метод опорных векторов: невероятностная модель, представляющая примеры текста как точки в многомерном пространстве.
Глубокое обучение: разнообразный набор алгоритмов, стремящихся имитировать работу человеческого мозга с помощью искусственных нейронных сетей для обработки данных.

Гибридные подходы

Гибридные системы объединяют лучшие элементы правил и автоматических техник в одну систему, что часто повышает точность результатов.

Проблемы анализа настроений

В анализе настроений есть более базовые примеры данных:

У Netflix лучший выбор фильмов
У ОККО отличный интерфейс
Мне не нравится новый сериал
Я ненавижу полгода ждать выхода следующего сезона
Так и более сложные кейсы для анализа настроений:
Не любить романтические комедии — не редкость. (отрицание, инвертированный порядок слов)
Иногда я прямо ненавижу это шоу. (наречие, модифицирующее настроение)
Обожаю ждать два месяца до выхода следующей серии! (сарказм)
Сериал было интересно смотреть, но я бы не порекомендовал его своим друзьям. (трудно классифицировать)
Я орал в конце сцены с тортом (новые термины и разговорные выражения часто трудно понять)

Поэтому тональность речи — это одна из самых сложных задач в обработке естественного языка. Иногда даже людям бывает сложно точно анализировать настроения и распознавать иронию. Сейчас выделяют 7 основных проблем машинного анализа тональности речи:

Субъективность и тон
Многоязычность, культурные различия и развитие языка
Контекст и полярность
Ирония и сарказм
Сравнения
Эмодзи
Точность аннотаций человека

Субъективность и тон

Тексты могут быть субъективными и объективными, причем первые содержат явные настроения, а вторые нет. К примеру, фразы “помада отличная” и “помада светлая”. Первая воспринимается как положительная, а вторая как нейтральная.

Многоязычность, культурные различия и развитие языка

Многоязычность и различия между разными культурами создают значительные риски при обработке языков, например, китайского. Из-за отличий в языках можно неверно понять контекст и тональность текста. Это усугубляется религиозными различиями и диалектами. Для точной интерпретации чаще всего требуются носители языка и представители соответствующей культуры.

Также языки сильно эволюционируют, включая сленг, жаргонизмы и заимствования. Современные тексты отличаются от текстов прошлого, например, из “Войны и мира”, что влияет на обучение нейросетей.

Если нужно обучить модель на медицинской латыни или древнеегипетском, это тоже создает проблемы, так как сложно найти достаточно текстов и специалистов для разметки.

Ирония и сарказм

Ироничные выражения часто используют позитивные слова, но имеют негативный смысл: “Обожаю ждать доставку до 11 ночи!”. Без понимания контекста машинному анализу сложно распознать двойной смысл.

Контекст и полярность

Все высказывания имеют контекст, к примеру, время и место. Без учета контекста правильно проанализировать настроение становится сложнее. К примеру, ответы на вопросы “Что вам понравилось в продукте?” и “Что вам НЕ понравилось в продукте?” могут сильно отличаться по настроению, хотя и имеют одинаковую форму.

Многополярность

Многополярность возникает, когда предложение содержит более одного чувства. Например, в обзоре продукта говорится: «Я доволен прочной конструкцией, но не впечатлен цветом». Программному обеспечению становится трудно интерпретировать лежащие в основе настроения. Вам нужно будет использовать анализ тональности на основе аспектов, чтобы извлечь каждую сущность и соответствующую ей эмоцию.

Сравнения

Сравнительные выражения часто вызывают трудности в анализе настроений: “Этот продукт лучше старых” и “Этот продукт не лучше ничего” может быть трудно классифицировать без учета контекста.

Эмодзи

Эмодзи играют важную роль в передаче настроений, особенно в соцсетях. Чтобы правильно учитывать эмодзи при классификации, необходимо уделять внимание и уровню символов или эмодзи.

При этом обычно выделяют два типа эмодзи: западные эмодзи (например, :D) кодируются с использованием одного или двух символов, а восточные эмодзи (к примеру, ¯_(ツ)_/¯) часто представляют собой более длинную комбинацию символов вертикального характера. Также в некоторых странах, например, некоторых регионах бывшего Советского Союза, могут использоваться непривычные и несвойственные для других стран эмодзи (к примеру, ) или )) в качестве улыбающегося лица).

Точность аннотаций человека

Даже для людей анализ настроений является сложной задачей, что часто приводит к низкому уровню согласованности между разметчиками. Машины учатся на размеченных данных, поэтому точность классификаторов может быть ниже, чем в других задачах.

Несмотря на все эти трудности, анализ настроений стоит усилий. Используя модель анализа настроений, можно ожидать точных предсказаний в 70–80% случаев, что экономит время и деньги на многих задачах, среди которых маршрутизация заявок, мониторинг бренда и анализ клиентского опыта.

Как мы поняли, подбор разметчиков для таких задач довольно проблематичен из-за высокой субъективности. Технические задания часто неконкретные или быстро меняются, это тоже усложняет разработку критериев для адекватной оценки. Поэтому обычно в случае спорных ситуаций менеджер работает с асессорами, а непонятные моменты уточняет у заказчика и фиксирует, чтобы затем можно было на них ссылаться в общении с исполнителями.

Как лучше выполнять анализ тональности текста?

Часто клиенты нас спрашивают: что эффективнее использовать для оценки тональности текста? Конечно, если модели хорошо настроены и могут помочь с предразметкой, это значительно ускоряет работу. Однако внедрение таких моделей может быть сложным и ресурсоемким. Поэтому обычно оценивается применимость на реальных проектах, сравниваются результаты, чтобы понять, что сработает дешевле, быстрее и лучше.

Часть работы выполняется валидаторами и разметчиками, другая часть – моделями. Затем результаты сравниваются по критериям стоимости, скорости и качества.

Основная сложность заключается в балансе: если проект низкомаржинальный, использование таких моделей может быть накладным из-за их высоких требований к ресурсам, особенно к GPU. В таких случаях ручная разметка может оказаться дешевле и эффективнее.

Но если речь идет о сервисах крупных компаний, предоставляющих доступ к моделям за символическую плату, это также может быть оправдано. Важно оценивать стоимость и выгоду в каждом конкретном случае.

5 лучших инструментов для анализа тональности

Один из способов провести анализ тональности слова — использовать инструменты, которые собирают информацию из множества источников и применяют такие методы, как линейная регрессия. Мы выбрали несколько популярных инструментов, масштабируемых для различных типов бизнеса:

1. Sprout Social

Sprout Social — это платформа с комплексными решениями для управления социальными сетями. Среди ее инструментов есть анализ настроений и мониторинг на основе AI, который ищет миллионы упоминаний на разных платформах.

AI от Sprout распознает настроение в сложных предложениях и даже в эмодзи, что дает достаточно точное представление о том, что клиенты думают о бренде.

Еще одно преимущество платформы: Sprout поддерживает мультиязычный анализ настроений, что помогает лучше понимать и взаимодействовать с международной аудиторией

2. InMoment (Lexalytics)

InMoment — платформа для улучшения клиентского опыта, использующая AI Lexalytics для анализа текстов из множества источников и преобразования их в инсайты. Она также поддерживает более 30 языков, что удобно для мультиязычного анализа.

3. Qualtrics (Clarabridge)

Text iQ от Qualtrics — это инструмент анализа настроений, использующий NLP для анализа неструктурированных данных из различных источников, включая социальные сети, опросы и взаимодействия с клиентской поддержкой.

Из преимуществ: платформа автоматически категоризирует отзывы по темам, что облегчает выявление общих тенденций и проблем. Она также присваивает баллы настроения для количественной оценки эмоций и анализирует текст на нескольких языках. Это очень удобно для анализа настроений в твитах, постах и комментариях в социальных сетях.

4. Buffer

Buffer предоставляет простые инструменты управления социальными сетями, которые помогают с публикацией, анализом производительности и вовлечением аудитории.

Одна из функций инструмента — маркировка настроения в постах как “отрицательное”, “вопрос” или “заказ”, что позволяет брендам сортировать диалоги и приоритизировать ответы.

5. Brandwatch

Brandwatch чаще всего используют для исследований и управления имиджем в различных социальных сетях. Пользователь может классифицировать настроение в сообщениях как положительное, отрицательное или нейтральное, отслеживать изменения настроений со временем и просматривать общий балл настроений на панели управления.

Анализ тональности текста является мощным инструментом для бизнеса, который помогает понять эмоциональную окраску клиентских отзывов и мнений. Благодаря ему компании могут улучшать качество обслуживания, оперативно реагировать на негативные отзывы, адаптировать маркетинговые стратегии и даже предотвращать репутационные кризисы. Внедрение этой технологии в бизнес-процессы открывает новые возможности для роста и улучшения взаимодействия с клиентами.

Хотите узнать, как анализ тональности текста может улучшить ваш бизнес? Свяжитесь с нами сегодня, чтобы максимально эффективно использовать эту технологию для достижения ваших бизнес-целей.