Análise de sentimentos é a tarefa de identificar se a opinião que foi expressada em um determinado texto, é positiva ou negativa. Tive o primeiro contato com soluções de análise de sentimentos alguns anos atrás, quando trabalhei com as soluções da OpenText, ainda no Brasil (recentemente tive a oportunidade de visitar a sede da empresa na cidade de Waterloo, na província de Ontario no Canadá e conversar com alguns profissionais que trabalham com Analytics).
A ascensão das mídias sociais, como blogs e redes sociais tem despertado interesse em análise de sentimento. Com a proliferação de opiniões, avaliações, recomendações e outras formas de expressão on-line, a opinião se transformou em uma espécie de moeda virtual para empresas que desejam comercializar os seus produtos, identificar novas oportunidades e gerenciar suas reputações. Como as empresas estão cada vez mais interessadas em automatizar o processo de pesquisa sobre o que está sendo falado cobre elas, a compreensão das conversas nas mídias sociais, a fim de identificar conteúdo relevante, que permita tomar ações específicas, tem levado as empresas a buscar soluções de análise de sentimentos.
Para começar, é importante compreender que opiniões e sentimentos, bem como seus conceitos relacionados como avaliação, atitude, emoção e humor são influenciadores do comportamento humano. Nossas crenças e percepções sobre a realidade, assim como nossas escolhas, são bastante condicionadas com a forma que outras pessoas veem e percebem o mundo. Nossa visão do mundo, é muitas vezes influenciada pela visão e opinião de outras pessoas. E isso não acontece apenas com indivíduos, mas também com as empresas. E por isso, cada vez mais as empresas estão interessadas em saber a percepção de outras empresas e indivíduos sobre seus produtos e serviços. E esta é a função da análise de sentimentos, também conhecida como opinion mining.
A análise de sentimentos tem sido largamente usada nas redes sociais, assim como em comentários em blogs, pois pela primeira vez na história da humanidade existe um volume imenso de dados sobre opiniões em formato digital. Essa montanha de dados, que expressam as opiniões de quem as escreveu, permitem análises que podem levar a conclusões nunca antes imaginadas. E a análise de sentimentos vem crescendo de forma exponencial e se tornou uma das áreas de maior pesquisa em processamento de linguagem natural. Várias startups estão surgindo com soluções de análise de sentimento e gigantes como Microsoft, Google, HP, Amazon, Bloomberg e Adobe possuem suas próprias soluções.
Na análise de sentimento o grande problema a ser resolvido, é a classificação do texto que está sendo analisado. A classificação consiste no processo de encontrar, através de Machine Learning, um modelo ou função que descreva diferentes classes de dados. O objetivo da classificação é rotular, automaticamente, novas instâncias da base de dados com uma determinada classe aplicando o modelo ou função “aprendidos”. A classificação pode ser especializada na categorização textual, que consiste na organização de documentos em tópicos preestabelecidos. Esta categorização tem diversas aplicações na área de recuperação de informação, tais como detecção de SPAM, organização automática de e-mails, e identificação de páginas com conteúdo adulto. Para isso, tem se utilizado técnicas de Machine Learning, como supervised learning e classificadores Naive Bayes (não vou detalhar agora o que é o Naive Bayes, pois virão mais artigos sobre isso, mas basicamente o Naive Bayes é um classificador de probabilidades, que visa determinar se um documento pertence a uma determinada classe, para assim definir a análise de sentimento sobre o documento). O classificador Naive Bayes, é o classificador mais utilizado em Machine Learning.
A análise de sentimento pode ser realizada em três níveis de granularidade: (1) no nível de documento, observando o sentimento global expresso no texto; (2) no nível da sentença, classificando a polaridade de cada sentença no texto; e (3) no nível de característica, analisando a polaridade das opiniões sobre características/atributos do objeto.
O maior problema da análise de sentimento, é que a maioria dos algoritmos utilizados usam termos simples para expressar sentimentos sobre um produto ou serviço. No entanto, fatores culturais, nuances linguísticas e contextos diferentes tornam extremamente difícil transformar uma sequência de texto escrito em um sentimento com viés negativo ou positivo. O fato de que os seres humanos muitas vezes discordam sobre determinado do texto ilustra o quão difícil é a tarefa para computadores chegarem a uma conclusão precisa. Quanto menor a sequência de texto, mais difícil se torna.
A análise de sentimento de grandes massas de dados (Big Data) exige alta capacidade de processamento e excepcional capacidade analítica. E para que se possa tornar realidade, as empresas terão que criar equipes internas de Data Science. Mas sem dúvida, a análise de sentimento é um dos campos mais promissores atualmente.
David Matos
1 thought on “Análise de Sentimentos e Machine Learning”