Cómo Funciona El Análisis de Sentimientos
Cómo Funciona El Análisis de Sentimientos
Cómo Funciona El Análisis de Sentimientos
sentimientos?
El análisis de opinión utiliza varios métodos y algoritmos de
procesamiento del lenguaje natural (PNL), que veremos con más
detalle en esta sección.
Los principales tipos de algoritmos utilizados incluyen:
Sistemas basados en reglas que realizan análisis de
sentimientos basados en un conjunto de reglas creadas
manualmente.
Sistemas automáticos que dependen de técnicas de
aprendizaje automático para aprender de los datos.
Sistemas híbridos que combinan enfoques automáticos y
basados en reglas.
Enfoques basados en reglas
Por lo general, un sistema basado en reglas utiliza un conjunto de
reglas creadas por humanos para ayudar a identificar la
subjetividad, la polaridad o el tema de una opinión.
Estas reglas pueden incluir varias técnicas desarrolladas en
lingüística computacional, tales como:
Stemming , tokenización , etiquetado y análisis de parte del
discurso .
Léxicos (es decir, listas de palabras y expresiones).
Aquí hay un ejemplo básico de cómo funciona un sistema basado
en reglas:
1. Define dos listas de palabras polarizadas (por ejemplo,
palabras negativas como mala , peor , fea , etc. y palabras
positivas como buena , mejor , hermosa , etc.).
2. Cuenta el número de palabras positivas y negativas que
aparecen en un texto dado.
3. Si el número de apariciones de palabras positivas es mayor
que el número de apariciones de palabras negativas, el sistema
devuelve un sentimiento positivo y viceversa. Si los números son
pares, el sistema devolverá un sentimiento neutral.
Los sistemas basados en reglas son muy ingenuos ya que no tienen
en cuenta cómo se combinan las palabras en una secuencia. Por
supuesto, se pueden utilizar técnicas de procesamiento más
avanzadas y agregar nuevas reglas para admitir nuevas
expresiones y vocabulario. Sin embargo, agregar nuevas reglas
puede afectar los resultados anteriores y todo el sistema puede
volverse muy complejo. Dado que los sistemas basados en reglas a
menudo requieren ajustes y mantenimiento, también necesitarán
inversiones regulares.
Enfoques automáticos
Los métodos automáticos, a diferencia de los sistemas basados en
reglas, no se basan en reglas diseñadas manualmente, sino
en técnicas de aprendizaje automático . Una tarea de análisis de
sentimientos generalmente se modela como un problema de
clasificación, mediante el cual un clasificador recibe un texto y
devuelve una categoría, por ejemplo, positiva, negativa o neutral.
Así es como se puede implementar un clasificador de aprendizaje
automático:
Investigación de mercado
Y como caso de uso final, el análisis de sentimientos permite todo
tipo de investigación de mercado y análisis competitivo. Ya sea que
esté explorando un nuevo mercado, anticipando tendencias
futuras o teniendo una ventaja sobre la competencia, el análisis de
sentimientos puede marcar la diferencia.
El análisis de sentimientos se puede usar para:
Analice las reseñas de productos de su marca y compárelas
con la competencia.
Genere informes semanales, mensuales o diarios, una
especie de sistema de alerta temprana
Compare el sentimiento en los mercados internacionales
Analice informes de mercado formales o revistas de negocios
para tendencias más amplias a largo plazo.
Analice tweets y publicaciones en redes sociales para eventos
en tiempo real
Analizar revisiones para comentarios de clientes sin filtrar
Utilice el análisis de sentimientos basado en aspectos para
obtener una visión más detallada de los detalles y la razón de
las tendencias opacas del mercado
Principales beneficios para la investigación de
mercado:
Aproveche las nuevas fuentes de información
Cuantificar la información cualitativa
Agregue esa dimensión cualitativa a los conocimientos
cuantitativos ya recopilados
Proporcione información en tiempo real en lugar de
retrospectiva
Automatizado para informes regulares (quizás semanales)
Rellene los vacíos donde los datos públicos son escasos, por
ejemplo, en los mercados emergentes.
Ejemplos: opiniones de hoteles en TripAdvisor
Nuestro equipo tenía curiosidad sobre cómo se siente la gente
acerca de los hoteles en varias ciudades importantes de todo el
mundo, por lo que descartamos y analizamos más de un millón de
comentarios de TripAdvisor. Buscamos hoteles en Londres, París,
Nueva York, Bangkok, Madrid, Pekín y Río de Janeiro.
Aquí hay algunas ideas:
Las revisiones fueron en su mayoría positivas: en promedio,
el 82% de los comentarios fueron etiquetados con un
sentimiento positivo
Los hoteles de Londres recibieron las peores críticas
Los hoteles de Londres fueron vistos como más sucios que
los hoteles de Nueva York y con la peor comida en general.
Utilizamos el módulo de extracción de palabras clave para analizar el
contenido real de las críticas positivas / negativas, y encontramos
algunas ideas más interesantes:
Las "cucarachas" solo aparecen en Bangkok. ¡Cuidado!
"Croissants" aparece solo en París (como podríamos
esperar). Sorprendentemente, sin embargo, parecen ser una
decepción. Echando un vistazo más de cerca, pudimos concluir
que esto era más un reflejo en la comida de desayuno del hotel
que en la ciudad (¡uf!).
Tutoriales y herramientas de
recursos de análisis de opinión
El análisis de sentimientos es un tema realmente vasto y los
principiantes pueden no saber cómo comenzar. Afortunadamente,
existen muchos recursos, desde tutoriales útiles hasta todo tipo de
cursos, artículos y documentos que se especializan en este
tema. En esta sección, nuestro objetivo es brindarle una breve
descripción de cómo comenzar con el análisis de sentimientos.
1. Lee lo básico
Antes de sumergirse en literatura y tutoriales sobre análisis de
sentimientos, asegúrese de comprender los conceptos básicos del
análisis de sentimientos. Quizás repase estas secciones una vez
más:
Los fundamentos del análisis de sentimientos.
Diferentes tipos de análisis de sentimientos.
Los beneficios del análisis de sentimientos.
Cómo funciona el análisis de sentimientos.
Si ya está familiarizado con el tema, puede explorar literatura de
análisis de sentimientos más avanzada .
2. Pruebe una herramienta en línea
Un buen próximo paso en su viaje para aprender más sobre el
análisis de sentimientos es jugar y experimentar con
una herramienta de análisis de sentimientos .
Al tener experiencia de primera mano, puede comprender
rápidamente cómo el análisis de sentimientos clasifica las
expresiones. También aprenderá rápidamente cuáles son los
desafíos y las advertencias de esta tecnología.
A continuación, puede probar diferentes modelos que fueron
entrenados por MonkeyLearn para un conjunto diverso de tareas de
análisis de sentimientos. Siéntase libre de experimentar con
diferentes expresiones y ver cómo se comportan los diferentes
modelos y hacer predicciones.
Si obtiene un resultado extraño, podría deberse a que la expresión
que ha utilizado no fue reconocida por el modelo (todavía). Intente
ingresar más palabras para ver cómo esto afecta los resultados.
Además, puede usar MonkeyLearn para crear un modelo
personalizado para el análisis de sentimientos para obtener
resultados específicos que se adapten a su dominio e interés.
Análisis de sentimientos entre dominios
Este es un clasificador de análisis de sentimientos entre dominios para
textos en inglés. Funciona bien en cualquier tipo de texto. Si no
está seguro de qué modelo de análisis de opinión utilizar, le
recomendamos que utilice este.
Prueba con tu propio texto
Clasificar texto
Resultados
ETIQUETA
CONFIANZA
Positivo
100%
Tweet Sentimiento
Este modelo se puede utilizar para clasificar tweets en inglés de
acuerdo con su sentimiento (es decir , positivo , neutral o negativo ).
Prueba con tu propio texto
Clasificar texto
Resultados
ETIQUETA
CONFIANZA
Positivo
36,0%
Sentimiento del producto
Este modelo clasifica las reseñas y opiniones de productos en inglés
como positivas o negativas según su opinión.
Prueba con tu propio texto
Clasificar texto
Resultados
ETIQUETA
CONFIANZA
Positivo
99,1%
Sentimiento del hotel
Este clasificador de análisis de sentimientos se formó con datos de
diferentes sitios de revisión de hoteles para distinguir entre buenas
y malas críticas.
Prueba con tu propio texto
Clasificar texto
Resultados
ETIQUETA
CONFIANZA
Positivo
95,8%
3. Aprende de un tutorial
Hay un tutorial de análisis de sentimientos para casi todos:
codificadores, no codificadores, vendedores, analistas de datos,
agentes de soporte, vendedores, lo que sea. En esta sección,
compartiremos una selección de tutoriales para que pueda
encontrar algo en su callejón.
Tutoriales de análisis de sentimientos para
codificadores
Para aquellos que se sienten cómodos con el código y las API,
puede encontrar rápidamente todo tipo de guías y recursos paso a
paso. Python es el lenguaje de programación más común para
tutoriales sobre análisis de datos, aprendizaje automático y PNL
(incluido el análisis de sentimientos), pero R se está poniendo al día
rápidamente, especialmente con los tutoriales dirigidos a
científicos de datos y estadísticos.
Análisis de los sentimientos de los 100 principales subreddits
con Python
Este es un tutorial de análisis de sentimientos y raspado web de
Python que proporciona una guía paso a paso sobre cómo analizar
los 100 subreddits principales según el sentimiento de sus
comentarios.
Comienza explicando cómo usar Beautiful Soup , una de las
bibliotecas de Python más populares para el raspado web, para
extraer datos de las páginas web. El autor utiliza esta biblioteca
para extraer los principales subreddits de la página web y obtener los
nombres de los 100 principales subreddits (subreddits como / r /
funny, / r / AskReddit y / r / todayilearned).
Una vez que obtiene los nombres de los subreddits, usa la biblioteca
Praw para interactuar con la API de Reddit y extraer los comentarios
de estos subreddits.
Finalmente, el autor explica cómo usar TextBlob para realizar
análisis de opinión sobre los comentarios extraídos.
Código: https://github.com/jg-fisher/redditSentiment
Análisis de opinión de las revisiones de Slack usando R
Imaginemos que somos el equipo de Slack y estamos buscando una
manera fácil y confiable de obtener datos sobre los sentimientos
de los usuarios sobre nuestro producto. Podemos recurrir a las
revisiones en línea para responder algunas preguntas importantes.
Pero, cuando hay miles de reseñas, puede ser difícil clasificar todos
estos comentarios y obtener la información que estamos
buscando. Simplemente hay demasiados comentarios para
procesar manualmente.
Con esto en mente, hemos proporcionado una guía paso a paso de
cómo se puede llevar a cabo una fisuras análisis de los sentimientos
de los exámenes de parafina utilizando R .
Analiza algunos miles de revisiones de Slack en el sitio de revisión
de productos Capterra y obtiene una gran información de los datos.
Análisis del sentimiento del estado de la Unión con R
Kaggle es un gran recurso para todo tipo de tutoriales relacionados
con la ciencia de datos. En este análisis del sentimiento en el tutorial de
R de Rachael Tatman, puede aprender cómo el autor analizó el
sentimiento del discurso del Estado de la Unión, que es un discurso
anual dado por el Presidente de los Estados Unidos al Congreso.
Este mensaje es una oportunidad para que el presidente informe a
los ciudadanos estadounidenses (y al mundo) sobre cómo le está
yendo al gobierno con respecto a asuntos que son importantes
para los Estados Unidos.
Al analizar los diferentes mensajes de estos discursos del Estado de
la Unión, es posible obtener muchas ideas interesantes, como
cómo ha cambiado el sentimiento con el tiempo o qué presidentes
recibieron más comentarios negativos o positivos.
Las armas de elección en este tutorial son el paquete Tidytext para
usar un léxico de sentimientos y el paquete ggplot2 para crear las
diferentes visualizaciones de nuestro análisis.
Como primer paso, el autor procede a tokenizar los datos, lo que
básicamente significa tomar el texto de los discursos y dividirlo en
sus palabras individuales. Luego, compara estos tokens con una
lista de palabras con sentimientos positivos o negativos asociados
(un léxico de sentimientos) y crea algunas visualizaciones usando el
paquete ggplot.
Al final del tutorial, el autor proporciona algunos ejercicios que son
útiles para obtener práctica adicional y una comprensión más
profunda del análisis de sentimientos.
Análisis de sentimientos de Tweets usando NLTK
Si eres un codificador de Python y quieres aprender a entrenar tu
primer clasificador de texto para el análisis de sentimientos, hay
una guía paso a paso sobre el análisis de sentimientos de Twitter
usando Python y NLTK . El autor utiliza Natural Language
Toolkit NLTK para entrenar a un clasificador que puede predecir el
sentimiento de un nuevo tweet.
Para comenzar, el autor explica cómo extraer una lista de
características de un conjunto predefinido de tweets positivos y
negativos. Estas características son un conjunto de palabras
distintivas que se pueden usar para representar cada tweet y son
una parte clave del entrenamiento de un clasificador.
Luego, aprenderá cómo preparar los datos de capacitación que
contienen los conjuntos de características etiquetadas. Finalmente,
procede a entrenar un clasificador Naive Bayes , un algoritmo simple
pero poderoso que funciona particularmente bien con problemas
de procesamiento del lenguaje natural.
Una vez que ha entrenado a un clasificador, el autor procede a
explicar cómo usar este modelo para clasificar un nuevo tweet
entrante.
Análisis de sentimientos en canciones usando R
Si está buscando un tutorial más avanzado sobre análisis de
sentimientos utilizando R, entonces
Si está buscando un tutorial más avanzado sobre análisis de
sentimientos con R, aprenda a usar el paquete Tidytext para realizar
análisis de sentimientos en las canciones de Prince .
El autor comienza analizando información básica como la
diversidad léxica de las letras de Prince. Luego, explora diferentes
léxicos de sentimientos (incluidos AFINN , Bing y NRC ) y qué tan bien
encajan para analizar las letras de Prince. Luego, se procede a
explicar cómo realizar un análisis de sentimiento de manera
efectiva en todas las canciones de Prince. Una vez que tiene el
sentimiento, explora el sentimiento de las letras a lo largo de los
años y proporciona una explicación práctica sobre cómo los
bigrams afectan el sentimiento.
Este tutorial requiere una comprensión básica de los datos
ordenados, ya que utiliza dplyr para la transformación de datos
y ggplot2 para las visualizaciones.
Análisis de sentimientos de Tweets usando Scikit-learn y Jupyter
Notebook
Scikit-learn es una herramienta simple y eficiente para el análisis de
datos, que se utiliza con mayor frecuencia para la clasificación,
regresión y agrupación de datos. Es una de las bibliotecas más
utilizadas en el aprendizaje automático, ya que es potente pero
accesible para todos. Si realmente quiere aprender sobre análisis
de datos y aprendizaje automático, hay un tutorial fácil de seguir con
scikit-learn para ayudarlo a comenzar.
Explica cómo entrenar un modelo de regresión logística para el
análisis de sentimientos. Comienza mostrando cómo configurar
adecuadamente nuestro entorno, incluido el jupyter notebook, una
aplicación que permite la creación rápida de prototipos y el
intercambio de proyectos relacionados con datos.
Posteriormente, el autor procede a explicar cómo preparar y
vectorizar nuestros datos con scikit-learn. Finalmente, entrena un
clasificador lineal y muestra cómo evaluar el modelo y calcular la
precisión del modelo.
Análisis de sentimientos en Python usando MonkeyLearn
Aunque los marcos de código abierto son excelentes debido a su
flexibilidad, a veces puede ser una molestia usarlos si no tiene
experiencia en aprendizaje automático o PNL. La mayoría de los
frameworks de código abierto no tienen modelos previamente
entrenados que pueda usar de inmediato; Tendrás que entrenar a
uno desde cero. Además, deberá construir la infraestructura
adecuada para la capacitación y la implementación del modelo de
modelos de aprendizaje automático.
En cambio, es mejor que pruebe una API SaaS para el análisis de
sentimientos, como MonkeyLearns. Aprenda cómo hacer análisis de
sentimientos con Python usando la API de MonkeyLearn y comience a
usar un modelo de análisis de sentimientos preconstruido con solo
seis líneas de código. Luego, entrene su propio modelo de análisis
de sentimientos personalizado con la interfaz de usuario fácil de
usar de MonkeyLearn.
Tutoriales de análisis de sentimientos para personas
no técnicas
Hasta hace poco, el análisis de sentimientos era una tecnología de
nicho solo accesible para técnicos con habilidades de codificación y
experiencia en aprendizaje automático. Este ya no es el caso
gracias al aumento de una variedad de herramientas de análisis de
sentimientos fáciles de usar.
Los siguientes tutoriales pueden ayudarlo a comenzar con el
análisis de sentimientos sin una sola línea de código.
Análisis de sentimientos con Excel
Si bien todos sabemos cómo agrupar números con funciones de
Excel, analizar texto en hojas de cálculo sigue siendo un proceso
difícil y manual. Toma mucho tiempo dar sentido a los datos de
texto para crear informes y analizar tendencias. Pero
afortunadamente, hay una mejor manera. En lugar de pasar horas
revisando cada fila, analizando cada texto manualmente, puede
usar el análisis de sentimientos con Excel para ahorrar tiempo y hacer
más cosas.
MonkeyLearn te respalda, proporcionando una forma rápida y
sencilla de ejecutar análisis de sentimientos en tus hojas de cálculo de
Excel .
Primero, debe seleccionar un modelo de análisis de
sentimientos. Puede usar un modelo de análisis de sentimientos
previamente capacitado o crear su propio modelo creado con sus
propias etiquetas y criterios.
Luego, solo necesita cargar su archivo de Excel para ejecutar el
análisis de sentimientos con el modelo seleccionado. ¡Y
voilá! MonkeyLearn devolverá un nuevo archivo de Excel con los
datos originales más dos nuevas columnas: una con el resultado
del análisis de sentimientos y otra con la confianza del resultado.
Análisis de sentimientos con la mesa de ayuda
¿Estás interesado en conocer el sentimiento de un conjunto de
tweets? ¿O tal vez quiere entender que las respuestas de la
encuesta son positivas o negativas? No se preocupe, puede usar
herramientas de mesa de ayuda como Zapier para conectarse con
más de 1,000 aplicaciones, obtener los datos que necesita y
ejecutar su análisis de opinión.
Nuestro tutorial sobre análisis de sentimientos con Zapier lo guiará a
través de cómo crear un zap para obtener los datos que necesita y
ejecutar un análisis de sentimientos con MonkeyLearn, filtrar las
muestras por confianza para eliminar aquellas que puedan
conducir a predicciones inexactas y agregar ¡Un tercer paso para su
zap para guardar los resultados y crear todo tipo de visualizaciones
de datos!
Análisis de sentimientos en hojas de cálculo de Google
MonkeyLearn también puede activar sus hojas de Google con
análisis de sentimientos. Siga nuestra guía paso a paso, donde
explicamos cómo hacer análisis de sentimientos directamente en sus
Hojas de cálculo de Google utilizando nuestro complemento. También
repasamos algunas prácticas recomendadas y brindamos ejemplos
de cosas interesantes que puede hacer con sus datos.
Análisis de sentimientos con RapidMiner
RapidMiner es una plataforma donde puede crear procesos de
minería de datos sin ser un científico de datos
experimentado. Proporciona una interfaz de usuario amigable
donde puede crear flujos de trabajo de análisis de datos
completos, incluida la carga de datos, la ejecución de modelos de
aprendizaje automático y la creación de visualizaciones. Es fácil de
usar y alguien sin habilidades de codificación puede crear
rápidamente procesos automatizados y análisis de datos.
Hacer análisis de sentimientos con RapidMiner es bastante sencillo
con la extensión MonkeyLearn .
Primero, debe agregar los datos (es decir, una fuente) de su
computadora a RapidMiner. Puede cargar datos de un archivo CSV,
una base de datos o utilizar otras fuentes de datos disponibles en
el mercado de RapidMiner para importar datos de fuentes como
Facebook, SAS, Tableau y otros.
Como segundo paso, debe agregar el operador de clasificación
MonkeyLearn y conectarlo a la entrada (sus datos). Este operador
le permite usar clasificadores de texto disponibles en
MonkeyLearn, incluidos aquellos capacitados específicamente para
el análisis de sentimientos.
Finalmente, debe conectar la salida del operador de clasificación
MonkeyLearn al puerto de resultados, haga clic en 'ejecutar' y
¡listo! Aquí hay una introducción más completa sobre cómo configurar
la extensión Rapidminer para MonkeyLearn .
Próximos pasos: literatura de investigación
Hasta ahora, ha leído sobre los conceptos básicos del análisis de
sentimientos, ha tenido experiencia de primera mano con los
modelos de análisis de sentimientos y posiblemente ha
configurado el análisis de sentimientos utilizando uno de los
tutoriales anteriores.
Ahora puede estar ansioso por subir de nivel sus habilidades y
aprender más sobre el análisis de sentimientos. En ese caso, el
siguiente paso sería profundizar en la investigación y la literatura
científica.
Artículos sobre análisis de sentimientos
La literatura sobre el análisis de sentimientos es masiva; Existen
más de 55,700 artículos académicos, artículos, tesis, libros y
resúmenes.
Los siguientes son los documentos más frecuentemente citados y
leídos en la comunidad de análisis de sentimientos en general:
Minería de opinión y análisis de sentimientos (Pang y Lee, 2008)
Reconociendo la polaridad contextual en el análisis de sentimientos a
nivel de frase (Wilson, Wiebe y Hoffmann, 2005).
Una encuesta de minería de opinión y análisis de sentimientos (Liu y
Zhang, 2012)
Análisis de sentimientos y minería de opinión (Liu, 2012)
Libros sobre análisis de sentimientos
Bing Liu es una eminencia en el campo y ha escrito un libro sobre
análisis de sentimientos y minería de opinión que es muy útil para
aquellos que comienzan la investigación sobre análisis de
sentimientos. Liu hace un trabajo maravilloso al explicar el análisis
de sentimientos de una manera que es altamente técnica, pero
comprensible. Liu cubre diferentes aspectos del análisis de
sentimientos, incluidas las aplicaciones, la investigación, la
clasificación de sentimientos mediante el aprendizaje supervisado
y no supervisado, la subjetividad de las oraciones, el análisis de
sentimientos basado en aspectos y más.
Cursos y conferencias
Otra buena manera de profundizar con el análisis de sentimientos
es dominar sus conocimientos y habilidades en el procesamiento
del lenguaje natural (PNL), el campo de la informática que se centra
en la comprensión del lenguaje 'humano'.
Al combinar el aprendizaje automático, la lingüística computacional
y la informática, la PNL permite que una máquina entienda el
lenguaje natural, incluidos los sentimientos, evaluaciones, actitudes
y emociones de las personas del lenguaje escrito.
Hay una gran cantidad de cursos, conferencias y recursos
disponibles en línea, pero el curso esencial de PNL es el curso
Stanford Coursera de Dan Jurafsky y Christopher Manning . Al tomar este
curso, obtendrá una introducción paso a paso al campo por parte
de dos de los nombres más reconocidos en la comunidad de PNL.
Si desea un curso más práctico, debe inscribirse en Data Science:
Natural Language Processing (NLP) en Python on Udemy. Este curso le
ofrece una buena introducción a la PNL y lo que puede hacer, pero
también lo hará construir diferentes proyectos en Python, incluido
un detector de spam, un analizador de opiniones y un artículo
giratorio. La mayoría de las conferencias son realmente cortas (~ 5
minutos) y el curso logra el equilibrio correcto entre contenido
práctico y teórico.
Conjuntos de datos de análisis de
sentimientos
La parte clave para dominar el análisis de sentimientos es trabajar
en diferentes conjuntos de datos y experimentar con diferentes
enfoques. Primero, necesitará obtener datos y adquirir un conjunto
de datos que usará para llevar a cabo sus experimentos.
Los siguientes son algunos de nuestros conjuntos de datos de
análisis de sentimientos favoritos para experimentar con el análisis
de sentimientos y un enfoque de aprendizaje automático. Están
abiertos y se pueden descargar gratis:
Revisiones de productos : este conjunto de datos consta de
unos pocos millones de reseñas de clientes de Amazon con
calificaciones de estrellas, muy útiles para entrenar un modelo
de análisis de sentimientos.
Reseñas de restaurantes : este conjunto de datos consta de 5,2
millones de reseñas de Yelp con estrellas.
Reseñas de películas : este conjunto de datos consta de 1,000
críticas procesadas positivas y 1,000 negativas. También
proporciona 5,331 frases / fragmentos procesados positivos y
5,331 negativos.
Revisiones de comida fina : este conjunto de datos consta de ~
500,000 revisiones de comida de Amazon. Incluye información
del producto y del usuario, clasificaciones y una versión de texto
sin formato de cada revisión.
Sentimiento de las aerolíneas de Twitter sobre Kaggle : este
conjunto de datos consta de ~ 15,000 tweets etiquetados
(positivo, neutral y negativo) sobre las aerolíneas.
Primer sentimiento de Twitter del debate republicano : este
conjunto de datos consta de ~ 14,000 tweets etiquetados
(positivo, neutral y negativo) sobre el primer debate republicano
en 2016.
Si está interesado en un enfoque basado en reglas, la siguiente es
una lista variada de léxicos de análisis de sentimientos que serán
útiles. Estos léxicos proporcionan un conjunto de diccionarios de
palabras con etiquetas que especifican sus sentimientos en
diferentes dominios. Los siguientes léxicos son realmente útiles
para identificar el sentimiento de los textos:
Léxicos de opinión para 81 idiomas : este conjunto de datos
contiene léxicos de opinión positivos y negativos para 81
idiomas.
SentiWordNet : este conjunto de datos contiene alrededor de
29,000 palabras con un puntaje de opinión entre 0 y 1.
Léxico de opinión para el análisis de sentimientos : este conjunto
de datos proporciona una lista de 4,782 palabras negativas y
2,005 palabras positivas en inglés.
Diccionario de opinión de Wordstat : este conjunto de datos
incluye ~ 4800 palabras positivas y ~ 9000 palabras negativas.
Emoticon Sentiment Lexicon : este conjunto de datos contiene
una lista de 477 emoticones etiquetados como positivos,
neutros o negativos.
Herramientas de análisis de sentimientos y
API
Existen múltiples opciones en los sistemas de análisis de opinión
que se pueden consumir a través de una API o una interfaz de
usuario. En términos generales, se pueden clasificar en dos
categorías diferentes:
Bibliotecas de código abierto
Herramientas SaaS
Bibliotecas de código abierto
Dentro de las bibliotecas de código abierto, hay lenguajes de
programación como Python o Java que están particularmente bien
posicionados, ya que tienen una fuerte comunidad de ciencia de
datos y, como resultado, bibliotecas de código abierto para la
ciencia de datos, incluido el procesamiento del lenguaje natural. En
todos estos casos, debe tener un sólido conocimiento del
aprendizaje automático y la programación para poder utilizar las
bibliotecas con éxito.
API de análisis de opinión para Python
Python es uno de los principales lenguajes de programación para la
ciencia de datos y tiene una comunidad sólida y un gran conjunto
de opciones para implementar modelos de PNL.
Los siguientes son ejemplos notables:
Scikit-learn es la biblioteca de acceso para Machine Learning y tiene
herramientas útiles para la vectorización de texto. Entrenar un
clasificador sobre las vectorizaciones como frecuencia o
vectorizadores de texto tf-idf es muy sencillo. Scikit-learn tiene
implementaciones para Support Vector Machines, Naïve Bayes y
Logistic Regression, entre otras.
NLTK ha sido la biblioteca tradicional de NLP para Python. Tiene una
comunidad activa y, además de proporcionar funciones de bajo
nivel para PNL, también ofrece la posibilidad de entrenar
clasificadores de aprendizaje automático.
SpaCy es otra biblioteca de PNL reciente con una comunidad en
crecimiento. Al igual que NLTK, proporciona un conjunto sólido de
funciones de bajo nivel para PNL y soporte para la formación de
clasificadores de texto.
Con la tendencia de Deep Learning, en los últimos años, se ha
desarrollado un nuevo conjunto de bibliotecas de ciencia de datos
que tienen soporte para aplicaciones de PNL. Algunos de los más
notables:
TensorFlow . Desarrollado por Google, proporciona un conjunto de
herramientas de bajo nivel para construir y entrenar redes
neuronales. También hay soporte para la vectorización de texto,
tanto en la frecuencia de palabras tradicionales como en
incrustaciones de palabras más avanzadas.
Keras proporciona abstracciones útiles para trabajar con múltiples
tipos de redes neuronales como redes neuronales recurrentes (RNN)
y redes neuronales convolucionales (CNN) y apilar fácilmente capas de
neuronas. Keras se puede ejecutar sobre Tensorflow o
Theano. También proporciona herramientas útiles para la
clasificación de texto.
PyTorch es un marco reciente de Deep Learning respaldado por
algunas organizaciones prestigiosas como Facebook, Twitter,
Nvidia, Salesforce, la Universidad de Stanford, la Universidad de
Oxford y Uber. Rápidamente ha desarrollado una comunidad
fuerte.
API de análisis de opinión en Java
Java es otro lenguaje de programación con una comunidad sólida
en torno a la ciencia de datos con bibliotecas notables de ciencia de
datos para PNL.
OpenNLP : un conjunto de herramientas que admite las tareas
de PNL más comunes, como la tokenización, la segmentación de
oraciones, el etiquetado de parte del discurso, la extracción de
entidades con nombre, la fragmentación, el análisis, la detección
de lenguaje y la resolución de coreferencia.
Stanford CoreNLP : un conjunto Java de herramientas básicas
de PNL proporcionadas por The Stanford NLP Group.
Lingpipe : un kit de herramientas de Java para procesar texto
usando lingüística computacional. LingPipe se usa a menudo
para la clasificación de texto y la extracción de entidades.
Weka : un conjunto de herramientas creadas por la
Universidad de Waikato para el procesamiento previo de datos,
clasificación, regresión, agrupamiento, reglas de asociación y
visualización.
Herramientas SaaS de análisis de sentimientos
Implementar un sistema de análisis de sentimientos desde cero no
es una tarea fácil. Por lo general, las empresas necesitan gastar
mucho tiempo, dinero y recursos en lo siguiente:
Un equipo de ciencia de datos.
Un equipo de desarrollo.
Implementar y escalar la infraestructura para entrenar y
ejecutar los modelos.
Implementación e implementación de una API para consumir
los modelos.
Implementación de herramientas para etiquetar ejemplos de
capacitación.
Ajuste de los hiperparámetros del modelo.
Si desea evitar estas molestias o no sabe cómo codificar, una
excelente alternativa es utilizar herramientas SaaS de análisis de
sentimientos. Puede usarlos fácilmente desde cualquier sistema a
través de su API, junto con cualquier lenguaje de
programación. Hay muchos lenguajes de programación donde se
construye el software, pero pocos de ellos tienen bibliotecas
sólidas para la ciencia de datos. Otra ventaja clave de estas
herramientas es que ni siquiera necesita saber cómo
codificar; Proporcionan integraciones con aplicaciones de terceros
como Google Sheets, Excel y Zapier para que pueda usar el análisis
de sentimientos de inmediato para analizar los datos.
La siguiente es una lista de herramientas de análisis de
sentimientos que vale la pena echar un vistazo:
MonoAprende
Google Cloud NLP
IBM Watson
Amazon Comprehend
Lexalytics
Aylien
SignificadoCloud
Rosetón
Palabras de despedida
El análisis de sentimientos se puede aplicar a innumerables
aspectos de los negocios, desde el monitoreo de marca y el análisis
de productos, hasta el servicio al cliente y la investigación de
mercado. Al incorporarlo a sus sistemas y análisis existentes, las
marcas líderes (sin mencionar ciudades enteras) pueden trabajar
más rápido, con mayor precisión, hacia fines más útiles.
El análisis de sentimientos ha ido más allá de un simple capricho
interesante y de alta tecnología, y pronto se convertirá en una
herramienta indispensable para todas las empresas de la era
moderna. En última instancia, el análisis de sentimientos nos
permite obtener nuevas ideas, comprender mejor a nuestros
clientes y capacitar a nuestros propios equipos de manera más
efectiva para que realicen un trabajo mejor y más productivo.