Topic modeling en twitter: determinación de la agenda política peruana en el
periodo de enero a setiembre del 2018
Topic modeling on twitter: determination of the peruvian political agenda in the
period from January to September 2018
DOI: http://dx.doi.org/10.21704/ac.v80i2.1446
Autor de correspondencia (*): Gamboa, J. Email: jgamboa@lamolina.edu.pe
© Universidad Nacional Agraria La Molina, Lima, Perú.
Forma de citar el artículo: Gamboa, J. 2019. Topic modeling en twitter: determinación de la agenda política
peruana en el periodo de enero a setiembre del 2018. 
Jesús Eduardo Gamboa Unsihuay
1*
1
Universidad Nacional Agraria La Molina, Lima, Perú. Email: jgamboa@lamolina.edu.pe
Recepción: 14/01/2018; Aceptación: 05/06/2019
Resumen
El objetivo de esta investigación fue determinar los temas abordados por los distintos grupos
de la clase política peruana a través del análisis de los contenidos compartidos por sus
miembros en sus cuentas de Twitter, en el periodo de enero a setiembre del 2018, haciendo
uso de la técnica de minería conocida como modelo de temas (Topic Modeling) y el modelo
de asignación latente de Dirichlet. Se encontró que tres cuartas partes de los contenidos

de Fuerza Popular y los grupos parlamentarios de izquierda, la corrupción judicial, las
funciones de representación parlamentaria y eventos que sucedieron durante los meses de
verano; asimismo, se encontraron diferencias en los temas de mayor divulgación entre los
grupos políticos. Luego de contrastar dichos hallazgos con los acontecimientos ocurridos
en la realidad, se concluyó que la metodología propuesta permite efectivamente detectar los
tópicos de la agenda política a partir de un gran volumen de textos.
Palabras clave: minería de texto; segmentación; modelamiento de temas; Twitter; agenda
política; Perú.
Abstract

of the Peruvian political class, through the analysis of the content shared by its members
on their Twitter accounts in the period from January to September 2018 making use of the
mining technique known as Topic Modeling and the Dirichlet’s Allocation Latent model.
The research found that three quarters of the textual content refers to the management of the
Executive and Legislative Power, the party activities of Fuerza Popular and the parliamentary


Website: http://revistas.lamolina.edu.pe/index.php/acu/index


Gamboa, J. / Anales Cientícos 80(2): 308-327 (2019)

groups of the left, judiciary corruption, the parliamentary representation functions and events
that took place during the summer season (January and February). In addition, there are
           


Keywords: text mining; clustering; topic modeling Twitter; political agenda; Perú.
1. Introducción
La minería de textos comprende el uso
de modelos y algoritmos que permiten
extraer el conocimiento implícito de datos
textuales. Dichos patrones pueden referirse
al comportamiento (qué hacen o sobre qué
     
sienten u opinan) de los autores (Mateo,
2016). Por otro lado, la información en
formato textual, especialmente aquella
que es compartida en redes sociales, viene
creciendo rápidamente en los últimos años.
En particular, Twitter es un servicio de
microblogging (envío de mensajes cortos)
cuyo alcance e impacto es mucho mayor que
los medios de comunicación tradicionales
(Farías, 2017).
En lo que respecta al uso de datos
textuales para análisis político, Grimmer
(2009) emplea el “modelo de Agenda
     
los tópicos expuestos por senadores
estadounidenses a partir de sus comunicados
de prensa, mientras que Yano et al. (2009)
aplican modelo de temas en datos extraídos
de blogs políticos. Montesinos (2014) utiliza
análisis de sentimientos en datos de Twitter
en el contexto de elecciones presidenciales
en Chile. De manera similar, Pla & Hurtado
(2014) 

de Twitter. Fang et al. (2015) realiza un
procedimiento semejante, pero en usuarios
escoceses. En Latinoamérica, Alvarado et
al. (2016) aplica análisis de sentimiento
en datos de Twitter durante la campaña
política por la alcaldía de Bogotá. Uno de
los trabajos más recientes en el área política
corresponde a Greene & Cross (2017),
quienes hacen uso del modelamiento de
temas de manera dinámica con el propósito
de determinar el contenido de los discursos
plenarios de los parlamentarios europeos
durante el periodo de 1999 a 2014. En Perú,
Sigueñas (2016) presentó una conferencia
acerca de Topic Modeling aplicado a
discursos presidenciales. Más aplicaciones
locales de minería de texto pueden ser
encontradas en el artículo de Linares et al.
(2015) quienes exponen un caso de análisis
de sentimientos basado en datos de Twitter,
con el propósito de estudiar los deseos de
los turistas por visitar Perú. Por otro lado,
    usan la minería
de textos para comprender, a través de
cuestionarios abiertos, cómo los estudiantes
y de bibliotecología perciben la formación
que se les brinda, mientras que Cárdenas et
al. (2015, 2018) presentan una aplicación de
Topic Modeling en el área industrial.
Entretanto, el ambiente político peruano
del año 2018 viene siendo más convulso que
el de los años anteriores, constituyéndose
en una crisis política a causa de la
corrupción ( ), la cual
se ha evidenciado en los escándalos por el
caso Odebrecht (Diario Gestión, 2018), los
pedidos de vacancia (Diario El Comercio,
2017; Diario Correo , 2018) y la posterior
renuncia de Pedro Pablo Kuczynski a
la presidencia de la República (Diario
La República, 2018b), la revelación de
videos en los que se negociaban votos de
congresistas (Diario El Comercio, 2018a)
y la difusión de audios que dejaban al
descubierto la corrupción en el Consejo
Topic modeling en twitter: determinación de la agenda política peruana en el periodo de enero a setiembre del 2018


Nacional de la Magistratura (Diario El
Comercio, 2018c). Como consecuencia de
este entorno político complejo, el contenido
de texto disponible se incrementa y su lectura
se hace una labor difícil, ya que además la
     
interés en la política (Diario Perú21, 2018c).
Por este motivo, es trascendente el uso de
herramientas analíticas de texto, tales como
Topic Modeling, que permitan resumir el
contenido textual y así conocer la agenda
política de nuestros representantes. Así, el
objetivo de esta investigación es extraer los
principales temas abordados por los grupos
políticos a partir de los textos compartidos
por sus principales representantes, en sus
respectivas cuentas de Twitter, en el periodo
de enero a setiembre del 2018.
2. Materiales y métodos
Materiales empleados
Para el desarrollo de la presente investigación
se hizo uso de una computadora portátil con

GB de memoria RAM. En este ordenador
se trabajó con el software R en su versión

Además, fue necesario contar con una
aplicación en una cuenta de Twitter, cuyas
credenciales sirvieron para realizar la
conexión entre el software (R) y la API de
Twitter.
Metodología
      
del estudio, se llevó a cabo las siguientes
tareas: extracción de documentos, limpieza
y estructuración de datos, modelamiento
de temas mediante la asignación latente de
Dirichlet, selección del número de temas y
su interpretación.
a) Extracción de documentos
Un documento es una secuencia de tokens,
los cuales, a su vez, son una secuencia
ininterrumpida de caracteres, siendo una
palabra un ejemplo representativo de
token. Para la investigación se consideró
como documento al conjunto de las
publicaciones realizadas en Twitter, durante
cada semana, por cada uno de los 141
políticos pertenecientes al Poder Ejecutivo
(EJE) o que son integrantes de uno de los
siguientes grupos parlamentarios (en orden
alfabético): Acción Popular (AP), Alianza
por el Progreso (APP), Célula Parlamentaria
Aprista (APRA), Frente Amplio por Justicia,

No agrupados (NAG), Nuevo Perú (NP)
y Peruanos por el Kambio (PPK). Así,

del año 2018 y los 9 grupos políticos, se

conformaron el corpus de la investigación.
La extracción de los tuits se realizó en el
software R, haciendo uso del paquete rtweet,
mediante el cual se realizó la lectura de las
credenciales de acceso a la aplicación en
Twitter y se accedió al contenido compartido
de manera pública por los 141 políticos.
b) Limpieza y estructuración de datos
Los datos textuales son considerados en la
categoría de datos no estructurados ya que
están almacenados en un formato que no
es adecuado para su análisis, sin embargo,
es posible su limpieza, eliminando y
convirtiendo ciertos caracteres que pueden
ser considerados como ruido en el análisis.
Entre las tareas de limpieza, que fueron
ejecutadas en R por los paquetes tm y
topicmodels, se tuvo lo siguiente:
• Remoción de signos de puntuación
tales como los puntos (.), las comas (,),
los signos de exclamación (¡!), los dos
puntos (:), las comillas (“ ”), etc. Así
también caracteres numéricos, tildes,
enlaces web, marcadores HTML, entre
otros.

Gamboa, J. / Anales Cientícos 80(2): 308-327 (2019)

• Retiro de palabras que no aportan al
    
stopwords o palabras vacías, por
ejemplo, preposiciones (a, de, en, para,
por, sin, …), artículos (el, la, un, …),
conjunciones (aunque, luego, ni, que,
pero, y, …).
• Conversión de mayúsculas en
minúsculas y uniformización del espacio
entre palabras o tokens.
La tarea posterior a la limpieza de textos es
su estructuración, la cual consiste en obtener
una matriz de términos de documento. Esta
matriz contiene las frecuencias de aparición
de las palabras del vocabulario en cada
documento y fue obtenida utilizando el
paquete tm del software R.
c) Modelamiento
La Asignación Latente de Dirichlet (ALD),
propuesta por Blei et al , es un
modelo probabilístico para conjuntos de
datos discretos tales como los documentos
de texto. Mediante este modelo se asume
que un documento es generado por una
mixtura de tópicos y que cada uno de
estos es construido en base a una mixtura
de palabras. Además, de acuerdo con
Heinrich (2008), el aprendizaje se realiza
de manera no supervisada ya que los temas
no son conocidos de antemano, por ello se
dice que la asignación de estos temas es
latente y su comportamiento probabilístico
(mixtura) es explicado por una distribución
Dirichlet cuyos parámetros son estimados
por el modelo. A diferencia de una técnica
tradicional de segmentación, la ALD no
restringe la asociación de un documento a
un único tema en particular.
El modelo generador de documentos
funciona de la siguiente manera:
1. Se asume que el corpus está compuesto
por D documentos, cada uno de los
cuales es generado por una mixtura de
k
temas, es decir
, d = 1, ...,
D, siendo α=α
1
...α
K
un hiperparámetro.
  Steyvers (2004), así como
Grün y Hornik (2011), sugieren el
 
k
= 50/k como valor inicial, el
cual es establecido por defecto en R,
mientras que Grimmer (2009) propone
el modelamiento jerárquico, asignando la


1

1

D
)
es la
matriz de dimensión K X D que contiene
     
    
Para la aplicación en datos de Twitter se
consideró que la cantidad de documentos
es D=
K=20, según los criterios de selección del
número de temas que serán presentados
en la siguiente sección.
2. 
documento (W
d,n
) debe ser generada
a partir de un tema (Z
d,n
), el cual se
muestrea a partir de una distribución
multinomial con parámetro
d
la
mixtura del paso previo mediante
3. Las palabras que explican cada tema
vienen dadas por la mixtura
,
k = 1, ...; K donde
β
k
=
1k...
β
vk
)es
el hiperparámetro, al que se le asigna el
valor de β
w,k
=0.1según recomendación
de     y de
Grün & Hornik (2011). Por lo tanto, la
matriz

1

2

), de dimensión
K X V, muestra la probabilidad de que


4. El último paso consiste en la generación
     
documento dado que ya se generó
el tema (paso 2) y su mixtura de
      
( )
,,
~ | 1,..., ; 1,...,
dn k dn d
w Mult z k d D n N= = =
φ
Topic modeling en twitter: determinación de la agenda política peruana en el periodo de enero a setiembre del 2018


Al utilizar este algoritmo, el documento
es generado bajo el supuesto de la ´bolsa
de palabras´, el cual señala que el orden de
las palabras no aporta mayor información
al análisis. No obstante, a diferencia de la
generación de documentos en la que a partir
de los tópicos se originan los términos W
d,n
que componen los textos (corpus), en la
determinación de temas se da el proceso
inverso.
En efecto, esta determinación de temas
se realiza mediante inferencia bayesiana,
la cual consiste en la obtención de la
distribución a posteriori de las cantidades
de interés, es decir la
cual no puede ser obtenida analíticamente,
sino que debe aproximarse mediante
métodos computacionales como el
algoritmo del muestreador de Gibbs, el cual
fue empleado en esta investigación. Este
     
distribuciones condicionales completas,
sin embargo no es necesario incluir los
         
distribución a posteriori puede ser derivada
a partir de
. Heinrich (2008)
propone que el tema asignado para una
palabra depende de la asignación de
los temas de las demás palabras y del
vocabulario. De esta manera, determina que
la distribución condicional completa para la

( )
() ( )
,,
() ( )
,
11
|, ,
1
tk
ki t di k
i ii i
VK
tk
ki t d k
tk
nn
fz k w t
nn
βα
βα
−−
−−
= =
++
= = = ×
+ +−
∑∑
zw
considerando
{ }
,i dn=

la expresión, además
()
,
t
ki
n
representa el
número de veces que la palabra t ha sido
     
     
()
,
k
di
n
,
el número de veces que el tema k ha sido
observado a través de una palabra en el


Luego, la distribución de los parámetros
   
uso del teorema de Bayes. En primer lugar,
la mixtura de temas por documento resulta:
donde n
d
es el vector de frecuencias de las
K
 
d,k
es la
     
      
mixtura de palabras por tema:
donde n
k
es el vector de frecuencias de cada
      
ɸ
k,t
es la probabilidad de que

palabra. Todo el proceso de inferencia
detallado fue ejecutado en R mediante el
paquete topicmodels.
d) Selección del número de temas
    utilizan el
concepto de selección bayesiana de modelos,
aproximando la verosimilitud marginal
fk) mediante la estimación de la media
armónica de un conjunto de valores fK
k) cuando z es obtenido de la distribución
posterior fK k) mediante el muestreador
de Gibbs. Luego, plantea elegir el valor de K
que maximiza dicha verosimilitud marginal.
Por otro lado, Cao et al. (2009) propone
un indicador basado en el promedio de las

Gamboa, J. / Anales Cientícos 80(2): 308-327 (2019)

correlaciones en pares de los temas, debiendo
ser elegido el valor de K que minimiza
dicha correlación promedio. Arun et al.
(2010) considera al modelo de ALD como
un método en el que la matriz de términos de
documentos se factoriza en una matriz M
1
de
dimensión K X V y otra M
2
de dimensión D X
K. El indicador sugerido por Arun se basa en

de las distribuciones de valor singular de M
1
y L
1XD
donde L
1XD
es un vector que contiene
el número de términos de cada documento
del corpus. Este indicador se minimiza para
elegir el número de temas K. Finalmente,
Deveaud et al. (2014) proponen estimar el
indicador de divergencia de información
entre todos los pares de temas, el cual debe
ser maximizado. Estos cuatro indicadores
vienen implementados en el software R, en
el paquete ldatuning.
e) Interpretación de los temas
En principio, la interpretación de cada tema

que lo compone. Grimmer (2009) etiqueta los

un grupo aleatorio de documentos con alta
probabilidad de contener cada tema, también
propone usar documentos asociados a cada
tópico a través del tiempo y contrastarlos
con los acontecimientos sucedidos en la
realidad. El paquete LDAvis fue una de las
herramientas útiles para la interpretación de
temas.
Este paquete permitió obtener una
       
       
cuyo valor cercano a cero permitió señalar
las palabras de gran exclusividad en el tema
en análisis, es decir que su probabilidad de
ser parte de una mixtura que explica otro
tema es cercana o igual a cero, mientras

señalaron términos bastante frecuentes, pero
que no eran exclusivos del tema en cuestión.

0,6, permitió interpretar y dar nombre a cada
tema.
2. Resultados y discusión
Limpieza de textos
Durante el procedimiento de limpieza, el
texto original se convierte en una lista de
tokens (en minúsculas, sin tildes, números,
caracteres especiales, URL, ni signos de
puntuación) tal como se muestra en la Tabla
1.
Tabla 1. Ejemplo de limpieza de texto
Texto sin limpiar Texto limpio

grandes empresas deben
por impuestos, más de
6000 millones debe
#Telefónica (#Movistar).
Sinvergüenzas https://t.
co/rOJN0ShkJN
millones grandes
empresas deben
impuestos
millones debe
telefonica
movistar
sinverguenzas
Resultados descriptivos
Una vez que los tuits están limpios, un
primer resultado corresponde a la nube de
palabras. En las Figuras 1 y 2 se muestran
estos resultados para los meses de enero y
setiembre de 2018. En estas nubes, se observa
que las palabras más frecuentes varían según
el contexto: en enero resaltan las palabras
referidas a las reacciones frente al indulto de
Alberto Fujimori (Fowks, 2017) y la visita
del papa Francisco ( ),
mientras que en setiembre son notorios los
términos relacionados con las reformas
políticas (Diario El Comercio, 2018d), sin
embargo, aquellas palabras concernientes
al Congreso de la República (congreso, ley,
comisión) se mantienen en ambos meses.