Hoy finalmente puse en marcha el operativo “captura de tuits”. Ya contaré en un post más detallado el proceso, pero debo decir que cuando uno se da cuenta de que luego de haber escrito algunas líneas de código tiene en su máquina un archivo con los tuits y sus metadatos, es una sensación bastante satisfactoria. Es como hablar con la matrix detrás de Twitter y que te responda. ¡Vamos por algunas dataviz!

Me pareció interesante marcar un límite respecto del corpus de prueba: 1500 tuits. Quería ver qué significa ese volumen en días al menos. 3 días y 6 horas. Desde las 10:44 de la mañana del 2 de julio hasta las 4:46 de la tarde del 5 de julio, horario aproximado de la extracción. Muy por arriba podríamos decir que estamos viendo un volumen de menos de 500 tuits por día emitidos por las 40 cuentas monitoreadas. Teniendo en cuenta que todavía no estamos en campaña sería esperable que sea mayor el volumen durante la captura definitiva del corpus al actual.

Corriéndonos de los detalles metodológicos, algunas cosas interesantes para comentar mirando un eje nada más, los retuits versus los tuits.

Primeras observaciones

  • Todas las cuentas emitieron al menos un tuit en estos 3 días. – Tres de ellas sólo uno-
  • El 61,8% de los tuits fueron retuits a otros usuarios. – No esperaba tanto-
  • 4 de las cuentas sólo hicieron retuits. – Para una de ellas, además, fue el único tuit-

Como ven, tenemos una jugadora con un comportamiento bastante particular. Laura Marrone, segunda candidata a Diputada Nacional por el FIT de la Ciudad, actual legisladora, hizo 282 retuits en estos 3 días y 6 horas. Ya vamos a mirar con mayor concentración esto.

De hecho si la quitáramos el mismo gráfico se vería de una forma totalmente distinta.

Claramente no podemos quitarla, pero probar que pasaría siempre es divertido.

La izquierda y el kirchnerismo claramente dominan el escenario en términos de volumen, Néstor Pitrola (55) y Gabriel Solano (45) son los que mayor cantidad de tuits emitieron sin contar los retuits. Tercero aparece Daniel Filmus (37), cuarta Cristina Kirchner (33) y quinta Myriam Bregman (28).

Si miramos el otro extremo de la tabla, aparecen cuatro usuarios que sólo retuitearon (no generaron contenido propio): Margarita Stolbizer, Mirta Tundis, Gladys González y Carmen Polledo. 1País, Cambiemos y Vamos Juntos, la configuración trunca de Cambiemos en la Capital. Con sólo un tuit emitido las siguen Esteban Bullrich, Romina Del Plá y Felipe Solá, otra vez 1País y Cambiemos, junto a la ex contendiente de Baradel en SUTEBA y segunda candidata a Diputada Nacional por el FIT en Provincia.

¿Podemos sacar conclusiones a partir de esta data? A priori si, probablemente si la cruzamos con otras fuentes. Pero el objetivo de este corpus de prueba no es comenzar a sacar conclusiones sino evaluar que tipo de datos son con los que se van a trabajar, y empezar a ensayar formas de procesarlos para mostrar cosas.

Las variables del corpus que entrega Twitter

Por ejemplo ahora sabemos que las siguientes son las diferentes columnas que me entrega la API. La materia prima en términos de variables.

  • text
  • favorited
  • favoriteCount
  • replyToSN
  • created
  • truncated
  • replyToSID
  • id
  • replyToUID
  • statusSource
  • screenName
  • retweetCount
  • isRetweet
  • retweeted
  • longitude
  • latitude

Ya se vendrá un post específico donde describiremos cada una de ellas, pero podemos adelantar que algunas nos van a servir, y varias no.

Experimentando con dataviz en R

Por último para concluir este adelanto, esto que viene a continuación es un experimento, que no termino de comprender siquiera yo a este momento, pero creo que vale la pena compartirlo.

Esa primera base de 1500 tuits la procesé con un paquete de R llamado graphTweets que genera este tipo de gráficos de redes en función de las relaciones entre los tuits de cada cuenta (que usuarios retuitearon o contestaron tuits de otras cuentas). Por ahora muestra de forma primitivaes esta dataviz algunos clusters que claramente empiezan a aparecer, pero sin dudas hay que mejorar mucho la forma en la que se muestra la data para comprenderla mejor.

Juani Belbis

Juani Belbis

Consultor en innovación cívica y gestión de campañas electorales. Maestrando en Gestión de Contenidos de la Universidad Austral.
juanibelbis.com.ar
Juani Belbis

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Related Posts

La grieta

¿Qué #PASOenTwitter en estas dos semanas de campaña? Parte 1

Han pasado varios días desde el comienzo de la campaña, y con nuestro proceso de captura funcionando vamos a revelar algunas primeras impresiones sobre la data. Aclaraciones varias antes de comenzar: Usamos siempre la palabra Read more…

Dataviz

Todo comenzó en Medium

Este sitio nació luego de un post que publiqué en Medium que sirvió de presentación al público de la idea, dado que tuvo algunas repercusiones interesantes surgió la idea de darle un espacio propio al Read more…