El dato se construye, es un constructo, es una de las líneas que me interesa mucho trabajar en el doctorado, donde tenemos varios tipos de fuentes de datos, como las más clásicas, que son las que trabajamos desde la sociología, que son las encuestas; las estadísticas nacionales, censos, encuestas continuas, encuestas específicas que desarrolla el INE, que se desarrollan como los grandes recopiladores de datos a nivel nacional.
Después hay otro tipo de fuentes, que es un poco donde yo me especializo, como por ejemplo lo que es el texto. Como dato es como una línea que se viene trabajando, se trabaja generalmente desde la ingeniería, desde una usuaria, la ingeniería de procesamiento de lenguaje natural y una de las líneas que es el lenguaje escrito, y ahí se procesan grandes volúmenes de texto.
En la última década ha cobrado mucha fuerza lo que es el estudio del análisis de texto desde las Ciencias Sociales, que presenta algunos desafíos que tienen que ver, por ejemplo, con la masividad de datos, la tensión entre el análisis singular y masivo de datos y cómo se construye también el dato en esto, el dato como constructo, o sea, cómo yo defino mi corpus, cuál es mi unidad de análisis, etcétera.
¿Un ejemplo de ese dato de texto que hace al contenido?
Claro. Por ejemplo, el dato de texto que hago en el doctorado es el trabajo sobre documentos y colecciones documentales producidas por los servicios de inteligencia militar durante el terrorismo de Estado, durante la dictadura. Ahí vos tenés diferentes colecciones muy heterogéneas, fuentes diferentes, entonces primero tenés que ordenar, recuperar, porque generalmente son imágenes. Ahí hay todo un trabajo inicial que es pasar esas imágenes a texto, y eso se hace con algunas técnicas específicas como son el reconocimiento óptico de caracteres OCR.
Eso ya es todo un desafío, porque en una colección documental muy heterogénea hay algunas que son fichas, algunas que son declaraciones.
Se trabajan sobre métodos genéricos pero entrenados con la herramienta Luisa, que es una herramienta de transcripción colaborativa que ayuda a transcribir en sí mismo, pero también a entrenar modelos que mejoren esa transcripción, al ser un dominio muy específico y hacer datos muy masivos, porque estamos hablando de tres millones de documentos.
Se debe realizar el análisis en función de qué colección documental es, qué características tiene la información, la forma de registro no es la misma; hay otro tipo de fuentes que a mí me interesa mucho trabajar que son las redes sociales.
Ahí hay muchos datos que se pueden construir en esto del dato como constructo. Cuando fue lo de la Ley de Urgente Consideración, la LUC, por ejemplo, hicimos un mirador de Twitter (X); los datos de X eran de acceso libre, vos podías conectarte a la API, que es el punto de conexión para obtener datos, y bajar todos los tweets. Esto cambió hace un año, está más restringida lo que es la bajada de datos, pero te permitía tener por ejemplo un tablero, un dashboard, donde podías ver en tiempo real la discusión, la polarización, la interacción de las cuentas, cuáles eran las cuentas que más retweets generaban, las cuentas influenciadoras de la red social, etc. Y después otro tipo de redes; por ejemplo, esto que hice con Cabildo Abierto, que tiene que ver con sacar datos de la web, posteos públicos de la cuenta pública de Manini Ríos -que él iba registrando todos los lugares donde iba- y ahí detectar localidades y georreferenciarlas, mapearla.
De esos datos ¿cuáles son los relevantes?
Relevantes en Twitter, por ejemplo, el análisis de las interacciones, quién retwittea, cómo se van generando comunidades de retweets en función de determinados temas que polarizan más, digamos, en clave de red lo podés analizar; y después otra línea es lo que es análisis de texto puramente dicho, o sea qué decís, que más allá de cómo interaccionan esas cuentas; qué mensaje se emite. Identificar sentimientos es un análisis clásico de Twitter, o sea, de identificación de discurso, de mensajes de odio y cómo se identifican o clasifican los que podrían ser problemáticos de alguna manera.
En ese sentido ¿qué tanto inciden en Uruguay los troles?
Hay herramientas que te permiten identificar al punto de conexión, o se toman en cuenta algunas variables predictoras, entrenadas para saber distinguir entre un usuario común y un trol, o cuándo se había creado la cuenta, algunas características, cuánto twitteaba… entonces te permitirá saber si esa cuenta es falsa o no.
Por ejemplo, cuando analizamos durante la LUC, encontramos que no tenían tanto peso acá en Uruguay (sí en otros países), las cuentas falsas; capaz que para las campañas políticas nacionales tienen más relevancia.
Muchos candidatos están “desembarcando” en la aplicación Tik Tok.
Sí, Tik Tok es un desafío, ahí yo no sé tanto. Estoy muy interesada porque la forma de interacción es bien diferente. En Chile el año pasado había tenido una influencia bastante importante en esto de cómo humanizar al candidato, conectar con el público joven.
La lógica del algoritmo es más refinada, llega más a un público en función de los intereses, no tanto de las interacciones que tenga.
No he trabajado con datos de Tik Tok, pero sí me interesa esa línea, porque hay un análisis que detectó un público que es el de Facebook, otro que es el de Instagram, entonces hay que armar todo el cuadro. Recoger fuentes de diferentes lados es importante porque eso te permite llegar a perfiles bien diferentes y las distintas interacciones.
El año pasado hice un análisis de las declaraciones presidenciales en YouTube; lo que hice fue bajarme los discursos desde que Lacalle Pou es presidente hasta agosto, con las transcripciones que permite YouTube.
Analicé cuáles eran las palabras, los objetivos, las categorías gramaticales; o sea, cuáles eran las palabras que más utiliza el presidente, de asociación de palabras, por ejemplo, cuando decía “libertad”, con qué se asociaba, y ahí encontré que se asociaba generalmente con religión.
Esta interpretación o este análisis de los datos desde las ciencias sociales le da un marco interpretativo, que no es solo la técnica de saber bajarse todas estas cosas sino para qué lo usas, qué hipótesis tiene por detrás o que está buscando, qué le preguntas a esos datos.
Hay nichos de datos que se pueden utilizar y en un contexto de campaña eso es muy relevante.
Por ejemplo, ver un ruteo de candidato en territorio (eso que hice para Manini), extenderlo en campaña para muchos candidatos y poder estudiarlo con información pública que emiten los propios candidatos se puede hacer. Entonces hay como mucha información que está ahí, pero hay que construirla, analizarla.
Una vez recopilados los datos y comprendidos cuáles son sus posibilidades de uso específico en una campaña electoral, ¿qué tanto puede influenciar en los resultados electorales?
Nosotros somos como generadores de datos, analizadores de datos. Después, cómo se usa políticamente en las campañas corre por cuenta de quien quiera. La comunicación política y toda esa área es algo en lo que nosotros no entramos.
Pero sí te permite anticiparte. Por ejemplo, si vos haces un análisis de temas, cuáles son los principales temas. Si analizas medios de comunicación, que es otra de las grandes fuentes que nosotros trabajamos en determinados territorios, en una región o determinado departamento, saber que determinados temas son relevantes, otros no, entonces te permite anticiparte.
Y las redes sociales también, como complemento hoy lo tenés un poco de lo que es la discusión pública en medios de comunicación, eso te puede dar ciertos marcos de entendimiento que pueden colaborar a los contenidos de una campaña política.
Se me ocurre que por un lado hay una serie de temas que los candidatos, los dirigentes de los partidos políticos intentan imponer en la campaña. Y otra cosa es el universo de la gente no politizada o que no forma parte de esos aparatos, donde sus intereses van por otro lado, y se les crean necesidades que no tenían.
Exacto; una cosa son los temas de la gente y los temas dirigidos. Ahí el político quiere saber sobre un tema que yo incluyo a mi campaña, qué reacción tiene y cómo lo ve la gente, digamos en la interacción, por ejemplo, en redes sociales o cómo se trabaja en los medios, o si tiene cierta presencia en los medios o no. Y después el proceso inverso: saber qué emergentes hay, incorporarlo en la campaña… o sea, están las dos cosas.
Puedes tener alguna perspectiva más territorial, los diferentes territorios que generalmente las campañas trabajan de determinados temas en poblaciones específicas, diferentes perfiles de votantes.
Yo creo que la ventaja de hacerlo desde las ciencias sociales es darle como un pienso, triangular técnicas, porque nosotros no solo trabajamos con datos cuantitativos o datos textuales, sino que también lo interesante de esto es la triangulación con métodos tradicionales, con métodos cualitativos.
En los años 60 fue como el furor hasta fines del siglo. Aquel concepto de los mensajes subliminales, que era como poner una serie de contenidos en una inyección que se daba a la opinión pública, pero las redes parecen ser como un espacio más difícil para eso.
La lógica de interacción es muy diferente en cada una de las redes, por lo menos las que hay hoy en día. X tiene una lógica de que se enciende “la llama”, se habla mucho de determinada cuestión y después como que se apaga, y si bien no es representativa, por ejemplo a nivel poblacional, o sea, es un porcentaje muy bajo, sí es un lugar donde hay gente con mucha influencia, entonces determinados temas empiezan en Twitter y después permean los diferentes medios.
TikTok es la más dinámica y la captación de la atención está mucho más en disputa, tiene una lógica mucho más instantánea y dinámica; y Facebook e Instagram también tienen sus propias dinámicas, y eso define a los sectores a los que les querés llegar.
Y voy entendiendo las dinámicas sociales desde esta perspectiva y complementando con técnicas tradicionales que te dan otras voces. Entonces, en toda esa interacción, digamos técnica y metodológica, está la riqueza.
¿Cuánto puede influir en el resultado electoral?
Es un tema que no he estudiado directamente, pero sospecho que cada vez estamos frente a campañas más afectivas, donde lo que pesa a la hora de votar no es tanto lo racional, sino lo afectivo, de identificación con determinado candidato. Entonces muchas redes tienen esta lógica de apuntar a la humanización del candidato y ese tipo de cosas.
Además el voto todavía tiene esto de “me informo por mi familia, mis vecinos”, es más la influencia de lo cercano a la hora de decidir a quién votar.
Creo que todas las vías tradicionales siguen teniendo bastante peso, pero no para conocer a determinados candidatos. Cuando te vas al interior, el conocimiento en sí de candidatos es muy poco, o sea, el conocimiento de los políticos nacionales, incluso en ciudades grandes, es bajo y nos sorprendía bastante en el sentido de que muchas veces hay desconexión con los medios de información.
¿En el análisis de texto se nota una pérdida de su calidad y de sus contenidos?
El año pasado estuve en una conferencia en Estados Unidos donde lo que surge es que lo que se está trabajando mucho ya no es el texto, sino lo audiovisual, más análisis de memes, análisis de Tik Tok.
Nosotros siempre estábamos muy tranquilos porque en Twitter analizamos texto, pero en otras redes hoy en día, Instagram, TikTok, la forma de expresión no está en lo textual sino que es visual.
Es un desafío para nosotros cómo procesar esa información, cómo construir el dato a partir de imágenes, clasificar o deducir los mensajes que hay en esas imágenes.