Skip to main content
SearchLoginLogin or Signup

6 : : Los Números No Hablan por sí mismos

DataGénero (Coordinación: Mailén García. Traductoras: Sofía García. Revisión: Helena Suárez Val y Mailén García. Con la ayuda de Diana Duarte Salinas, Ana Amelia Letelier, y Patricia Maria Garcia Iruegas)

Published onApr 23, 2023
6 : : Los Números No Hablan por sí mismos
·
El principio #6 del Feminismo de Datos es considerar el contexto. El feminismo de datos afirma que los datos no son neutrales ni objetivos. Son producto de relaciones sociales desiguales y este contexto es esencial para realizar un análisis ético y preciso.

Principio: Considerar el Contexto

El feminismo de datos afirma que los datos no son neutrales ni objetivos. Son producto de relaciones sociales desiguales y este contexto es esencial para realizar un análisis ético y preciso.

En abril de 2014, 276 mujeres jóvenes fueron secuestradas en su escuela secundaria (preparatoria o liceo) en la ciudad de Chibok, en el norte de Nigeria. Boko Haram, un grupo terrorista militante, se atribuyó la responsabilidad de los ataques. La cobertura de prensa, tanto en Nigeria como en todo el mundo, fue rápida y furiosa. SaharaReporters.com desafió la capacidad del gobierno para mantener a salvo a sus estudiantes. CNN cubrió la angustia de los padres. El Japan Times conectó los secuestros con los crecientes disturbios en los estados del norte de Nigeria. Y la BBC contó la historia de una niña que había logrado evadir a los secuestradores. Varias semanas después de este informe inicial, el popular blog FiveThirtyEight publicó su propia historia basada en datos sobre el evento, titulada “El secuestro de niñas en Nigeria es parte de un problema que empeora”.1 La historia reportó índices vertiginosos de secuestros. Aseveró que solo en 2013 se habían producido más de 3.608 secuestros de mujeres jóvenes. Gráficos y mapas acompañaron la historia para demostrar visualmente que la abducción estaba en su punto más alto (figura 6.1)

Poco después, el sitio web de noticias tuvo que emitir una retractación de disculpas porque sus números eran incorrectos. El medio había utilizado la Base de Datos Global de Eventos, Idioma y Tono (GDELT por sus siglas en inglés) como fuente de datos. GDELT es un proyecto de grandes bases de datos dirigido por el científico social y computacional Kalev Leetaru. Recopila informes de noticias sobre eventos en todo el mundo y divide los informes de noticias por actores, eventos y geografía con el objetivo de proporcionar un conjunto completo de datos para personas que se dedican a la investigación académica, gobiernos y la sociedad civil. GDELT intenta centrarse en el conflicto analizando los informes de los medios, por ejemplo, si es probable que haya un conflicto entre dos países o si los disturbios están provocando una guerra civil. Sin embargo, como señaló la politóloga Erin Simpson a FiveThirtyEight en un hilo de Twitter ampliamente citado, la principal fuente de datos de GDELT son los informes de los medios (figura 6.2).2 El proyecto no se encuentra en una etapa en la que sus datos puedan usarse para hacer afirmaciones confiables sobre casos independientes de secuestro. El secuestro de las alumnas en Nigeria fue un hecho único. Hubo miles de historias en los medios globales al respecto. Aunque GDELT unió algunas de las historias duplicadas sobre el secuestro en un solo “evento”, todavía se registran erróneamente, que ese día habían ocurrido un centenar de secuestros. El informe FiveThirtyEight había contado cada uno de esos pseudoeventos GDELT como un incidente de secuestro separado.

Un gráfico de barras de FiveThirtyEight que dice mostrar el número de secuestros diarios en Nigeria entre 1982 y 2014. El título dice "Tendencias de los secuestros". El eje horizontal enumera los años desde 1984 hasta 2014 y el eje vertical muestra el recuento de la frecuencia de los secuestros cada día. El gráfico comienza con pocos o ningún secuestro entre 1984 y 1998, después aumenta rápidamente. Hay dos picos relativamente grandes alrededor de 2007 y 2011 (alrededor de 100 secuestros diarios) antes de un pico mucho mayor (superando los 200 secuestros diarios) en 2014.

Figura 6.1: En 2014, FiveThirtyEight registró erróneamente recuentos de "secuestros diarios" en Nigeria. El sitio de noticias no reconoció que la fuente de datos que estaba utilizando no estaba contando eventos, sino informes de los medios sobre eventos. O algunos eventos y algunos informes de los medios. O estaba contando algo, pero todavía no estamos seguros de qué. Imagen de FiveThirtyEight.

El error fue vergonzoso para FiveThirtyEight, sin mencionar para el reportero, pero también ayuda a ilustrar algunos de los problemas más importantes relacionados con los datos encontrados "en la naturaleza". En primer lugar, la exageración en torno a la "big data" lleva a proyectos como GDELT a exagerar enormemente la integridad y precisión de sus datos y algoritmos. En el sitio web y en publicaciones, las personas a cargo del proyecto han declarado que GDELT es "una iniciativa para construir un catálogo de comportamiento y creencias a escala social humana en todos los países del mundo, conectando a cada persona, organización, ubicación, recuento, tema, noticias fuente y evento en todo el planeta en una sola red masiva que captura lo que sucede en todo el mundo, cuál es su contexto y quién está involucrado, y cómo se siente el mundo al respecto, todos los días".3 Esta larga y complicada frase no describe una herramienta de big data pequeña o impotente, es claramente big dick data.

Una captura de pantalla de una publicación en Twitter de EM Simpson (@charlie_simpson) del 13 de mayo de 2014. El siguiente pie de foto acompañaba la fotografía:
"Así que si #GDELT dice que hubo 649 secuestros en Nigeria en 4 meses, LO QUE
REALMENTE ESTÁ DICIENDO es que hubo 649 noticias sobre secuestros".
Una captura de pantalla de una publicación en Twitter de EM Simpson (@charlie_simpson) del 13 de mayo de 2014 con el siguiente pie de foto: "Y nunca, NUNCA, utilices #GDELT para informar de eventos discretos. No es para
eso. Ni secuestros, ni asesinatos, ni atentados suicidas."

Figura 6.2: Dos tweets de Erin Simpson en respuesta a la interpretación errónea de FiveThirtyEight del conjunto de datos GDELT. Tweets de Erin Simpson el 13 de mayo de 2014.

Big dick data es un término académico formal que nosotras, las autores, hemos acuñado para denotar grandes proyectos de datos que se caracterizan por fantasías patriarcales, cis-masculinistas y totalizadoras de dominación mundial promulgadas a través de la captura y el análisis de datos. Los proyectos big dick data ignoran el contexto, fetichizan el tamaño e inflan sus capacidades técnicas y científicas.4 En el caso de GDELT, la pregunta es, si debemos tomar sus afirmaciones sobre big data al pie de la letra o si la big dick data está tratando de engañar a las organizaciones de financiamiento para que le den al proyecto enormes cantidades de fondos para investigación (hemos visto muchas veces antes que este truco funciona).

La documentación técnica de GDELT no proporciona más claridad sobre si se están contando informes de los medios (como afirma Simpson) o eventos individuales. La base de datos que usó FiveThirtyEight se llama Base de Datos de Eventos GDELT, lo que hace que parezca que está contando eventos. La documentación de GDELT establece que "si un evento se ha visto antes, no se volverá a incluir", lo que también hace que suene como si estuviera contando eventos. Y un artículo de investigación de 2013 relacionado con el proyecto confirma que GDELT sí está contando eventos, pero solo eventos que son exclusivos de publicaciones específicas. Así que está contando eventos, pero con un asterisco. Para complicar el asunto, la documentación no ofrece orientación sobre qué tipo de preguntas de investigación son apropiadas para hacerle a la base de datos o cuáles podrían ser las limitaciones. Las personas como Simpson que están familiarizadas con el área de investigación conocida como detección de eventos, o quienes forman parte de la comunidad GDELT, pueden no creer (1) el título de la base de datos, (2) la documentación y (3) la exageración del marketing. Pero, ¿cómo sabrían eso las demás personas, y peor aún las personas que llegan a la plataforma por primera vez?

Hemos seleccionado GDELT, pero la verdad es que no es muy diferente de muchos otros repositorios de datos que existen en la web. Cada vez hay más portales, observatorios y sitios web que permiten descargar todo tipo de datos gubernamentales, corporativos y científicos. Hay APIs que permiten escribir pequeños programas para consultar conjuntos de datos masivos (como por ejemplo, todo Twitter) y descargarlos de forma estructurada.5 Hay conjuntos de datos de prueba para análisis de red, aprendizaje automático, redes sociales y reconocimiento de imagen. Hay conjuntos de datos divertidos, conjuntos de datos curiosos y boletines informativos que informan a las, los y les lectores sobre los conjuntos de datos disponibles para explorar por periodistas e investigadores/as.6 Hoy en día, tendemos a pensar en este acceso sin restricciones a la información como un bien inherente. Y en muchos sentidos, es sorprendente que una persona pueda simplemente buscar en Google y descargar datos por ejemplo, sobre carreras de palomas, la longitud de los dientes de los conejillos de Indias o cada persona acusada de brujería en Escocia entre 1562 y 1736, sin mencionar múltiples tweets.7

Y aunque FiveThirtyEight se merecía con razón ser educada en la verificación de datos, hay un problema mucho mayor que sigue sin abordarse: el problema del contexto. Como hemos discutido a lo largo de este libro, uno de los principios centrales del pensamiento feminista es que todo conocimiento está situado. Una forma menos académica de decir esto es que el contexto importa. Al abordar cualquier nueva fuente de conocimiento, ya sea un conjunto de datos o un menú (o un conjunto de datos de menús), es esencial hacer preguntas sobre las condiciones sociales, culturales, históricas, institucionales y materiales bajo las cuales se produjo ese conocimiento, así como sobre las identidades de las personas que lo crearon.8 En lugar de ver los “artefactos de conocimiento” (por ejemplo: los conjuntos de datos) como entradas sin procesar que pueden simplemente incorporarse a un análisis estadístico o una visualización de datos, un enfoque feminista insiste en conectar los datos con el contexto en que se produjeron. Este contexto nos permite, como profesionales de la ciencia de datos, comprender mejor las limitaciones funcionales de los datos y las obligaciones éticas asociadas. Así como también, comprender cómo el poder y el privilegio que contribuyeron a su creación pueden oscurecer la verdad.

Situando la Data en la web salvaje

El principal problema con gran parte de los datos que se pueden descargar de los portales web o a través de las API es que vienen sin contexto ni metadatos. Si tienes suerte, podrás obtener un párrafo acerca del lugar de origen de los datos o un diccionario de datos que describe lo que significa cada columna en una hoja de cálculo en particular. Pero la mayoría de las veces, lo que obtienes se parece a la verás en la figura 6.3

Los datos que se muestran en la figura (datos de presupuesto abierto sobre contratación pública en São Paulo, Brasil) no parecen muy complicados desde el punto de vista técnico. La parte complicada es descubrir cómo funciona el proceso comercial detrás de ellos. ¿Cómo maneja el gobierno el proceso de licitación? ¿Cómo decide a quién se le adjudica un contrato? ¿Están todas las ofertas publicadas aquí, o solo las que resultaron adjudicatarias? ¿Qué significan términos como competencia, acuerdo de cooperación y en términos de colaboración para la persona encargada de editar los datos? ¿Por qué existe tal variación en el esquema de numeración de las publicaciones? Estas son solo algunas de las preguntas que una persona podría hacerse al encontrarse por primera vez con este dataset. Pero sin tener respuestas a algunas de estas preguntas (por no hablar del conocimiento local requerido para comprender cómo funciona el poder en este ecosistema específicamente), sería difícil incluso comenzar un proyecto de exploración o análisis de datos.

Este escenario no es raro. La mayoría de los datos llegan a nuestra puerta computacional sin contexto. Esta falta de contexto se convierte en una responsabilidad aún mayor cuando se acompaña del tipo de publicidad exagerada que vemos en GDELT y otros proyectos de big dick data. De hecho, la versión de 1980 de estas afirmaciones es lo que llevó a Donna Haraway a proponer el concepto de conocimiento situado en primer lugar.9 El trabajo feminista posterior se ha basado en el concepto de conocimiento situado para elaborar ideas sobre la ética y la responsabilidad en relación con la creación de conocimiento.10 En esta línea de pensamiento, se convierte en una responsabilidad de la persona que construye conocimiento asegurarse que la “condición situada” (“situatedness”) se explicite en la producción de conocimiento. Por ejemplo, la académica de estudios de información, Christine Borgman aboga por comprender los datos en relación con la "infraestructura de conocimiento" de la que se originan. Como lo define Borgman, una infraestructura de conocimiento es “una ecología de personas, prácticas, tecnologías, instituciones, objetos materiales y relaciones”.11 En resumen, es el contexto lo que hace posible los datos.

A table with the following information: 
Nr. Publication
Licitador 
Modalidad 
Fecha de apertura
Objeto

6016.2017 / 0054930-1
Regional
Board of
Education -
Penha
CONVENCIÓN 1
10/22/2018
10:00 AM
CELEBRACIÓN DE
LA ASOCIACIÓN
POR TÉRMINO DE
COLABORACIÓN
001 / SP-G / 2015

Prefeitura
Regional
Guaianases -
PRG
TRABAJO ELECTRÓNICO
03/09/2018
11:00
PRESTACIÓN DE
SERVICIOS DE
LIMPIEZA Y
ASISTENCIA Y
CONSERVACIÓN
PREDIAL PARA
SP-G.


129 / SMADS /
2018
Municipal
Oficina de
Asistencia
y
Desarrollo
Social
- SMADS

PLAZO DE
COLABORACIÓN
08/23/2018
09:00
MSE MA


CRI 001/2018 COHAB
Compañía
Metropolit
ana
deVivienda
de
São Paulo
-
COHAB
COMPETICIÓN
7/31/2018
10:31 AM
COMPETENCIA
INTERNACIONAL
NO. COHAB-SP
001/2018?
PROCEDIMIENTO
ADMINISTRATIVO
No. 2017-0.185.313-9
- PÚBLICOASOCIACIÓN
PRIVADA PARA LA
ADJUDICACIÓN
ADMINISTRATIVA
DE LA
IMPLANTACIÓN DE
SALAS DE INTERÉS
SOCIAL Y
MERCADO
POPULAR EN LA
CIUDAD DE SÃO
PAULO,
ACOMPAÑADA DE
INFRAESTRUCTUR A URBANA Y
EQUIPAMIENTO
PÚBLICO,
PRESTANDO LOS
SERVICIOS QUE SE
ESPECIFICAN, de
acuerdo con las
especificaciones
incluidas en el Pliego
de Condiciones y sus
Anexos.


002/18
Empresa
de Tráfico
de
Ingeniería
-
СЕТ

ACUERDO DE
COOPERACIÓN
06/01/2018
17:00


Conclusión de los
Términos de
Cooperación Técnica,
que tiene como
objetivo evaluar los
sistemas automáticos
de control del uso de
las plazas de
aparcamiento en la vía
pública desarrollados
por empresas privadas
para un Proyecto
Piloto, que se llevará a
cabo en las áreas de la
ZONA AZUL del
Municipio de São
Paulo designadas por
la CET para este
proyecto.


015189160
São Paulo
Works - SP Works


COMPETICIÓN 
05/15/2018
10:00


CONCESIÓN DE
SERVICIO DE
UTILIDAD
PÚBLICA, CON USO
PÚBLICO, CON
PARTE ONEROSA,
ENTENDIENDO
POR TAL LA
FABRICACIÓN,
INSTALACIÓN,
MANTENIMIENTO
E HIGIENIZACIÓN
DE LOS MÓVILES
DE LOS SERVICIOS
SANITARIOS

002/18 / SMSO
Municipal
Secretary of
Services and
Works -
SMSO


COMPETICIÓN
05/09/2018
14:30


CONCESIÓN DE
SERVICIO DE
UTILIDAD
PÚBLICA, CON USO
PÚBLICO, CON
PARTE ONEROSA,
ENTENDIENDO
POR TAL LA
FABRICACIÓN,
INSTALACIÓN,
MANTENIMIENTO
E HIGIENIZACIÓN
DE LOS MÓVILES
DE LOS SERVICIOS
SANITARIOS PÚBLICOS, CON
EXPLOTACIÓN
PUBLICITARIA.

Figura 6.3: Datos de presupuesto abierto sobre adquisiciones y gastos de la prefectura de São Paulo en Brasil. Aunque Brasil tiene algunas de las leyes de transparencia más progresistas en los libros, los datos que se publican no siempre son necesariamente accesibles o utilizables por los ciudadanos y residentes. En 2013, la investigadora Gisele Craveiro trabajó con organizaciones de la sociedad civil para dar más contexto a estos datos de presupuesto abierto. Imágenes del SIGRC para la Prefectura de São Paulo, Brasil.

Irónicamente, algunos de los objetivos y acciones más admirables del movimiento de datos abiertos han funcionado en contra de la urgencia ética de brindar contexto, sin darse cuenta. Los datos abiertos describen la idea de que cualquiera puede acceder, usar, modificar y compartir datos libremente para cualquier propósito. El movimiento de datos abiertos es una red flexible de organizaciones, gobiernos e individuos. Ha estado activo de alguna forma desde mediados de la década de los 2000, cuando se fundaron grupos como el Open Knowledge Institute y se originaron campañas como Free Our Data de The Guardian para solicitar a los gobiernos el acceso gratuito a los registros públicos.12

Los objetivos en teoría son buenos: desarrollo económico mediante la creación de aplicaciones y servicios sobre datos abiertos; progreso científico más rápido cuando las personas encargadas en investigación comparten conocimientos y mayor transparencia para que los y las periodistas y la ciudadanía puedan utilizar la información pública para hacer que los gobiernos rindan cuentas. Este último objetivo fue una parte importante del marco del conocido memorándum del ex-presidente Obama sobre transparencia y gobierno abierto.13 En su primer día en el cargo, Obama firmó un memorándum que ordenaba a las agencias gubernamentales que hicieran que todos los datos fueran abiertos de forma predeterminada.14 Muchos más países, estados y ciudades han seguido su ejemplo al desarrollar portales de datos abiertos y escribir datos abiertos en la política. A partir de 2019, diecisiete países y más de cincuenta ciudades y estados adoptaron la Carta Internacional de Datos Abiertos, que describe un conjunto de seis principios que guían la publicación y accesibilidad de datos gubernamentales.15

Sin embargo, en la práctica, la limitada financiación pública para la infraestructura tecnológica ha significado que los gobiernos hayan priorizado la parte de "apertura" de los datos abiertos (publicación de hojas de cálculo de cosas como solicitudes de licencia, registros de arrestos y zonas de inundación), carecen de la capacidad para proporcionar cualquier contexto sobre la procedencia de los datos, por no hablar de la documentación que permitiría que el público en general pudiera acceder y utilizar los datos. Como señala el académico Tim Davies, los conjuntos de datos crudos (raw data dumps) pueden ser buenos para iniciar una conversación, pero no pueden garantizar el compromiso o la responsabilidad.16 La realidad es que muchos conjuntos de datos publicados permanecen inactivos en sus portales, esperando que los usuarios emprendan el trabajo intensivo de descifrar los arcanos burocráticos que oscurecen su significado. Este fenómeno se ha denominado datos zombi: conjuntos de datos que se han publicado sin ningún propósito o caso de uso claro en mente.17

Los zombis pueden ser malos para el cerebro, pero ¿los datos zombi son realmente un problema? El editor de la revista Wired, Chris Anderson, diría enfáticamente: “No”. En un artículo de Wired de 2008, “El fin de la teoría”, Anderson hizo la ahora infame afirmación de que “los números hablan por sí mismos”.18 Su principal argumento fue que la llegada del big data pronto permitiría a la comunidad científica de datos realizar análisis a escala de toda la población humana, sin necesidad de restringir sus análisis a una muestra más pequeña. Para comprender su afirmación, es importante que entiendas una de las premisas básicas de las estadísticas.

La inferencia estadística se basa en la idea del muestreo: se pueden inferir cosas sobre una población (u otros fenómenos a gran escala) mediante el estudio de una muestra aleatoria y/o representativa, y luego mapear esos hallazgos en la población (o fenómeno) como un entero. Digamos que quieres saber por quién votarán las 323 millones de personas en los EE. UU. en las próximas elecciones presidenciales. Por supuesto, no podrías contactar a toda la población pero, podrías llamar a tres mil por teléfono y luego usar esos resultados para predecir cómo votaría el resto de la gente. También, tendría que haber algún modelo estadístico y teoría involucrada, porque ¿cómo sabes que esas tres mil personas son una representación precisa de toda la población? Aquí es donde Anderson hizo su intervención: en el punto en el que tenemos datos recopilados sobre toda la población, ya no necesitamos modelado, ni ninguna otra “teoría” para primero probar y luego demostrarla. Podemos mirar directamente los datos.

Ahora bien, no se puede escribir un artículo que afirme que la estructura básica de la investigación científica es obsoleta y no esperar algún retroceso. Anderson escribió el artículo para que fuera provocativo y, efectivamente, provocó numerosas respuestas y debates, incluidos aquellas que desafían la idea de que este argumento es una "nueva" forma de pensar en primer lugar (por ejemplo, a principios del siglo XVII, Francis Bacon abogó por una forma de razonamiento inductivo, en el que el científico recopila datos, los analiza y solo después formula una hipótesis).19 Uno de los principales ejemplos de Anderson es la Búsqueda de Google. Los algoritmos de búsqueda de Google no necesitan tener una hipótesis sobre por qué algunos sitios web tienen más enlaces entrantes (otras páginas que enlazan con el sitio) que otros; solo necesitan una forma de determinar el número de enlaces para que puedan usar ese número para determinar la popularidad y relevancia del sitio en los resultados de búsqueda.Ya no necesitamos la causalidad, insiste Anderson: “La correlación es suficiente.”20 Pero, ¿qué sucede cuando el número de enlaces también está altamente correlacionado con resultados sexistas, racistas y pornográficos?

La influencia del racismo, el sexismo y el colonialismo es precisamente lo que vemos descrito en Algorithms of Oppression, el trabajo de la académica de estudios de la información Safiya Umoja Noble sobre los estereotipos dañinos sobre las mujeres negras y Latinx perpetuados por algoritmos de búsqueda como el de Google. Como se discutió en el capítulo 1, Noble demuestra que los resultados de la Búsqueda de Google no se correlacionan simplemente con nuestra sociedad racista, sexista y colonialista; que la sociedad provoca los resultados racistas y sexistas. Más que eso, la Búsqueda de Google refuerza estas opiniones opresivas al clasificar los resultados de acuerdo con cuántos otros sitios enlazan con ellos. El orden de clasificación, a su vez, anima a las personas usuarias a seguir haciendo clic en esos mismos sitios. Aquí, la correlación sin contexto claramente no es suficiente porque recircula el racismo y el sexismo y perpetúa la desigualdad.21

Hay otra razón por la que el contexto es necesario para dar sentido a la correlación, y tiene que ver con la forma en que el racismo, el sexismo y otras fuerzas de opresión entran en los entornos en los que se recopilan los datos. El siguiente ejemplo tiene que ver con la agresión y la violencia sexual. Si no deseas leer sobre estos temas, puedes pasar directamente a la siguiente sección.

En abril de 1986, Jeanne Clery, estudiante de la Universidad de Lehigh, fue agredida sexualmente y asesinada en su dormitorio. Más tarde, sus progenitores descubrieron que se habían producido treinta y ocho delitos violentos en Lehigh en los tres años anteriores, pero nadie había visto eso como información importante que debería ponerse a disposición de su familia, o del público. Los Clery montaron una campaña para mejorar la recopilación de datos y los esfuerzos de comunicación relacionados con los delitos en los campus universitarios, y tuvo éxito: en 1990 se aprobó la Ley Jeanne Clery, que exige que todos los colegios y universidades de EE. UU. pongan a disposición del público las estadísticas de delitos en los campus.22

Así que tenemos un conjunto de datos nacional aparentemente completo sobre un tema público importante. En 2016, tres estudiantes de la clase de periodismo de datos de Catherine en Emerson College (Patrick Torphy, Michaela Halnon y Jillian Meehan) descargaron los datos de la Ley Clery y comenzaron a explorarlos, con la esperanza de comprender mejor la cultura de la violación que se ha generalizado en los campus universitarios de los Estados Unidos.23 Sin embargo, pronto se desconcertaron. Williams College, una pequeña y rica universidad de artes liberales en la zona rural de Massachusetts, parecía tener una epidemia de agresiones sexuales, mientras que la Universidad de Boston (UB), una gran institución de investigación en el centro de la ciudad, parecía tener sorprendentemente pocos casos en relación con su tamaño y población (sin mencionar que varios casos de agresión sexual de alto perfil en UB habían sido noticia en los últimos años).24 Las estudiantes sospecharon de estos números e investigaron más a fondo. Después de comparar los datos de la Ley Clery con encuestas anónimas sobre el clima en los campus (figura 6.4), consultar con personas expertas y entrevistar a sobrevivientes, descubrieron, paradójicamente, que la verdad estaba más cerca del reverso de la imagen que sugieren los datos de la Ley Clery. Muchas de las universidades con tasas más altas de agresión sexual reportadas eran en realidad lugares donde se dedicaban más recursos institucionales para apoyar a las personas sobrevivientes.25

En cuanto a las universidades con números más bajos, esto también se explica por el contexto. La Ley Clery requiere que los colegios y universidades proporcionen informes anuales de agresión sexual y otros delitos en el campus, y existen severas sanciones financieras por no informar. Pero los números son autoinformados y también existen fuertes incentivos financieros para que las universidades no informen.26 Ninguna universidad quiere decirle al gobierno, y mucho menos a quienes están al cuidado de posibles estudiantes, que tiene una alta tasa de agresión sexual en el campus. Esto se ve agravado por el hecho de que las personas sobrevivientes de agresión sexual a menudo no quieren denunciar, debido al estigma social, el trauma de revivir su experiencia o la falta de apoyo social y psicológico resultante. La cultura dominante les ha enseñado a las personas sobrevivientes que sus experiencias no serán tratadas con cuidado y que, de hecho, pueden enfrentar más daño, culpa y trauma si son públicas.27

Un gráfico de barras sobre la prevalencia de las agresiones sexuales, así como de la
prevalencia de los casos denunciados sobre agresiones sexuales en dos universidades
diferentes: Universidad de Boston y Emerson College. El título dice: "Los datos del
informe Clery y los resultados de la encuesta anónima dejan impresiones muy diferentes
sobre la cultura de la violación en los campus universitarios". El eje horizontal muestra
el porcentaje, que va de 0 a 18. El eje vertical incluye dos categorías: Encuesta sobre el
clima e Informe Clery.

Con los siguientes datos, el primer gráfico de barras representa a la Universidad de
Boston:

Encuesta sobre el clima 
18%

Informe Clery
.04%

Igualmente hay un pie de foto que dice "La Universidad de Boston encuestó a sus
estudiantes en 2015 con una tasa de respuesta del 22%. Casi uno de cada cinco
encuestados declaró haber sufrido algún tipo de acoso o agresión sexual durante su
estancia en la Universidad de Boston, en comparación con uno de cada 2500 que
denunció una agresión en 2014."

Con los siguientes datos, el segundo gráfico de barras representa al Emerson College:

Encuesta sobre el clima
9%

Informe Clery
.15%

También hay un pie de foto que dice "Emerson College encuestó a sus estudiantes en
2015 con una tasa de respuesta del 32%. Alrededor de uno de cada 10 encuestados dijo
que había experimentado un contacto sexual no consensuado en el campus durante su
tiempo en Emerson, en comparación con uno de cada 666 estudiantes que denunciaron
delitos sexuales forzados en 2014."

Figura 6.4: Estudiantes de periodismo de datos de Emerson College se mostraron escépticos con respecto a los datos de la Ley Clery autoinformados y decidieron comparar los resultados de la Ley Clery con los resultados anónimos de la encuesta sobre el clima del campus sobre el contacto sexual no consentido. Aunque existen problemas de calidad de los datos con ambos conjuntos de datos, sus estudiantes afirman que si las instituciones brindan el apoyo adecuado a los sobrevivientes, habrá menos brecha entre los datos informados por Clery y la proporción de estudiantes que informan sobre conducta sexual no consentida. Cortesía de Patrick Torphy, Michaela Halnon y Jillian Meehan, 2016.

Hay más diferencias de poder reflejadas en los datos cuando se tienen en cuenta la raza y la sexualidad. Por ejemplo, en 2014, veintitrés estudiantes presentaron una denuncia contra la Universidad de Columbia, alegando que Columbia estaba manejando mal sistemáticamente los casos de violación y violencia sexual denunciados por estudiantes LGBTQ+. Zoe Ridolfi-Starr, la estudiante principal nombrada en la denuncia, le dijo al Daily Beast: “Vemos una total falta de conocimiento sobre las dinámicas específicas de la violencia sexual en la comunidad queer, incluso de personas que realmente deberían estar capacitadas en esos temas.”28

En pocas palabras, hay desequilibrios de poder en las configuraciones de los datos, utilizando el concepto acuñado por Yanni Loukissas que discutimos en el capítulo 5, acerca de por qué no podemos tomar los números de los dataset al pie de la letra. Carecer de esta comprensión del poder en el entorno de la recolección y dejar que los números “hablen por sí mismos” contaría una historia que no solo es evidentemente falsa, sino que también podría usarse para recompensar a las universidades que sistemáticamente no informan lo suficiente y crean entornos hostiles para las personas sobrevivientes. Subestimar deliberadamente los casos de agresión sexual conduce a ser recompensado por no denunciar. Y el silencio en torno a la agresión sexual continúa: la administración está en silencio, la cultura del campus está en silencio, el conjunto de datos está en silencio.29

Datos crudos, datos trabajados, el proceso de trabajo30

Como lo demostraron estudiantes del Emerson College, una de las claves analíticas equivocadas del trabajo es pensar que "los números hablan por sí mismos". Esta es la premisa de que los datos crudos son en sí mismos datos.

Pero, como han explicado memorablemente Lisa Gitelman y Virginia Jackson, los datos que entran en proyectos de investigación ya están completamente trabajados, como resultado de un conjunto complejo de circunstancias sociales, políticas e históricas. "Los ‘datos crudos’ son un oxímoron", afirman, al igual que los "jumbo shrimp".31 Pero existe una clase emergente de "creativos de datos" cuya existencia misma se basa en su capacidad para cambiar de contexto, es decir, su capacidad para extraer y combinar datos de forma creativa para producir nuevos conocimientos, así como para trabajar en diversos dominios. Este grupo incluye la comunidad de ciencia de datos, periodistas de datos, artistas, quienes diseñan datos y personas en áreas de investigación y sectores empresariales; en resumen, prácticamente todas las personas que trabajan con datos en este momento. Son las extrañas en el conjunto de datos del que hablamos en el capítulo 5.

La nueva clase creativa de datos es altamente recompensada por producir trabajo que crea nuevo valor y conocimiento a partir de la extracción y combinación de conjuntos de datos conceptualmente no relacionados. Los ejemplos incluyen el ahora desaparecido proyecto Flu Trends de Google, que trató de vincular geográficamente las búsquedas web de las personas sobre los síntomas de la gripe con las incidencias reales de la gripe.32 O un proyecto del periódico Sun Sentinel, en Fort Lauderdale, Florida, que combinó datos de matrículas policiales con registros electrónicos de peaje para probar que los elementos de la policía estaban acelerando sistemática y peligrosamente en las carreteras de Florida.33 A veces, estos actos de síntesis creativa funcionan bien; el Sun Sentinel ganó un Pulitzer por sus reportajes y varios policías fueron despedidos por exceso de velocidad. Pero a veces los resultados no son tan sencillos. Google Flu Trends funcionó bien hasta que dejó de hacerlo, y la investigación posterior ha demostrado que las búsquedas de Google no se pueden usar como señales 1:1 para fenómenos reales de gripe porque son susceptibles a factores externos, como lo que los medios informan sobre la gripe.34

En lugar de tomar los datos al pie de la letra y mirar hacia perspectivas futuras, la comunidad científica de datos primero puede interrogar el contexto, las limitaciones y la validez de los datos en uso. En otras palabras, una estrategia feminista para considerar el contexto es considerar el proceso de cocción que produce datos “sin procesar”. Como ejemplo, los científicos sociales computacionales Derek Ruths y Jürgen Pfeffer escriben sobre las limitaciones del uso de datos de redes sociales para obtener información sobre el comportamiento: los datos de Instagram sesgan a la juventud porque Instagram lo hace; Los datos de Reddit contienen muchos más comentarios de varones que de mujeres porque la membresía general de Reddit es mayoritariamente masculina.

Además, muestran cómo los datos de investigación adquiridos de esas fuentes se moldean mediante muestreo porque compañías como Reddit e Instagram emplean métodos patentados para entregar sus datos a quienes se encargan de la investigación, y esos métodos nunca se divulgan.35 La investigación realizada por Devin Gaffney y J. Nathan Matias asumió un corpus popular que afirmaba contener "todos los comentarios de Reddit disponibles públicamente''.36 Su trabajo mostró que al corpus supuestamente completo le faltan al menos treinta y seis millones de comentarios y veintiocho millones de envíos.

Explorar y analizar lo que falta en un conjunto de datos es una forma poderosa de obtener información sobre el proceso de cocción, tanto de los datos como del fenómeno que pretende representar. En algunos de los trabajos históricos de Lauren, se observa registrado a quienes cocinaron (o no) en un corpus de treinta mil cartas escritas por Thomas Jefferson, como se muestra en la figura 6.5.37 Es posible que algunas personas ya sepan que Jefferson es considerado el padre fundador "entusiasta cocinero" de la nación.38 Pero pocos saben que dependía de personal de cocina esclavizado para preparar su famosa comida.39 En "la imagen de la ausencia", Lauren usó el reconocimiento de entidades nombradas, una técnica de procesamiento de lenguaje natural, para identificar los lugares en la correspondencia personal de Jefferson donde nombró a estas personas y luego usó análisis de redes sociales para aproximar el alcance de las relaciones entre ellos. El resultado es una representación visual de todo el trabajo que el personal esclavizado de Jefferson puso en la preparación de sus comidas pero que él no reconoció, al menos no directamente, en el texto de las cartas.

Una visualización de las más de 75 personas que ayudaron en la preparación de las
famosas cenas de Thomas Jefferson, según las cartas escritas por Jefferson sobre la
comida y la alimentación. Los nombres de las personas están impresos en la parte
inferior de la visualización, ordenados en seis categorías: la familia Jefferson;
corresponsales políticos; amigos y colegas de Virginia; personal de la plantación libre;
personal de la plantación esclavizada; varios. Los arcos de color gris claro conectan los
diferentes nombres indicando que los dos nombres aparecieron en la misma carta. El
grosor de cada arco indica la frecuencia con la que el par de nombres aparece junto.

Figura 6.5: En “La imagen de la ausencia” (2013), Lauren usó técnicas de aprendizaje automático para identificar los nombres de las personas que Thomas Jefferson mencionó en su correspondencia personal y luego visualizó las relaciones entre ellos. El resultado demuestra todo el trabajo que su personal esclavizado puso en la preparación de las comidas de Jefferson, pero que no fue reconocido directamente por el propio Jefferson. Visualización por Lauren F. Klein.

En una escala aún mayor, los informáticos e historiadores de la Universidad de Stanford utilizaron incrustaciones de palabras (otra técnica de aprendizaje automático) para explorar los estereotipos étnicos y de género a lo largo del siglo XX.40 Usando varios conjuntos de datos grandes derivados de fuentes como Google Books y el New York Times, el equipo mostró cómo palabras como inteligente, lógico y reflexivo estaban fuertemente asociadas con los varones hasta la década de 1960. Sin embargo, desde entonces esas palabras han aumentado constantemente en asociación con las mujeres. El equipo atribuyó este fenómeno al “movimiento de mujeres en las décadas de 1960 y 1970”, haciendo de su trabajo un ejemplo interesante de un intento de cuantificar el impacto de los movimientos sociales. El documento también se destaca por reconocer abiertamente cómo sus métodos, que involucraron mirar los adjetivos que rodean las palabras hombre y mujer, limitaron el alcance de su análisis al género binario. Además, quienes llevaron a cabo la investigación no intentaron afirmar que los datos representan cómo “son” las mujeres y los varones, ni intentaron “eliminar el sesgo” para poder desarrollar aplicaciones “imparciales” en otros dominios. Vieron los datos como lo que son, indicadores culturales del rostro cambiante del patriarcado y el racismo, y los interrogaron como tales.

Entonces, ¿cómo producimos más trabajos como este, trabajo que entiende que los datos ya están "preparados" y luego usa esos datos para exponer el sesgo estructural? Desafortunadamente para Chris Anderson, la respuesta es que necesitamos más teoría, no menos. Sin teoría, quienes diseñan las encuestas y quienes analizan los datos deben confiar en su intuición, respaldada por ideas de "sentido común" sobre las cosas que están midiendo y modelando. Esta confianza en el “sentido común” conduce directamente al sesgo. Tomemos el caso de GDELT: décadas de investigación han demostrado que los eventos cubiertos por los medios son seleccionados, enmarcados y moldeados por lo que se denominan "valores noticiosos": valores que confirman imágenes e ideologías existentes.41 Entonces, ¿qué es realmente lo que mide GDELT? ¿Qué eventos están sucediendo en el mundo, o en qué están enfocando su atención las principales organizaciones internacionales de noticias? Esta última podría ser la historia más poderosa incrustada en la base de datos GDELT. Pero requiere un contexto y un marco profundo para sacarlo a la luz.

Negarse a reconocer el contexto es un juego de poder para evitar el poder. Es una forma de afirmar la autoridad y el dominio sin tener que abordar la complejidad de lo que los datos realmente representan: la economía política de las noticias en el caso de GDELT, jerarquías de género arraigadas y entornos de información defectuosos en el caso de los datos de Clery, etcétera. Pero el contexto profundo y la computación no son incompatibles. Por ejemplo, SAFElab, un laboratorio de investigación en Columbia dirigido por el académico y trabajador social Desmond Patton, utiliza inteligencia artificial para examinar las formas en que la juventud racializada enfrenta la violencia dentro y fuera de internet. Él y un equipo de estudiantes de trabajo social usan datos de Twitter para comprender y prevenir la violencia de pandillas en Chicago. Sus datos son grandes y también son complicados en aspectos tanto técnicos como sociales. El equipo es muy consciente de la historia de los organismos encargados de hacer cumplir la ley que utilizan tecnología para vigilar a las personas de identidades racializadas por ejemplo, y reconoce que los organismos encargados de hacer cumplir la ley continúan haciéndolo utilizando Twitter. Además, cuando Patton comenzó su investigación, se topó con un problema aún más básico: "No sabía lo que decían los más jóvenes, punto".42 Esto era cierto a pesar de que el propio Patton es una persona Negra que creció en Chicago y trabajó durante años en muchos de estos mismos vecindarios. "Me quedó muy claro que necesitábamos adoptar un enfoque más profundo de los datos de las redes sociales en particular, para que realmente pudiéramos captar la cultura, el contexto y los matices, para no malinterpretar lo que se dice", explica.43

El enfoque de Patton para incorporar la cultura, el contexto y los matices tomó la forma de un contacto directo y centrado en las perspectivas de los jóvenes cuyos comportamientos que su grupo buscaba estudiar. Patton y el estudiante de doctorado William Frey contrataron a jóvenes anteriormente involucrados en pandillas para trabajar en el proyecto como expertos en el dominio. Estos expertos codificaron y categorizaron un subconjunto de los millones de tuits y luego capacitaron a un equipo de estudiantes de trabajo social para que se encargaran de la codificación. El proceso fue largo y no exento de desafíos. Fue necesario que Patton y Frey crearan un nuevo método de "escucha profunda" al que llaman análisis contextual de redes sociales para ayudar al alumnado de programadores a mitigar su propio sesgo y acercarse al significado previsto de cada tweet.44 El siguiente paso fue entrenar un clasificador de aprendizaje automático para etiquetar automáticamente los tweets para que el proyecto pudiera categorizar todos los millones de tweets en el conjunto de datos. Dice Patton: "Entrenamos el algoritmo para pensar como un joven afroamericano en el lado sur de Chicago"45.

Este enfoque ilustra cómo se puede integrar el contexto en un proyecto de inteligencia artificial y se puede hacer prestando atención al conocimiento subyugado. Este término describe las formas de conocimiento que han sido expulsadas de las principales instituciones y las conversaciones que fomentan. Para explicar este fenómeno, Patricia Hill Collins da el ejemplo de cómo las mujeres Negras han recurrido históricamente a la “música, la literatura, las conversaciones diarias y el comportamiento cotidiano” como resultado de haber sido excluidas de “instituciones sociales controladas por los varones blancos”.46 Estas instituciones incluyen la academia o, para un ejemplo reciente planteado por la socióloga Tressie McMillan Cottom, la sección de opinión del New York Times. Y debido a que hacen circular su conocimiento en lugares fuera de esas instituciones principales, ese conocimiento no es visto ni reconocido por esas instituciones: queda subyugado.

La idea del conocimiento subyugado también se aplica a otros grupos minorizados, incluidos los varones afroamericanos de Chicago a quienes Patton trató de comprender. Un enfoque que no los tuviera en cuenta hubiera implicado errores significativos. Por ejemplo, un tweet como “no maté a tu hombre y no lo conozco”47 probablemente habría sido clasificado como agresivo o violento, lo que refleja su uso de la palabra "matar". Pero basándose en el conocimiento proporcionado por los jóvenes afrodescendientes que contrataron para el proyecto, Frey y Patton pudieron demostrar que muchos tweets como este eran referencias a letras de canciones, en este caso, del rapero de Chicago Lil Durk. En otras palabras, estos tweets tratan de compartir expresiones culturales, no de comunicar amenazas.48

En el caso de SAFElab, como ocurre con todos los proyectos de investigación que buscan hacer uso del conocimiento subyugado, también existe una importante infraestructura humana y relacional requerida. Frey y Patton han construido relaciones a largo plazo con personas y organizaciones en la comunidad que estudian. De hecho, Frey vive y trabaja en la comunidad. Además, tanto Frey como Patton están capacitados como trabajadores sociales. Esto se refleja en su trabajo computacional, que se mantiene guiado por el código de ética del trabajador/a social.49 Están utilizando la IA para negociar nuevas formas de comprensión humana a través de las diferencias de poder, en lugar de utilizar la computación para reemplazar las relaciones humanas. Este tipo de innovación social a menudo se subestima en el modelo de ciencia de datos unicornio-mago-genio. (Para obtener más información sobre los unicornios, consulta el capítulo 5). Como dice Patton: “tuvimos muchos desafíos con la publicación de artículos en las comunidades de ciencia de datos sobre este trabajo, porque para mí está muy claro que tardan en preocuparse por el contexto. No es que no les importe, pero no ven la innovación o el impacto de justicia social que puede tener el trabajo”.50 Con suerte, eso cambiará en el futuro, ya que el trabajo de SAFElab y otros demuestra el tremendo potencial de combinar el trabajo social y la ciencia de datos.

Comunicando el Contexto

No es solo en las etapas de adquisición o análisis de datos que el contexto importa. El contexto también entra en juego en el encuadre y la comunicación de los resultados. Imaginemos un escenario. En este caso, usted es un periodista de datos y su editor le asignó la creación de una historia breve y gráfica sobre un estudio de investigación reciente: "Disparidades en la referencia y el diagnóstico de salud mental en el Servicio de Salud Mental de la Cárcel de la Ciudad de Nueva York".51 Este estudio analiza los registros médicos de más de cuarenta y cinco mil personas encarceladas por primera vez y encuentra que algunos grupos tienen más probabilidades de recibir tratamiento, mientras que otros tienen más probabilidades de recibir un castigo. Más específicamente, las personas blancas tienen más probabilidades de recibir un diagnóstico de salud mental, mientras que las personas afroamericanas y latinoamericanas tienen más probabilidades de ser recluidas en régimen de aislamiento. Las personas encargas de la investigación atribuyen parte de esta divergencia a las diferentes tasas de diagnóstico experimentadas por estos grupos antes de ser encarceladas, pero también atribuyen algunas de las divergencias a la discriminación dentro del sistema penitenciario. De cualquier manera, las disparidades raciales y étnicas son producto del racismo estructural.

Considere la diferencia entre los dos gráficos que se muestran en la figura 6.6. La única variación es el título y el encuadre del gráfico.

¿Cuál de estos gráficos crearías? ¿Cuál deberías crear? El primero, Salud Mental en la Cárcel, representa la forma típica en que se comunican los resultados de un análisis de datos. El título parece ser neutral y libre de prejuicios. Este es un gráfico sobre las tasas de diagnóstico de enfermedades mentales de personas encarceladas desglosadas por raza y etnia. Las personas se denominan reclusos, el lenguaje que utilizó el estudio. El título no menciona la raza, el origen étnico, el racismo o las desigualdades en la salud, ni indica el significado de los datos. Pero aquí es donde entran las preguntas adicionales sobre el contexto. ¿Estás representando solo los cuatro números que vemos en el gráfico? ¿O estás representando el contexto del que surgieron?

Un gráfico de barras que muestra las tasas de diagnóstico de salud mental de los
reclusos en las cárceles de la ciudad de Nueva York. El título dice "Salud mental en la
cárcel, tasa de diagnóstico de salud mental de los reclusos". El eje horizontal tiene 4
categorías diferentes: blancos, negros, hispanos y otros. El eje vertical es un porcentaje
de diagnósticos de salud mental dentro de cada raza. La representación muestra que la
categoría "Blanca" tiene la tasa más alta, seguida por la negra, la hispana y, por último,
otra.

Los datos completos se resumen en la siguiente tabla:

Raza
Tasa de diagnóstico de salud mental (%)

Blanca
21.9

Negra
15.6

Hispana
13.1

Otra
10.3
Un gráfico de barras que tiene la misma representación en forma de datos y gráfica que
el de la figura 06.06a. Sin embargo, el título de este dice "Racismo en la cárcel, las
personas de color tienen menos probabilidades de recibir un diagnóstico de salud
mental".

Figura 6.6: Dos representaciones del mismo análisis de datos. Los datos provienen de un estudio de personas encarceladas por primera vez en cárceles de Nueva York entre 2011 y 2013. Gráficos de Catherine D'Ignazio. Datos de Fatos Kaba et al., “Disparities in Mental Health Referral and Diagnosis in the New York City Jail Mental Health Service.

El estudio que produjo estos números contiene evidencia convincente de que debemos desconfiar de los números de diagnóstico debido a la discriminación racial y étnica. El primer gráfico no solo falla en comunicar eso, sino que también socava activamente el hallazgo principal de la investigación. Además, el lenguaje utilizado para referirse a las personas encarceladas como reclusos es deshumanizante, particularmente en el contexto de la epidemia de encarcelamiento masivo en los Estados Unidos.52 Entonces, considere el segundo cuadro: Racismo en la cárcel: las personas de color tienen menos probabilidades de recibir un diagnóstico de salud mental. Este título ofrece un marco sobre cómo interpretar los números a lo largo de las líneas del estudio del que surgieron. El estudio de investigación se centró en las disparidades raciales, por lo que el título y el contenido de este cuadro se refieren a las disparidades raciales. Las personas detrás de los números son personas, no reclusos. Además, y de manera crucial, el segundo cuadro nombra las fuerzas de opresión que están en acción: el racismo en prisión.

Aunque nombrar el racismo puede sonar fácil y obvio para algunos lectores de este libro, es importante reconocer que campos como el periodismo todavía se adhieren a convenciones que se resisten a tal nombre con el argumento de que es "parcialidad" u "opinión". John Daniszewski, editor de Associated Press, personifica este punto de vista: “En general, nuestra política es tratar de ser neutrales, y lo más precisos que podamos ser para la situación dada. Somos muy cautelosos a la hora de lanzar acusaciones propias que caractericen algo como racista. Intentaríamos decir lo que se hizo y permitir que quienes nos leen saquen sus propias conclusiones”.53

La declaración de Daniszewski puede sonar democrática (“¡poder para quien esté leyendo!”), pero es importante pensar en los intereses de quién se sirve al hacer del racismo una cuestión de opinión individual. Para muchas personas, el racismo existe de hecho, como hemos discutido a lo largo de este libro. Su existencia está respaldada por la abrumadora evidencia empírica que documenta instancias de racismo estructural, incluidas brechas de riqueza, brechas salariales y segregación escolar, así como desigualdades en salud, como también hemos discutido. Nombrar estas fuerzas estructurales puede ser la forma más efectiva de comunicar un contexto amplio. Además, como periodista de datos en este escenario, es su responsabilidad conectar la pregunta de investigación con los resultados y con la interpretación de los resultados por parte de la audiencia. Dejar que los números hablen por sí mismos no es enfáticamente más ético ni más democrático porque a menudo conduce a que esos números se malinterpreten o se pierdan los resultados del estudio. Ubicar los números en contexto y nombrar el racismo o el sexismo cuando está presente en esos números debería ser un requisito, no solo para la comunicación de datos feminista sino también para toda la comunicación de datos.

Este consejo, nombrar el racismo, el sexismo u otras fuerzas de opresión cuando están claramente presentes en los números, se aplica particularmente a las comunidades de diseñadores y científicos de datos del grupo dominante con respecto al tema en cuestión. A las personas blancas, incluidas nosotras mismas, las autoras de este libro, nos cuesta nombrar y hablar sobre racismo. A los varones les cuesta nombrar y hablar sobre el sexismo y patriarcado. A las personas heterosexuales les cuesta ver y hablar de homofobia y heteronormatividad. Si les preocupa la justicia en la comunicación de datos, o la ciencia de datos en general, les sugerimos que practiquen reconocer, nombrar y hablar sobre estas fuerzas estructurales de opresión.54

Pero nuestro trabajo como visualizadoras de datos hipotéticamente anti opresión aún no ha terminado. Podríamos haber mencionado el racismo como una fuerza estructural en nuestra visualización sobre las personas privadas de la libertad, pero todavía hay dos problemas con la visualización "buena" que dependen de la redacción del subtítulo: Las personas de identidades racializadas son menos propensas a recibir un diagnóstico de salud mental. El primer problema es que esto empieza a parecer una narrativa deficiente, como las que analizamos en el capítulo 2, una narrativa que reduce a un grupo social a estereotipos negativos y no logra retratarlos con creatividad y agencia. El segundo problema es que al mencionar el racismo y luego hablar sobre las identidades racializadas en el título (people of color), el gráfico refuerza la idea de que la raza es un problema solo para las identidades racializadas. Si nos preocupamos por enderezar el equilibrio de poder, la elección de las palabras es tan importante como los datos que se analizan. En un artículo de opinión sobre el lenguaje utilizado para describir las comunidades de bajos ingresos, la periodista de salud Kimberly Seals Allers afirma este punto: “Casi siempre usamos un lenguaje de deficiencia, llamándolos desfavorecidos, con pocos recursos y sin todo lo demás…ignora toda la riqueza que esas comunidades y sus jóvenes poseen la riqueza de la resiliencia, la tenacidad y el valor que puede convertirse en grandeza si se cultiva adecuadamente.”55

Así que vamos a intentarlo por tercera vez, con la imagen de la figura 6.7.

En esta tercera versión, hemos conservado el mismo título que el gráfico anterior. Pero en lugar de centrar el subtítulo en lo que les falta a los grupos minorizados, se centra en las ventajas injustas que se dan al grupo dominante. El subtítulo ahora dice que las personas blancas obtienen más servicios de salud mental. Esto evita propagar una narrativa deficitaria que refuerza asociaciones negativas y clichés. También afirma que los blancos tienen una raza y que obtienen una ventaja injusta de esa raza en este caso.56 Finalmente, el título propone una interpretación de los números que se basa en el contexto de las conclusiones de los investigadores sobre las disparidades en la salud.

Un gráfico de barras que tiene la misma representación en forma de datos y gráfica que
el de la figura 06.06a. Sin embargo, el título de este dice "Racismo en la cárcel, los
blancos reciben más diagnósticos de salud mental".

Figura 6.7: Una tercera representación de los mismos datos, con solo el título y el subtítulo de encuadre, cambiados. Fuente: Datos de Kaba et al., "Disparities in Mental Health Referral and Diagnosis in the New York City Jail Mental Health Service". Gráfico de Catherine D'Ignazio. Datos de Fatos Kaba et al., “Disparities in Mental Health.

Restaurando el contexto

Tres iteraciones en un solo título gráfico pueden parecer excesivas, pero también ayudan a subrayar el punto más importante de que considerar el contexto siempre implica una combinación de interés y tiempo. Afortunadamente, hay mucha energía en torno a los problemas de contexto en este momento, y educadores, periodistas, bibliotecarias/os, informáticas/os y activistas de datos cívicos están comenzando a desarrollar herramientas y métodos más sólidos para mantener el contexto adjunto a los datos para que sea más fácil de incluir en el resultado final.

Por ejemplo, ¿recuerda la figura 6.3, ese cuadro confuso de adquisiciones gubernamentales en São Paulo que discutimos anteriormente en este capítulo? Gisele Craveiro, profesora de la Universidad de São Paulo, ha creado una herramienta llamada Cuidando do Meu Bairro (Cuidando mi barrio) para hacer que los datos de gasto sean más accesibles para la ciudadanía al agregar contexto local adicional a la presentación de la información.57 En el aula, Heather Krause, científica de datos y educadora, ha desarrollado el concepto de “biografía de datos”.58 Antes de comenzar el proceso de análisis, Krause les pide a las personas que trabajan con datos, en particular a periodistas, que escriban una breve historia de un conjunto de datos en particular y respondan cinco preguntas básicas: ¿De dónde proviene? ¿Quién lo recogió? ¿Cuándo? ¿Cómo se recolectó? ¿Por qué se recolectó? Una propuesta relacionada pero un poco más técnica defendida por los investigadores de Microsoft se llama hojas de datos para conjuntos de datos.59 Inspirándose en las hojas de datos que acompañan a los componentes de hardware, la informática Timnit Gebru y sus colegas abogan porque editores de datos creen documentos breves de tres a cinco páginas que acompañen a los conjuntos de datos y describan cómo se crearon y recopilaron, qué datos podrían faltar, si el preprocesamiento se hizo y cómo se mantendrá el conjunto de datos, así como una discusión sobre consideraciones legales y éticas, como si el proceso de recopilación de datos cumple con las leyes de privacidad en la Unión Europea.60

Otra práctica emergente que intenta situar mejor los datos en contexto es el desarrollo de guías de usuario de datos.61 Bob Gradeck, gerente del Centro de Datos Regional del Oeste de Pensilvania, comenzó a escribir guías de uso de datos porque recibía las mismas preguntas una y otra vez sobre conjuntos de datos populares que administraba, como datos de propiedades e informes de residentes 311 en Pittsburgh. Gradeck informa: “Nos tomó un tiempo aprender consejos y trucos. [...] Quería tomar las cosas que tenía en la cabeza y exponerlas con un contexto adicional, para que otros usuarios de datos no tuvieran que hacerlo desde cero".62 Las guías de uso de datos son documentos simples escritos que contienen un retrato narrativo de un conjunto de datos. Describen, entre otras cosas, la finalidad y aplicación de los datos; la historia, el formato y los estándares; el contexto organizacional; otros análisis e historias que han utilizado el conjunto de datos; y las limitaciones e implicaciones éticas del conjunto de datos. Esto es similar al trabajo que realizan los y las periodistas de datos para compilar conjuntos de datos y luego ponerlos a disposición para su reutilización. Por ejemplo, Associated Press pone a la venta estadísticas nacionales completas sobre la segregación escolar en los Estados Unidos.63 Las hojas de cálculo van acompañadas de una explicación narrativa de veinte páginas sobre los datos que incluye limitaciones e ideas de ejemplos de historias.

Estos desarrollos son emocionantes, pero aún queda mucho por hacer con respecto a los problemas de poder y desigualdad que afectan los entornos de recopilación de datos. Por ejemplo, la profesora de ciencia política Valerie Hudson ha trabajado durante décadas para rastrear los vínculos entre la seguridad del Estado y la condición de la mujer. “Me interesaba saber si las formas de opresión, subordinación o violencia contra las mujeres estaban relacionadas con la inestabilidad y los conflictos nacionales, y tal vez internacionales”, explica. Ella y el geógrafo Chad Emmett iniciaron el proyecto WomanStats como una modesta hoja de cálculo de Excel en 2001. Desde entonces ha crecido hasta convertirse en una base de datos web a gran escala con más de un cuarto de millón de puntos de datos, incluidas más de 350 variables que van desde el acceso a la atención médica hasta la prevalencia de la violación pasando por la división del trabajo doméstico.64

En particular, sus fuentes son tanto cualitativas como cuantitativas. Hudson dice: “Si deseas investigar sobre mujeres, debes adoptar datos cualitativos. No hay dos formas de hacerlo porque la realidad de la vida de las mujeres simplemente no se captura en las estadísticas cuantitativas. Absolutamente no."65 En la actualidad, WomanStats incluye dos tipos de variables cualitativas: (i) las variables de práctica se componen de los informes de las mujeres sobre sus experiencias vividas, y (ii) las variables de ley que se codifican a partir de los marcos legales de un país en particular. De hecho, el libro de códigos de WomanStats es el sueño de un/a/e nerd de contexto porque describe problemas de medición y advierte sobre la incompletitud de sus propios datos.66 Por ejemplo, con respecto a los datos que registran informes de violación, un tema lo suficientemente inquietante como para considerarlo, y mucho más aún para contemplar su escala y alcance en todo un país, el libro de códigos dice: “¡CAVEAT EMPTOR! Se advierte a sus usuarios que esta escala solo refleja las tasas de violación reportadas, y para muchos, si no la mayoría de los países, ¡este es un indicador completamente poco confiable de la prevalencia real de la violación dentro de una sociedad!67 En lugar de centrarse en una sola variable, los, las y les usuaries son dirigidos a las escalas compuestas de WomanStats, como la escala integral de violación, que analiza la prevalencia informada en el contexto de las leyes, si las leyes se hacen cumplir, los informes de la experiencia vivida, la fuerza de los tabúes en ese entorno, entre otros.

Por lo tanto, se están desarrollando y probando herramientas y métodos para proporcionar contexto. Y WomanStats modela cómo el contexto también puede incluir un análisis del poder social desigual. Pero, si nos alejamos de los experimentos a nivel de proyecto, lo que queda turbio es esto: ¿Qué actores en el ecosistema de datos son responsables de proporcionar contexto?

¿Son sus personas usuarias finales? En el caso de los comentarios faltantes de Reddit, vemos cómo incluso quienes tienen una mayor educación entre los demás no logran verificar las afirmaciones básicas de su fuente de datos. Y las hojas de datos para conjuntos de datos y guías de usuario de datos son excelentes, pero ¿podemos esperar que personas individuales y equipos pequeños realicen un proyecto de investigación de antecedentes en profundidad dentro de una fecha límite y con un presupuesto limitado? Esto impone expectativas y responsabilidades poco razonables para los recién llegados y es probable que conduzca a más casos de errores y violaciones éticas de alto perfil.

Entonces, ¿son quienes editan los datos? En el caso de GDELT, vimos cómo sus editores de datos, en su búsqueda de financiación para la investigación, exageraron sus capacidades y no documentaron las limitaciones de sus datos. Los comentarios de Reddit fueron un poco diferentes: el conjunto de datos fue proporcionado por una persona que actuó de buena fe, pero no verificó, y probablemente no tenía los recursos para verificar, su declaración de integridad. En el caso de los datos de agresión sexual en el campus, son las universidades las responsables de la autoinformación y se rigen por sus propios resultados.68 El gobierno no cuenta con suficientes recursos para verificar y documentar todas las limitaciones de los datos.

¿Son los intermediarios de datos? Esos intermediarios, también llamados infomediarios, pueden incluir profesionales de bibliotecas, periodistas, organizaciones sin fines de lucro, educadores y demás profesionales de la información pública.69 Existen fuertes tradiciones de conservación y gestión de datos en biblioteconomía, y quienes trabajan en las bibliotecas suelen ser el rostro humano de las bases de datos para la ciudadanía y residentes. Pero, como señala la experta en medios Shannon Mattern, son estas personas las que a menudo quedan fuera de las conversaciones sobre ciudades inteligentes y tecnología cívica.70 Los ejemplos de datos bien seleccionados, verificados y contextualizados del periodismo, como la base de datos de Associated Press sobre la segregación escolar u otros conjuntos de datos disponibles en el almacén de datos de ProPublica, también son prometedores.71 La organización sin fines de lucro Measures for Justice proporciona datos completos y contextualizados sobre la justicia penal y las tasas de encarcelamiento en los Estados Unidos.72 Algunos intermediarios de datos, como Civic Switchboard en Pittsburgh, están construyendo sus propios ecosistemas de datos locales como una forma de trabajar hacia la sostenibilidad y la resiliencia.73 Estos intermediarios que limpian y contextualizan los datos para uso público tienen potencial (y tienen menos conflictos de intereses), pero se necesitaría una financiación sostenida, un desarrollo de capacidades significativo y el establecimiento de normas profesionales para hacer esto a escala.

Houston, tenemos un problema de información pública. Hasta que invirtamos tanto en proporcionar (y mantener) el contexto como lo hacemos en la publicación de datos, terminaremos con recursos de información pública que son deficientes en el mejor de los casos y peligrosos en el peor. Esto termina siendo aún más espinoso ya que la gran cantidad de datos digitales complica el trabajo de verificación, procedencia y contextualización que tradicionalmente han llevado a cabo archivistas. El contexto y la infraestructura de información que requiere deben ser un enfoque importante para los defensores de los datos abiertos, las fundaciones filantrópicas, personas encargadas de las bibliotecas, investigadores, las organizaciones de noticias y reguladores en el futuro. Nuestras vidas basadas en datos dependen de ello.

Considera el contexto

El sexto principio del feminismo de datos es considerar el contexto. La conclusión es que los números no pueden hablar por sí mismos. De hecho, quienes trabajamos con datos debemos evitar activamente que los números hablen por sí mismos porque cuando esos números se derivan de una configuración de datos influenciada por diferenciales de poder o por incentivos de recopilación desordenados (léase: casi todas las configuraciones de datos), y especialmente cuando los números tienen que ver con los seres humanos o su comportamiento, entonces corren el riesgo no sólo de ser arrogantemente grandilocuentes y empíricamente erróneos, sino también de hacer un daño real al reforzar un statu quo injusto.

La forma de superar este dilema es considerar el contexto, un proceso que incluye la comprensión de la procedencia y el entorno en el que se recopilaron los datos, así como trabajar duro para enmarcar el contexto en la comunicación de datos (es decir, los números no deben hablar por sí mismos en los gráficos de cualquier manera, más de lo que deberían en hojas de cálculo). También, incluye analizar el poder social en relación con la configuración de datos. ¿Qué desequilibrios de poder han provocado silencios en el conjunto de datos o datos que faltan por completo? ¿Quién tiene conflictos de intereses que les impiden ser totalmente transparentes sobre sus datos? ¿De quién es el conocimiento sobre un tema que ha sido subyugado y cómo podemos empezar a recuperarlo? La energía en torno al contexto, los metadatos y la procedencia es impresionante, pero hasta que financiamos el contexto, el excelente trabajo contextual seguirá siendo la excepción y no la norma.