Search

Breve curso para mentir con gráficos

Autor
Categoría
Ciencia
Historia
Home
Matemáticas
Sociología
Fecha de Publicación
2020/07/19
Temas
6 more properties
Hace algún tiempo, en Etilmercurio escribimos un artículo sobre medias, medianas y panes. Allí aprendimos (?) que los datos que se dan a conocer a la opinión pública deben leerse con cuidado, y que no siempre las primeras impresiones que tenemos de un dato son las correctas. Pero algo que definitivamente no aporta en la tarea de entender y analizar la información, es cuando ésta es diseñada, generada o publicada de manera sesgada. O todo a la vez.
Tal como nos enseñó el otro artículo (?), es importante conocer -y dar a conocer- de los métodos para diseñar, aplicar e interpretar las encuestas, ya que finalmente, una encuesta mal diseñada puede terminar mostrando una «realidad» sesgada, y lamentablemente otras veces una realidad «a conveniencia» de quien la diseña (no queremos dar nombres, pero ustedes-ya-saben-quién). Pero en esa oportunidad no hablamos de un tema fundamental en todo este asunto: la representación de la información para fácil interpretación. Es decir, los gráficos.

Los gráficos

En el colegio nos enseñaron gráficos. O al menos debieron. Aprendimos que hay gráficos de torta, de barras y de línea. Luego cuando crecimos y empezamos nuestra carrera de Ingeniería Comercial (?), descubrimos que había todo un mundo de gráficos que podíamos hacer a partir de un montón de números, y que incluso podíamos cambiar de uno a otro con un click, y quedarnos con el más «lindo».
Lamentablemente, la realidad es más compleja que eso, y cada vez que generamos un gráfico, estamos diseñando una forma de ver un hecho. Y, ya sea por error o intencionalmente, podemos terminar forzando los datos para que muestren una realidad antojadiza.
En este post les vamos a enseñar a detectar los gráficos mal hechos (o mal intencionados), y si ponen atención podrán hacer sus propios gráficos basura para confundir y enfurecer a sus amiguitos amantes de las ciencias exactas.

No lo llamaron de barra por lindo

Uno pensaría que los gráficos que vemos a diario han existido siempre, y que incluso el primer cavernícola que egresó de la universidad cavernaria sabía crearlos. Sin embargo, la historia de los gráficos es más bien reciente, siendo finales del siglo XVIII la etapa más prolífica en la aparición de esta herramienta de presentación de datos. Esto tiene sentido si pensamos que el desarrollo de la Estadística moderna comienza a mediados del mismo siglo (1).
Es al ingeniero escocés William Playfair, quien en 1786 incluyó en el Commercial and Political Atlas una serie de datos de importación y exportación de productos a Escocia, a quien debemos la existencia del tan famoso como vilipendiado gráfico de barras (2).
Probablemente la lista consistía en distintos tipos de Whisky y toffees
La verdad es que los gráficos de barras están bastante desprestigiados, porque hacen ver los datos más lindos de lo que son y pueden llegar a esconder la realidad (¡y la verdad!). En general, las barras representan el promedio, pero no hacen hincapié en qué tan distintos son los datos que se representan.
Por ejemplo, viendo solamente las barras en estos gráficos, uno pensaría que el numero de pepas en peras y manzanas es casi el mismo; sin embargo, si los mismos datos los mostramos en forma individual (ver mas abajo) se ve que la historia es bien distinta. Tenemos algunas manzanas que casi no tienen pepas y otras que están llenas, mientras que las peras tienen un numero mas constante. (Nota: estos datos son inventados, pero lo invitamos a hacer el experimento con sandías y melones, por ejemplo).
Como aprendimos en el post de promedios, usar la media no siempre es la mejor manera de mostrar un dato.
No mezclemos peras con manzanas, mira que la distribución estándar es bastante distinta entre peras y manzanas

Estos científicos nos crean más gráficos como una forma de vendernos más matemática

La matemática no tiene la mejor de las famas, y algunas personas ya se dieron cuenta de eso hace un par de siglos atrás. Como vimos, el buen William Playfair apareció con la idea del gráfico de barras en 1786, pero él no sólo ideó el gráfico de barras, sino también el de líneas, áreas y el famoso gráfico de tortas. Se nota que quería acercar la matemática al pueblo (?).
Posteriormente William creó su propia sitcom: How I Met Your Charts
Algunos tipos de gráficos son mejores para representar cierto tipo de datos. Florence Nightingale, fundadora de la enfermería moderna y primera mujer aceptada en la Royal Statistical Society, generó la primera versión de un gráfico de torta a mediados del siglo XIX llamado diagrama de área polar, con el objetivo de resumir el número de muertes en el ejército británico en la Guerra de Crimea (2). Si bien este tipo de gráficos es menos intuitivo, son muy comunes para representar el número de fallecimientos dado un determinado ciclo, por lo que es bastante probable que veamos más de estos gráficos en el corto plazo. Lamentable pero cierto.
El bueno de Pearson, nombre muy popular entre quienes trabajan con estadística, también hizo su pequeño aporte a la causa inventando el histograma en el año 1891 (2), que es como un gráfico de barras pero que sólo le sirve a quienes buscan identificar el tipo de distribución de una variable. Esto es de un nivel de ñoñez superior, así que no vamos a aburrirlos entrar en detalles, pero de que el histograma es útil, es útil.
Ahora, si quisieran impresionar a alguien en una fiesta, o abrazar el estilo hipster por completo, pueden hablar del diagrama de caja o gráfico de caja y bigotes (sí, es su verdadero nombre) y fue creado por John Tukey, otro tipo que tiene una prueba estadística con su nombre, y que le presentó al mundo su creación por allá por 1977. Como vemos, hay gráficos más recientes y otros que ya tienen sus añitos, pero la verdad es que esto de graficar es más bien reciente.

Errores y Horrores a la hora de graficar

Uno de los errores más comunes a la hora de graficar está relacionado con el eje Y o eje de valores, es decir, la linea vertical del gráfico. Aquí podemos encontrar unidades de medidas distorsionadas o derechamente ocultas, de manera que la presentación de los datos nos hace sub o sobredimensionar las diferencias entre los grupos.
Pero aterricemos el asunto, ¿cuándo los valores del eje Y están distorsionados y cómo podemos darnos cuenta? Para empezar, veamos un ejemplo contingente, relacionado con el COVID-19:
Este caso grafica (I see what you did there) dos de los principales elementos a considerar en relación al eje Y cuando se interpreta un gráfico. En primer lugar, hay que poner atención al punto de partida del eje, que en este caso es 30. ¿Deben todos los gráficos partir en el valor cero, o se puede decidir de manera arbitraria dónde iniciar el eje Y? Esa es una pregunta que tiene múltiples respuestas y que depende también de los datos que se están graficando. Si el valor 0 es un valor esperado, o incluso deseado, nuestra sugerencia es partir con el valor 0. Usando el número de contagios diarios de COVID-19, el valor deseado es cero, por lo que sería más honesto partir de ese valor.
No estamos diciendo con esto que esté mal partir desde otros valores, pero todo va a depender del contexto y de los datos. Si el valor 0 es un valor inusual, no deseado o prácticamente imposible, por ejemplo cuando graficamos el valor del dólar o la inversión anual de un Estado en salud, es razonable partir de un valor distinto al cero.
Un segundo elemento a considerar respecto del eje Y es el intervalo que se presenta. Estos intervalos, en caso de gráficos lineares, deben seguir un mismo patrón, situación que no ocurre en el ejemplo anterior: el número de casos parte de 30 en 30, luego pasa a 10, continúa de 30 en 30, da un salto de 50 casos, otro de 10, y de ahí continúa de 50 en 50. Es decir, un despelote.
¿Por qué se ocupan criterios arbitrarios para construir los intervalos? Si bien no podemos asegurar que la intención del medio es manipular la información, todo apunta al menos a una deshonestidad intelectual. Como se puede ver, los intervalos usados en el eje Y permiten que el alza entre los 174 y los 344 casos parezca mucho menor de lo que realmente es, mientras que la caída del día 29 de marzo parece mucho más pronunciada de lo que realmente es.
En el ejemplo anterior, aún cuando la información estaba tergiversada, los valores del eje Y estaban informados. Pero, pero, pero, hay casos aún peores, donde se oculta el eje Y, invisibilizando la manipulación de los datos. Para ello, veamos un claro ejemplo que fue televisado en nuestro mismísimo país, también aludiendo al número de contagios de COVID-19, esta vez mostrando el acumulado:
Verde, amarillo y rojo, ¿Dónde he visto esos colores antes?
Lo que se ve en este caso es la representación de datos en tres países distintos, ocultando el eje Y y además cambiando la escala de este eje de tal manera que la diferencia entre 2500 y 1306 (1194) se vea el triple de mucho mas mayor que la diferencia entre 4.200 y 2500 (1700). Claramente en el gráfico se induce un truco «visual» en que hace que el círculo verde (hablemos de un país que produce vinos) presenta una diferencia abismal con el círculo amarillo (el país de las pizzas que le gustan tanto a nuestro presidente), y este último muy cerca del círculo rojo (sabemos que el rojo es algo muy malo). Lo peor, a nuestro juicio, es la representación de colores del gráfico, el que en primer lugar, es muy poco amigable con la gente con ceguera de color (así se dice) si no que además hace un efecto de semáforo, indicando que el verde está muy bien.

¿Cómo «ajustar la verdad» usando un gráfico?

Ya vimos un par de formas en que uno puede ajustar a la realidad de uno mismo o lo que quiere representar en un gráfico, y que hay muchas formas de representar la realidad, distorsionada o no.
Supongamos que los datos que estamos representando son certeros, y que las unidades en el eje Y están claras y son equivalentes. Todo bien con eso, pareciera que no estamos ante un gráfico engañoso. Pero espera, que siempre hay nuevas formas de distorsionar la realidad. Una de ellas es manipulando el otro eje, el eje X, también conocido como el eje horizontal o de variables independientes. Veamos el siguiente ejemplo: el gráfico que se muestra a continuación muestra la cantidad de muertes por día y acumuladas por causa del COVID-19. Pareciera que la cosa estaba mejorando, y esa es la primera impresión que cualquier persona tendría, pero ojo, pestaña y ceja, porque los días están ordenados en forma decreciente: partimos con la fecha más cercana a la actual, y terminamos con la fecha más alejada al presente. ¿En qué cabeza cabe que esta presentación de datos es intuitiva? ¿Será que fue un error o que alguien quiso que pensáramos que la cosa estaba mejorando y que podíamos volver a la «nueva normalidad»? Spoiler alert: no se pudo.
Así las cosas, pareciera que el 15 de mayo pasó primero que el 9 de mayo. Ni Dark se atrevió a tanto.
Como vemos, la presentación de los datos es fundamental. Podríamos estar horas y horas revisando material de gráficos mal hechos, tanto así que tuvimos que dejar fuera de este post decenas de horribles y maravillosos ejemplos de cómo hacer malos gráficos. Pero antes de cerrar, también es importante tener en cuenta la presentación errada o mal intencionada de los datos no va solamente con problemas con el eje X o con el eje Y, sino que con errores que son sencillamente inexplicables, si es que pensamos que son sólo errores. Por ejemplo, gráficos donde un valor más alto ocupa una dimensión menor del gráfico, o donde dos valores iguales presentan distintas posiciones en el plano, o donde incluso por porcentajes suman más de 100%.
97+2+26+7... Eh, bueno, algo no nos calza aquí.
En serio, no estamos inventando, estos errores se han visto en la prensa nacional e internacional. No es broma. Hasta en un debate presidencial apareció un gráfico distorsionado. Entonces, ¿qué podemos hacer ante tanta desidia de la prensa a la hora se graficar datos? Lo primero: like y compartir a este post. No, mentira, nosotras/os no los mandamos, pero sí les sugerimos que revisen los datos de manera atenta, que vean la información que se está graficando, que pongan atención a los ejes y a las proporciones. Y recuerden siempre revisar las fuentes de los datos.
PD. ¿Tienes gráficos horribles para compartir? ¡Déjalos en los comentarios!

Referencias