Negocios, Ciencia de Datos y Causalidad
“Correlación no es causalidad” es
una frase comúnmente repetida en el ámbito académico. Una versión
extremadamente simplificada de esta especie de mantra científico implica que, para probar el efecto causal de una
determinada intervención (tratamiento) en una variable definida (resultado),
debemos estar seguros de aislar el efecto de todos y cada uno de los
factores que pudieran estar afectando al resultado (aparte del tratamiento),
además de descartar también una relación de causalidad reversa (es decir, que
sea el resultado el que esté influyendo en el tratamiento, y no al
revés). Probar de manera contundente todos estos supuestos para determinar una
relación de causa y efecto suena difícil, y efectivamente lo es, especialmente
en ciertos contextos.
En determinadas ciencias como la
física, química o biología, la medición de un efecto causal no implica un
esfuerzo extraordinario. Bastará con
realizar un experimento bajo condiciones controladas (por ejemplo, en un
laboratorio), para asegurarnos de que el único efecto que obtenemos es el
resultado de nuestra intervención. En
este sentido, podemos estar seguros de la relación causal entre tratamiento y
resultado. Sin embargo, en las ciencias sociales o en los negocios es muy difícil o casi imposible pensar en un
experimento de laboratorio[1], y por lo tanto, confiamos en los denominados
datos observacionales (o, más simplemente, observaciones) para tratar de inferir
relaciones de causa y efecto.
Big data, machine learning, data mining, “ciencia de datos” son conceptos que forman parte de
una jerga que parecen hacer obsoleto el debate correlación versus causalidad.
¿Es esto realmente así? El
progresivo poder de cómputo y, por contrapartida, su costo decreciente implica
que, dada una disponibilidad de datos cada vez mayor, el procesamiento de los
mismos es cada vez más "barato", y que los modelos de predicción son
cada vez más poderosos y precisos. Pero,
la pregunta relevante es, ¿cómo esto ayuda al ámbito de los negocios?
Por ejemplo, la recopilación de
datos (y su respectiva modelación) sobre clicks
en la página web de una determinada compañía podría ser utilizada para estimar
el impacto de una determinada campaña de mercadeo (tratamiento) en el
incremento en las ventas del producto sujeto de esta campaña (resultado). Pero, ¿es esta una relación de
causalidad? No necesariamente. Puede que el sofisticado modelo haya
encontrado una correlación, pero la
relación causa – efecto (como ya mencionamos) va mucho más allá.
En este punto entran en escena los economistas. Estamos obsesionados con
la estimación del efecto causal de una determinada acción voluntaria o
involuntaria (sea esta una política pública, un shock macroeconómico o
una campaña de mercadeo). Lo que
buscamos es tratar de aislar (mediante distintas técnicas) la relación causa →
efecto de los denominados “confundidores”[2]: factores
que podrían estar interviniendo en el efecto (y no necesariamente el tratamiento
que se analiza, por ejemplo, una propaganda en Facebook). El hecho de que la
campaña en Facebook haya producido más clicks
en los productos puede ser simplemente pura coincidencia (casualidad y no causalidad): una diversidad de factores
puede haber hecho que esto haya sido así.
Entonces, hallar el efecto de nuestra campaña en Facebook puede
tornarse imposible.
Compañías top-tech tales como Facebook, Amazon, Microsoft, IBM, Uber (por
mencionar solamente algunas) han venido contratando científicos de datos para que les ayuden a desarrollar modelos que
pronostiquen patrones de consumo, gustos, etc., esto con el objetivo de
maximizar sus ganancias a través de un mayor conocimiento de las preferencias
de sus clientes. Sin embargo, más recientemente estas empresas han empezado a
contratar economistas[3] y cientistas sociales más afines a la
inferencia causal, es decir, a encontrar relaciones de causa y efecto que van más allá de una correlación.
Uno de los científicos de la
causalidad más connotados de la actualidad y profesor de la UCLA, Judea Pearl,
sostiene que los métodos de ciencia de datos (por ejemplo, un modelo de machine learning) actúan de forma ad hoc, sin una estructura definida y
con una lógica simplemente estadística, y que por lo tanto esto limita de
manera importante su desempeño en el razonamiento causa/efecto. Dicho de otro modo, estos sistemas no pueden
“razonar” acerca de intervenciones y tratamientos. Según Pearl[4], esto se debe a dos diferencias conceptuales
fundamentales en lo que se refiere a la inferencia causal:
·
“Ver”: Un algoritmo basado en machine learning será extremadamente
bueno para examinar los datos y descifrar patrones. Pero no nos dice nada sobre
las relaciones de causalidad.
·
“Intervenir” o “hacer”: Una decisión gerencial implicará discernir, por ejemplo, el
efecto causal de una campaña de mercadeo, mayor inversión en Investigación
& Desarrollo, etc. en variables de resultado (utilidades, pedidos, ventas).
De algún modo, esto explica los
esfuerzos que están haciendo las compañías para incorporar economistas y
cientistas de datos con destrezas en inferencia causal a sus equipos. Es posible que, hasta ahora, se haya puesto
demasiado énfasis en predecir, es decir, en simplemente “ver”; mientras que en
realidad se debería dar mayor importancia a las relaciones causa → efecto, esto
es, en “intervenir” o “hacer”.
El corolario
de esta historia podría ser que en la actualidad requerimos un híbrido entre
cientista social y de datos. Alguien
cuya formación incluya el suficiente grado de sofisticación como para utilizar
herramientas poderosas para reconocer patrones recurrentes (esto es, para
“ver”), pero también un profesional con la suficiente sensibilidad y destrezas para
tratar de reconocer relaciones de causa → efecto, una tarea extremadamente
difícil[5] pero crucial.
Ilustración: https://imgs.xkcd.com/comics/correlation.png
Autor: Pablo Evia
Nota: Las ideas y opiniones expresadas en este documento son las de los autores y no reflejan necesariamente la posición oficial de la Escuela de la Producción y de la Competitividad (ePC).
[1] A pesar de la aplicación
progresiva de los denominados RCTs (randomized control trials) y
experimentos de laboratorio en ciencias sociales.
[3] DePillis, Lydia. “Amazon Gets an Edge with
Its Secret Squad of PhD Economists.” CNN, Cable News Network, 13 Mar. 2019,
edition.cnn.com/2019/03/13/tech/amazon-economists/index.html.
[4] Pearl, Judea. "Theoretical Impediments to Machine
Learning with Seven Sparks from the Causal Revolution." Proceedings of the
Eleventh ACM International Conference on Web Search and Data Mining - WSDM '18,
2018. doi:10.1145/3159652.3176182.
[5] Bunker, Nick, "Correlation and Causality
in Economics: Can We Prove It?" World Economic Forum.
https://www.weforum.org/agenda/2016/05/correlation-and-causality-in-economics-can-we-prove-it/.
Comentarios
Publicar un comentario