Negocios, Ciencia de Datos y Causalidad




“Correlación no es causalidad” es una frase comúnmente repetida en el ámbito académico. Una versión extremadamente simplificada de esta especie de mantra científico implica que, para probar el efecto causal de una determinada intervención (tratamiento) en una variable definida (resultado), debemos estar seguros de aislar el efecto de todos y cada uno de los factores que pudieran estar afectando al resultado (aparte del tratamiento), además de descartar también una relación de causalidad reversa (es decir, que sea el resultado el que esté influyendo en el tratamiento, y no al revés). Probar de manera contundente todos estos supuestos para determinar una relación de causa y efecto suena difícil, y efectivamente lo es, especialmente en ciertos contextos.

En determinadas ciencias como la física, química o biología, la medición de un efecto causal no implica un esfuerzo extraordinario.  Bastará con realizar un experimento bajo condiciones controladas (por ejemplo, en un laboratorio), para asegurarnos de que el único efecto que obtenemos es el resultado de nuestra intervención.  En este sentido, podemos estar seguros de la relación causal entre tratamiento y resultado. Sin embargo, en las ciencias sociales o en los negocios  es muy difícil o casi imposible pensar en un experimento de laboratorio[1], y por lo tanto, confiamos en los denominados datos observacionales (o, más simplemente, observaciones) para tratar de inferir relaciones de causa y efecto.

Big data, machine learning, data mining, “ciencia de datos” son conceptos que forman parte de una jerga que parecen hacer obsoleto el debate correlación versus causalidad.  ¿Es esto realmente así?  El progresivo poder de cómputo y, por contrapartida, su costo decreciente implica que, dada una disponibilidad de datos cada vez mayor, el procesamiento de los mismos es cada vez más "barato", y que los modelos de predicción son cada vez más poderosos y precisos.  Pero, la pregunta relevante es, ¿cómo esto ayuda al ámbito de los negocios?

Por ejemplo, la recopilación de datos (y su respectiva modelación) sobre clicks en la página web de una determinada compañía podría ser utilizada para estimar el impacto de una determinada campaña de mercadeo (tratamiento) en el incremento en las ventas del producto sujeto de esta campaña (resultado).  Pero, ¿es esta una relación de causalidad?  No necesariamente.  Puede que el sofisticado modelo haya encontrado una correlación, pero la relación causa – efecto (como ya mencionamos) va mucho más allá.

En este punto entran en escena los economistas. Estamos obsesionados con la estimación del efecto causal de una determinada acción voluntaria o involuntaria (sea esta una política pública, un shock macroeconómico o una campaña de mercadeo).  Lo que buscamos es tratar de aislar (mediante distintas técnicas) la relación causa → efecto de los denominados “confundidores”[2]:  factores que podrían estar interviniendo en el efecto (y no necesariamente el tratamiento que se analiza, por ejemplo, una propaganda en Facebook). El hecho de que la campaña en Facebook haya producido más clicks en los productos puede ser simplemente pura coincidencia (casualidad y no causalidad): una diversidad de factores puede haber hecho que esto haya sido así.  Entonces, hallar el efecto de nuestra campaña en Facebook puede tornarse imposible.

Compañías top-tech tales como Facebook, Amazon, Microsoft, IBM, Uber (por mencionar solamente algunas) han venido contratando científicos de datos para que les ayuden a desarrollar modelos que pronostiquen patrones de consumo, gustos, etc., esto con el objetivo de maximizar sus ganancias a través de un mayor conocimiento de las preferencias de sus clientes. Sin embargo, más recientemente estas empresas han empezado a contratar economistas[3] y cientistas sociales más afines a la inferencia causal, es decir, a encontrar relaciones de causa y efecto que van más allá de una correlación.

Uno de los científicos de la causalidad más connotados de la actualidad y profesor de la UCLA, Judea Pearl, sostiene que los métodos de ciencia de datos (por ejemplo, un modelo de machine learning) actúan de forma ad hoc, sin una estructura definida y con una lógica simplemente estadística, y que por lo tanto esto limita de manera importante su desempeño en el razonamiento causa/efecto.  Dicho de otro modo, estos sistemas no pueden “razonar” acerca de intervenciones y tratamientos.  Según Pearl[4], esto se debe a dos diferencias conceptuales fundamentales en lo que se refiere a la inferencia causal:

·         Ver”: Un algoritmo basado en machine learning será extremadamente bueno para examinar los datos y descifrar patrones. Pero no nos dice nada sobre las relaciones de causalidad. 
·         Intervenir” o “hacer”: Una decisión gerencial implicará discernir, por ejemplo, el efecto causal de una campaña de mercadeo, mayor inversión en Investigación & Desarrollo, etc. en variables de resultado (utilidades, pedidos, ventas).

De algún modo, esto explica los esfuerzos que están haciendo las compañías para incorporar economistas y cientistas de datos con destrezas en inferencia causal a sus equipos.  Es posible que, hasta ahora, se haya puesto demasiado énfasis en predecir, es decir, en simplemente “ver”; mientras que en realidad se debería dar mayor importancia a las relaciones causa → efecto, esto es, en “intervenir” o “hacer”.  

El corolario de esta historia podría ser que en la actualidad requerimos un híbrido entre cientista social y de datos.  Alguien cuya formación incluya el suficiente grado de sofisticación como para utilizar herramientas poderosas para reconocer patrones recurrentes (esto es, para “ver”), pero también un profesional con la suficiente sensibilidad y destrezas para tratar de reconocer relaciones de causa → efecto, una tarea extremadamente difícil[5] pero crucial.
Ilustración: https://imgs.xkcd.com/comics/correlation.png


Autor: Pablo Evia
Nota: Las ideas y opiniones expresadas en este documento son las de los autores y no reflejan necesariamente la posición oficial de la Escuela de la Producción y de la Competitividad (ePC).


[1] A pesar de la aplicación progresiva de los denominados RCTs (randomized control trials) y experimentos de laboratorio en ciencias sociales.
[2] Mejor conocidos por su término en idioma inglés: confounders.
[3] DePillis, Lydia. “Amazon Gets an Edge with Its Secret Squad of PhD Economists.” CNN, Cable News Network, 13 Mar. 2019, edition.cnn.com/2019/03/13/tech/amazon-economists/index.html.
[4] Pearl, Judea. "Theoretical Impediments to Machine Learning with Seven Sparks from the Causal Revolution." Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining - WSDM '18, 2018. doi:10.1145/3159652.3176182.
[5] Bunker, Nick, "Correlation and Causality in Economics: Can We Prove It?" World Economic Forum. https://www.weforum.org/agenda/2016/05/correlation-and-causality-in-economics-can-we-prove-it/.

Comentarios

Entradas populares de este blog

¿Los emprendedores nacen o se hacen? ¿Habrá un método para emprender?

¿El desarrollo financiero fomenta el emprendimiento innovador?

Construyendo la nueva normalidad