Big Data Spain 2016

El pasado 17 de Noviembre, acudí al evento de Big Data Spain 2016 que tuvo lugar en el Kinépolis de Madrid.

Durante dos jornadas prestaría atención a diferentes conferenciantes venidos de distintos lugares del mundo y también de España, para hablar sobre el concepto que ahora está tan de moda.

Pero, ¿qué es realmente Big Data? más allá de la definición que da Wikipedia, existe otra más sencilla y que me gusta más: pasamos a nivel de Big Data cuando los datos con los que se está trabajando, no se pueden tratar en memoria, sino que es necesario almacenar la información en algún otro lugar.

Para el tratamiento / gestión de la información y datos a gran escala, existen una variedad amplísima de sistemas como se muestra en el siguiente esquema. Como se puede observar, es un universo tan extenso y por ende, difícil de alcanzar por una misma persona.




Aunque al final, los términos que más sonaron fueron...




He de aclarar, que el evento aunque buscaba cubrir los enfoques tanto de negocio como técnico, estaba mayormente enfocado a este último. La parte "business" digamos, se cubrió a base de "keynotes":




Y es por eso que acudí con mi queridísimo compañero Chema.




Lo que pretendo en esta publicación es comentar algunas de las charlas que más me gustaron / me llamaron la atención ya que más adelante, saldrán a la luz los vídeos y las diapositivas de cada una de las ponencias.




He de decir que esta ponencia me gustó mucho. Quizás porque me toca muy de cerca tras haber dedicado una gran parte de mi experiencia laboral al sector.

Los que estáis al tanto sabréis, que se trata de un ramo que los últimos años está sufriendo importantes cambios y transformaciones, y que de hecho, actualmente se encuentra en pleno proceso de re-conversión estructural.

Como bien decía Ignacio Bernal, el cambio viene propiciado principalmente por tres factores:

  • Nueva regulación
Cada vez son de mayor exigencia los requisitos de capital impuestos a las entidades bancarias. Con la salida de normativas de Basilea I, II y III y normativas adicionales, la banca tiene cada vez más restricciones en sus movimientos.

La normativa europea que finalmente se traspone en formato de Circular, obliga a las entidades españolas a hacer un mayor aprovisionamiento de sus reservas con el fin de evitar situaciones de crisis como la vivida hace unos años, de tal forma que ese colchón amortigüe tanto las pérdidas esperadas como las no esperadas.

No llevo la cuenta de las normas que se han emitido en los últimos años en relación a este tema. Recuerdo que cuando ejercía, era una constante que saliera una tras otra... y sin embargo, en mi interior tenía una fuerte sensación de contradicción porque... ¿de qué sirve tanta regulación? ¿no sería mejor asegurarse de que se cumple la que ya existe? 



  • Nuevos clientes
Definitivamente los clientes digitales tienen una expectativas que difieren con creces del resto de clientes, acostumbrados a una banca más tradicional. 

Los llamados "nativos digitales" dan por hecho poder hacer las transacciones y gestiones a través del móvil o internet. Esperan con las nuevas tecnologías que los procesos sean ágiles.

En el futuro, se estima que sólo uno de cada tres clientes acudirá a su gestor bancario para consultar las decisiones financieras. En el resto de ocasiones, se realizarán comparaciones bien mediante búsquedas online o bien a través de fuentes des-estructuradas como amigos, familiares, ratings, etc...





  • Nuevos competidores
Y por último este factor, que me parece de lo más fascinante porque en mi opinión, es el que está presionando más para que el sector se re-convierta.

A lo largo de la historia, las entidades bancarias han sufrido con las diferentes crisis económicas, lo que les ha llevado a procesos de fusiones y por ende, que el número de jugadores cambiara: en este último periodo hemos asistido a multitud de esos procesos de tal forma que las cajas de ahorro han dejado de existir.

Sin embargo, las circunstancias han cambiado, ya no están solos: las reglas del juego han cambiado a partir de la entrada de nuevos players que lo que pretenden es arrebatar a los bancos una parte importante de su cuota de mercado. 

Desde que Google, Alibaba, Amazon... y otras pequeñas fintech son capaces de comerse alguna de las piezas de valor del mercado, la tarta se divide en trozos cada vez más pequeños. Al final, son más de doce mil compañías las que están luchando por ocupar un puesto en ese mercado y en muchos otros...



Teniendo en cuenta esos factores, parece que el foco de la transformación del BBVA se está centrando en:
  1. Optimizar el coste de transacciones mediante el uso de Apps o internet
  2. Ser los más ágiles del mercado
  3. Poner al cliente en el centro, no ser arrogantes y ser más inteligentes en ese sentido
Tomando como referencia a los nuevos competidores que disponen una plataforma global, la entidad está trabajando en la creación de una estructura "Data Centric" llamada global cloud banking platform que busca ser usada por todos los branchs.

Actualmente está gestionando el 12% de las transacciones online y se ha logrado con ello, disminuir los costes por transacción (de un valor de 0.008 € que arrojaba la antigua plataforma, a otro bastante inferior, 0.0012 €).

Esta plataforma la están llevando a cabo a través de diferentes start-ups y además, han buscado nuevas formas de atraer talento como por ejemplo la que se muestra en la imagen: utilizando técnicas de gamificación.









Esta es una de las charlas que más me llamó la atención porque básicamente cruzaba dos conceptos que todos conocemos: modelo de negocio Canvas & machine learning.

Es una iniciativa que parte de Lous Dorard evangelista de la disciplina de machine learning, donde lo que pretende con el marco Canvas es por orden en el proceso que se sigue de machine learning, desde su definición hasta la puesta en producción.

Él mismo lo explica en una de las publicaciones de su blog: parte de la base que muchas veces, en base a su experiencia, los equipos de data science y developers dedican una parte importante de su tiempo a resolver problemas que realmente no son necesarios, debido a que existe una comunicación imperfecta con los equipos de negocio: esto lleva a que los esfuerzos no estén alineados con los objetivos de negocio.

A continuación se muestra el marco que pretende poner en orden ideas y generar alineación entre los distintos departamentos:









En la charla aprovechó a explicar su idea a través de un ejemplo práctico - sin duda la mejor forma-.

La exposición versó sobre una compañía que vendía subscripciones mensuales de SaaS. El objetivo por tanto, se centraba en identificar con anticipación los clientes importantes - de mayor revenue- que no fueran a renovar la subscripción.








A través de un modelo de clasificación binario, se pretendía:

  • Por un lado anticiparse para reducir la huída de los clientes (y así disminuir el ratio de abandono - churn rate). 
  • Y por otro, mejorar el ratio del éxito que mide los esfuerzos en retención a través de una mayor comprensión del comportamiento del cliente.


Para llevar a cabo este proceso utilizaría la información del CRM, la base de datos que contiene la información de los pagos, Google Analytics, Soporte del cliente y el canal de Emailing a clientes. En concreto, será el sistema de pagos el que permitirá conocer cuáles son los clientes que han abandonado la subscripción o no en el último mes.

Con el resto de sistemas, será posible extraer y representar un "raw data" que permitirá adquirir una comprensión más profunda de cada uno de los clientes con datos como la edad, ciudad...y otros eventos como el uso del producto (en este caso, las veces que se ha logado, las funcionalidades utilizadas, etc...). También se considerarán las interacciones que ha habido con el departamento de "customer support" y otra información adicional que aporta un mayor contexto como el tipo de dispositivo que utiliza, etc...

La idea es llevar a producción el modelo de clasificación, de ahí que se definan cada uno de los pasos a seguir para cada uno de los casos. En concreto, el proceso seguido para hacer la predicción consistiría en, el primer día de cada mes, filtrar por aquellos clientes que no hayan abandonado la subscripción, ordenarlos de mayor a menor en función de su probabilidad de abandono y multiplicar esa probabilidad por los ingresos mensuales que aporta cada uno para así disponer del dato "futuro" de cada cliente.

También es necesario preguntarse cada cuánto y cuando se ejecuta el modelo, en función de cuándo se necesita disponer de las predicciones con los nuevos inputs. En el ejemplo se definió un proceso para que se ejecutara el primer día del mes durante la noche, para así al día siguiente obtener las predicciones de los clientes que están vigentes.

Por último, no hay que olvidar que es necesario evaluar el modelo de manera periódica mediante las siguientes acciones:
  • Verificar la precisión de las últimas predicciones mensuales
  • Comparar el ratio de abandono y la pérdida de revenue de los últimos meses en el set actual y set restante
  • Monitorizar el ratio #non churn 
  • Monitorizar ROI






Para quien no conozcáis a Chema Alonso, es el CDO (Chief Data Officer / Jefe de datos) de Telefónica. Es un conocido Hacker que escribe en el blog Un Informático en el lado del mal y que tiene carácter mediático ya que ha aparecido en alguna ocasión en El Hormiguero

Debido a que su especialidad es la seguridad, la charla obviamente versó de eso.  Primero comentó cómo las Apps adquirían la información de nuestra localización tras la aceptación de los 'Términos de Condiciones y Uso', un hecho conocido y aceptado por todos nosotros.

                        

De entre todas las ideas destaco una, la más interesante: es posible conocer la localización de una persona en función del nivel de consumo de la batería del terminal. Parece ser que cuando una persona activa los datos de su móvil, este se conecta a la antena más cercana. En función de la distancia que haya entre el móvil y la antena, el nivel de consumo de batería será mayor o menor, y en función de dicho consumo y a partir de la localización de la antena, es posible conocer la geo-localización del usuario.

La geo-localización permite conocer los gustos y las preferencias de los usuarios. El tema es que esa información junto con otra adicional es con la que "trafican" las Apps que tenemos instaladas en nuestros móviles. Estando donde están, son capaces de recoger información privilegiada de cada uno de nosotros para luego hacerlo llegar al mercado.

¿Y a quién le interesa esa información? gracias al mercadeo de información, Twitter por ejemplo es capaz de ofrecer a todo aquel interesado en hacer publicidad a través de su red social, la posibilidad de impactar a un segmento concreto de usuarios con unas características determinadas. Y así el resto.






Y ... ¿qué puedo decir como conclusión final del evento?


Aunque las charlas que he comentado en el post han sido no técnicas y de distinta índole, he de decir que la mayoría eran eminentemente técnicas. Otras muchas se centraban en vender un producto / herramienta en concreto, o también se aprovechaba a hacer auto-promoción, que no me parece mal. Aún así puedo decir que alguna idea he podido rescatar.

Siempre pienso que de vez en cuando es bueno salir de la oficina y respirar aire nuevo, descubrir nuevas perspectivas que ayudan a abrir la mente. Conocer tendencias, descubrir en qué están centrando su foto de atención el resto del mundo. Al final, es una forma de abrir nuevos caminos a la creatividad y al conocimiento, que puede ayudar a la relación de conceptos, y si no es en el momento, quizás más adelante... :)

Además de acercarme un poquito más al mundo técnico, este evento me ha permitido acercarme al concepto de machine learning. Y es que, aunque se trate de una disciplina distinta a las técnicas estadísticas tradicionales, puede decirse que están íntimamente relacionadas ya que el análisis predictivo es una rama dentro del aprendizaje automático.

Y es que, mientras la estadística predictiva utiliza la información como base para interpretar comportamientos, el aprendizaje automático se apoya en ella para profundizar en el dato. Mientas que en la primera es necesaria la intervención de un experto, el machine learning funciona en sentido inverso: comienza con el resultado para luego descubrir automáticamente factores que lo impulsan.


Y ya por último, he de decir que fue una oportunidad para conocer a referentes como Paco Nathan y Chema Alonso, además de permitirme entablar relación con gente, hacer contactos, ver a colegas... la parte social con la que tanto disfruto.


















Comentarios

Entradas populares de este blog

¿Diseñamos un Dashboard con R?

Profundizando en Google Data Studio

¿Por qué me gusta ser Analista Digital?