Resumen de la ponencia “Cómo las tecnologías Big Data y la Analítica de los Datos están creando nuevas oportunidades de negocio”
Juan Ignacio de Arcos
Hoy en día nos vemos desbordados por multitud de términos relacionados con las tecnologías que utilizamos diariamente. Puesto que proceden mayoritariamente de EEUU, se han filtrado en nuestras vidas con su denominación anglosajona, lo cual dificulta aún más la comprensión de esta terminología“data mining”, “machine learning”, “big data”, “business intelligence”, “business analytics”, “predictive analytics” etc…Aunque parezca engorroso, es más simple de lo que pudiera parecer. Es más, estamos utilizando diariamente estos conceptos en su aplicación práctica.
Big Data y Analítica de Datos son los dos más importantes que, además, engloban a todos los anteriores de una u otra forma. Concretamente, Big Data se refiere a la relación de tecnologías que han permitido desarrollar la Analítica de Datos (ya existente) hasta llevarla a un nivel de sofisticación que parecería increíble hace tan sólo un par de décadas.
Estamos apoyándonos en las tecnologías Big Data, por ejemplo:
- Cuando buscamos algo en Google Search
- Cuando Skyscanner nos da el vuelo más barato de Sevilla a Sidney para los próximos 6 meses que no tenga más de 2 paradas
- Cuando vemos el tiempo que hará el próximo fin de semana
Y se están ejecutando algoritmos propios de la Analítica de Datos:
- Cuando Google Search nos sugiere algo mientras que estamos tecleando en la ventana de búsqueda
- Cuando Netflix nos recomienda una película de nuestro gusto por el mero hecho de haber visto otras anteriormente
La definición más adecuada para Big Data sería: El conjunto de técnicas y tecnologías para el tratamiento y almacenamiento de datos, en entornos de gran volumen, variedad de orígenes y en los que la velocidad es crítica. A finales de los años 90, Doug Laney, analista de la industria de TI en Gartner, acuñó el término Infonomía para describir el trabajo de cuantificar el valor de la información definiendo la información como un activo empresarial real. Este concepto surgió de las auditorías sobre la información al validar, calificar y cuantificar las características de calidad de los datos y su potencial valor comercial. Nacía la idea del dato como fuente de ingresos.
Pero es realmente a finales de 2011 cuando se democratiza Big Data gracias al lanzamiento de la v1.0 de Apache Hadoop. Apache Software Foundation es una comunidad descentralizada de desarrolladores que trabajan cada uno en sus propios proyectos de código abierto. De esta forma, la comunidad se beneficia de los avances en el código, perfeccionando el mismo y ofreciéndolo gratuitamente.
Hadoop consta de dos elementos:
- MapReduce, que es un modelo de programación y una implementación asociada al procesamiento de grandes datasets mediante un algoritmo distribuido y en paralelo en un clúster, esto es: divide las tareas en otras más pequeñas y las reparte entre varios procesadores.
- HDFS: como acrónimo de Hadoop Distributed File System, que es un sistema de archivos distribuido, escalable y portátil escrito en Java.
Hoy en día, no hay muchas empresas que realmente hagan Big Data. La mayoría hacen Small Data. La frontera se encuentra en el volumen de datos a procesar y no tanto en la variedad de los mismos o en la velocidad de procesamiento. Hablamos, pues, del entorno de un petabyte de datos como valor indicativo en el cual, probablemente, sería necesaria una arquitectura de big data para procesarlos.
Una vez obtenida la arquitectura y los datos ¿Qué hacemos con ellos? Hasta la aparición de las tecnologías Big Data se hacía un tipo de analítica básica, denominada descriptiva, en donde se pretendía responder a preguntas del tipo: ¿Qué ha sucedido? ¿Por qué? ¿Dónde? ¿Cuándo? ¿Cuántas veces?…
A raíz de las posibilidades de procesar grandes volúmenes de información, aparece la analítica predictiva, en donde se resuelven preguntas como: ¿Qué podría ocurrir? ¿Qué ocurre si la tendencia se cumple? ¿Qué ocurrirá si…? ¿Qué correlación existe?
La última evolución es el análisis prescriptivo, que añade acciones a tomar al resultado del predictivo. Ofrece soluciones a preguntas como: ¿Cómo conseguir el mejor resultado? ¿Cómo manejar la volatilidad? ¿Qué acciones debo tomar? ¿Qué impacto tendrán?
Si nos centramos en el cliente, el objetivo como corporación en la mayoría de las industrias, este conjunto de técnicas de análisis nos permiten averiguar multitud de características que ayudan a la toma de decisiones sobre cómo captarlos y retenerlos. Ejemplos de ello, sería el conocer:
- Lo que van a consumir
- Lo que piensan y deciden
- Si van a defraudar
- Qué tipo de tarea es la más apropiada
- Si van a abandonar la empresa
La Analítica de Datos es aplicable a todas las industrias. Probablemente, las áreas de Marketing y Ventas hayan sido las pioneras y por ello se ha considerado punta de lanza. El conocimiento del cliente 360º, como ahora se cita, implica saber del mismo sus datos transaccionales (de compras, vía tarjetas de crédito..), datos de interacción (emails, chat, clickstreams, móvil…), datos de comportamiento (opiniones, deseos, reclamaciones o necesidades, vía call centers, tweets…) y datos demográficos (vivienda, atributos, familiares…).Esto constituye, una vez normalizados los datos, una fuente de información valiosísima para cualquier empresa ya que permite modelar y segmentar a los clientes y, por tanto, asignarles acciones de marketing específicas hasta tal punto que a cada cliente le ofreceremos un producto o servicio determinado llegando al extremo de que el precio sea también único y propio del cliente.
¿Cómo utiliza esto la industria? Realmente, las empresas empiezan por desarrollar acciones específicas para la reducción de costes (fraude, abandono, mantenimiento predictivo, anomalías, optimización de precios, etc…) para pasar posteriormente a acciones tendentes a expandir el negocio (nuevos productos/servicios, incremento de la productividad, mayor cuota de mercado, fidelización, personalización…)
Pero, ¿cómo acometer este tipo de proyectos? En primer lugar, la planificación. Los pasos serían:
- Definir el caso de uso. Plasmar en una matriz Esfuerzo vs. Retorno las distintas ideas que surjan desde las áreas de negocio. Casos de uso que requieran un esfuerzo mínimo, que se implemente lo más rápidamente posible y que tengan un retorno inmediato. Puede ser una operación diaria, algo táctico o incluso un interés estratégico.
- Organizar el equipo adecuado. Componer un equipo en donde haya presencia de los expertos de negocio, expertos en analítica de datos y expertos TIC. Si, como es frecuente, no hay expertos en analítica de datos (científicos de datos), se podrían subcontratar. También habría que decidir si se adquiere el software o se desarrolla internamente.
- Identificar los stakeholders. Involucrar a los que intervienen en el proceso de negocio seleccionado en el caso de uso, incluyendo detractores y escépticos, además de los que respalden el proyecto. Para ello hay que establecer un plan de comunicación detallado y compartir la información dentro de un ambicioso plan de introducción de la cultura del dato en la compañía.
A continuación, la implementación:
- Identificación de los datos internos y externos: calcular la importancia de los procesos ETL o ELT en función de la recurrencia del proceso.
- Preparar los datos, mediante técnicas de organización y utilidad de los mismos así como aspectos relativos al acceso a la información en función de los niveles organizativos
- Modelado de los mismos, también dependiendo de la finalidad del negocio, teniendo en cuenta la dificultad de su ejecución, las arquitecturas disponibles y la calidad de la información
- Iterar hasta afinar y conseguir los objetivos iniciales, siempre alineados con el negocio. Ejecutar el modelo en otros escenarios para validar el mismo.
- Este proceso es necesario ir refinándolo progresivamente hasta que se demuestre eficaz. Una vez conseguido, accionarlo en el negocio.
Estos pasos no están exentos de riesgos, algunos de los cuales, se relacionan a continuación:
- Atención a la definición imprecisa del caso de uso y, por tanto, del alcance del proyecto
- Es muy importante el compromiso por parte de la dirección
- Es común la falta de habilidades y experiencia del equipo de desarrollo
- Suele existir cierto desconocimiento por parte de los usuarios finales del ecosistema Big Data y su utilidad en la compañía
- Big Data forma parte de la transformación digital y ésta es necesaria cuando la madurez tecnológica en la organización es baja
- La importancia del dato: no es crítico a veces tener el 100% de los datos. Es más importante la precisión y regularidad. Prestar atención a los aspectos legales y de privacidad
En España se mueven unos 230 millones de euros en el mercado de Big Data y Analítica de Datos, y está creciendo a una tasa anual del 20% aproximado. Están floreciendo muchas startups que cubren nichos de mercado muy específicos y en algún caso, están siendo adquiridas por grandes multinacionales. Adicionalmente, las grandes integradoras siguen ofreciendo servicios en la nube que abaratan los costes para introducirse en estas tecnologías.
Seguimos la pauta que se está desarrollando a nivel mundial, con EEUU a la cabeza seguida de Europa. La cifra para el mercado global es muy superior, llegando a vaticinarse 128 mil millones de euros para este año, de ahí la importancia en las organizaciones y la necesidad de subir a este tren que está ofreciendo un sinfín de nuevas oportunidades de negocio.