Desde que Google anunciase su incursión en el “mundo cloud”, han pasado ya 10 años. Empezó lanzando un anticipo de App Engine a 20.000 desarrolladores en abril de 2008 y, en mayo de ese mismo año, la abrieron a todo el público. Fue el pistoletazo de salida. Desde ese momento, ha presentado incontables servicios para poder construir todo tipo de aplicaciones y servicios en la nube.

Con todos estos productos, Google define un ciclo por el que los datos viajan desde que se reciben hasta que se procesan. Google lo llama Data Life Cycle, y este artículo intenta hacer un análisis de este proceso y sus etapas haciendo especial hincapié en lo más relevante en una primera aproximación.

Existen varios tipos de datos que necesitan ser recopilados de aplicaciones (logs, eventos, llamadas a APIs), en streaming (eventos asíncronos, continuos) y en lotes (archivos, bases de datos).

  • Para eventos en streaming, hay un producto específico, Pub/Sub. Se trata de un servicio de mensajería organizado por temas (topics) con puntos de acceso en todo el mundo y autoescalable.
  • Para datos de aplicaciones, existen muchos productos según el tipo de datos y las características de la aplicación:
    • Si se necesita un servicio de logs en la nube, StackDriver permite mandar logs desde la aplicación a su API y, poder verlos de manera centralizada.
    • Existen diferentes bases de datos dependiendo de si el dato es estructurado o no. CloudSQL es perfecta para dato estructurado; DataStore o BigTable, para dato no estructurado, y BigQuery si para ambos junto con la capacidad de hacer grandes queries.
    • Por su parte, Cloud Storage sirve para guardar archivos de cualquier tipo.

Almacenaje, procesamiento y tratamiento de datos

Una vez recopilados los datos, cómo guardarlos y cómo se vayan a procesar tiene una gran importancia.

En almacenaje existen diferentes opciones:

  • Cloud Storage es la mejor herramienta para datos como copias de seguridad y permite utilizar este dato alrededor del mundo, realizar procesos de Dataproc o Dataflow o simplemente archivarlo. Ofrece capacidad ilimitada, CDN mundial, da igual si el dato es estructurado o no y tiene diferentes opciones de precio.
  • Para realizar queries en escala de PetaBytes, BigQuery es la mejor opción. Da la posibilidad de analizar teras de datos en segundos y sin preocupaciones de infraestructura.
  • Para utilizar los datos en aplicaciones, dependiendo del tipo de datos, CloudSQL (estructurado) o DataStore (no-estructurado) son las mejores opciones. También, con la posibilidad de autoescalar, ser totalmente administrado por Google o guardar parte del control si se quiere.

A la hora de procesar datos, existen tres opciones principales: DataFlow, DataProc y DataPrep:

  • DataProc es la versión de Google de Hadoop, pudiendo utilizar Cloud Storage como sistema de archivos y siendo manejado por Google.
  • DataFlow permite procesar archivos de streaming según son recibidos. Es, a grandes rasgos, una ETL administrada por Google a la que el usuario solo le proporciona la receta.
  • DataPrep es el servicio para, de manera visual, explorar, limpiar y preparar los datos para el análisis. En este proceso, se puede explorar a una plantilla después poder ser realizada automáticamente.

Finalmente, queda utilizar los datos. Hay muchas finalidades para el dato.

  • Existen las Cloud ML APIs que, proveyéndoles datos y haciendo preguntas, Google lo hace todo automático, sin necesidad de programar modelos, como veremos en futuros posts.
  • Si se quiere tener un acceso rápido al dato, se puede acceder desde BigQuery, que permite realizar queries en escala de PetaByte. Igualmente hablaremos de BigQuery más adelante y profundizando en los detalles en otro post.
  • Para visualización, Google ofrece Data Studio de manera nativa, una manera muy fácil de crear dashboards.

En futuros posts profundizaremos en algunos de los productos de los aquí citados y de cómo construir soluciones a partir del uso de ellos en conjunto.


Got a project? Let’s get started

iso

Services

End to end capability over data life cycle. Ensuring alignment between effort and return building Data & Tech ecosystems adapted to each client requirements impacting on business in a short, mid and long term.

Technologies

Best of bread technologies on the MarTech & AdTech echosistem tailored to build client solutions

DMP
DSP
CRM
AD SERVER
ANALYTICS
ATT MODELING
BI
TAG MANAGER
TESTING & FERS