martes, 22 de mayo de 2007

¿Se acabaron los datawarehouses?

Nota previa: Datawarehouse = almacén de datos. Definición de datawarehouse en la Wikipedia.

En el artículo que comenté el otro día de Tim O'Reilly "What Would Google Do?", además de la reflexión que ya indiqué sobre qué ocurriría si Google o Amazon fueran nuestro banco o nuestro supermercado, O'Reilly realiza otra reflexión que creo que no debe quedar en el olvido.

Según O'Reilly, una de las diferencias entre el mundo "1.0" y el actual "2.0" es que el 1.0 tiene offline y online, y el 2.0 es sólo online. Cuando esto lo llevamos al mundo de los datos y la información, ¿qué quiere decir? Que habitualmente, en la perspectiva tradicional, tendemos a separar los datos en función de que sean datos históricos, útiles para el análisis de patrones y tendencias, o bien que sean datos actuales, de lo que está pasando en este momento.

Hasta tal punto los separamos que hemos creado una serie de conceptos como datawarehouse (almacén de datos), data mining (minería de datos), datamart (datos relacionados con un área concreta, por ejemplo, un departamento) para referirnos a herramientas y sistemas que exploran y explotan información histórica. Hablamos de información consolidada.

Siempre que oía hablar de estos conceptos, no dejaba de preguntarme cuándo tendríamos la potencia computacional suficiente para poder olvidarnos de esto de tener almacenes de datos históricos y pasar a tener todo en línea.

Bien, probablemente, en efecto, Google y Amazon sean de los primeros que han dado el salto hacia delante, hacia la información 2.0, hacia considerar la información como algo vivo, cambiante, basada en datos vivos y cambiantes; donde los datos históricos, simplemente, no tienen sentido. Donde todo tiene que estar en línea; la información sólo puede estar en línea.

¡Ojo! Obviamente, a veces separamos los datos en línea de los históricos porque la lógica de los datos nos lo pide así. Pero la gran mayoría de los datawarehouses que conozco se justifican con criterios de incapacidad de tener el histórico en línea.

Por lo tanto, es cierto que con la potencia computacional actual, con la existencia de grids de ordenadores con capacidades casi ilimitadas, es posible que estemos llegando al final de los datawarehouses como los hemos conocido hasta ahora. Es decir, que todos los datos de nuestra empresa estén en una sóla base de datos, que está en línea y sobre la cual puedes procesar tus datos históricos o actuales con los mismos criterios.

1 comentario:

Anónimo dijo...

Muy interesante Jacques.
Un abrazo,
Felipe GM