Un Poco de Analisis de datos
Los tiempos cambian, y las cosas no son como las de antes y hasta la idiosincrasia de las personas cambian. La tecnología no se queda atrás, es más, avanza más rápido de lo que podemos digerir, la Internet cambio nuestro mundo y nuestra sociedad, y esto recién empieza.
El BigData es una de la tecnologías realmente joven y que apunta a cambiar nuevamente nuestra sociedad, como lo hicieron los PC en la década de los 80', actualmente ya lo está cambiando, está creando nuevos puestos de trabajo, el estudio del mismo tiene un abanico muy amplio de nuevas y punteras tecnologías como el Machine Learning, la Inteligencia Artificial (IA) por nombrar algunas.
Esta nueva tecnología nace por la necesidad de administrar y analizar, la gran cantidad de información que hemos estado generando desde el inicio de la computación, y esto termino de explotar con el Internet, donde las fuentes e información más importantes son todas las redes sociales que conocemos. Gracias al análisis de esta información, podemos comprender mejor nuestro pasado y el porqué sucedían o no las cosas, podemos controlar nuestro presente y tomar decisiones en tiempo real, decisiones que antes no podíamos hacer, podemos "predecir" movimientos del futuro, gracias al conocimiento y patrones de nuestro pasado, cual será la tendencia de un color para la moda, podemos deducir cuales son los gustos de las personas, y así poder preparan un plan de negocio para la próxima campaña de Navidad, o que tipo de canción del verano podría ser un éxito estás vacaciones.
Netflix es un gran ejemplo de ello, aprovechando de los gustos de sus clientes y con los estudios pertinentes, pudieron realizar series que fueron éxitos rotundos, Amazon es otro gran ejemplo, y por supuesto Google con su navegador que nos predice y nos muestra la información mas relevante de acuerdo a nuestros gustos, y así una gran cantidad de grandes empresas que utilizan está tecnología.
Como Analista de Datos y Diseñador de Base de Datos, es de gran importancia, a la hora de diseñar una base de Datos para nuestra empresa, o para un desarrollo de una aplicación, un proyecto de IoT y/o cualquier otro tipo de proyecto donde debemos guardar información, el que se haga un análisis previo de la información que se va a guardar y tener muy claro que queremos hacer con esos datos, aparte de tenerlos guardados. Es muy importante la elección del sistema de base de datos, dependiendo del proyecto a emprender, posiblemente necesitemos una Base de Datos Relacional, por ejemplo para la administración de una empresa. banco o cualquier tipo de entidad por el estilo, los DRMS relacionales mas populares son, Oracle, PostgreSQL, Server SQL, MariaDB, MySQL entre otros, si nuestro proytecto es un sistema de redes sociales en internet, como algun programa de mensajería, o un FaceBook, esta misma LinkedIN y varios cientos mas, por el volumen de datos a utilizar es recomendable utilizar un systema NoSQL como pueden ser MongoDB, Redis, Casandra CouchDB y varias mas, en este tipo de base de datos no todas funcionas igual y todas tienen un fin muy concreto y forma en la manera de guardar los datos, es imprescindible que el diseñador de la base de datos opte por la opción mas adecuada.
Por ultimo si nuestro proyecto es del tipo IoT en donde tenemos una serie de sensores tomando muestras continuamente, adquirimos en poco tiempo una ola de información que debemos manejar y guardar correctamente para un futuro análisis, en este caso debemos omitir las Base de Datos Relaciones y las NoSQL, en estos casos sin ninguna duda es fundamental el uso de una base de datos de series de tiempo (TSDB), este es un sistema de software que está optimizado para almacenar y servir series de tiempo a través de pares asociados de tiempo y valor. No es nada recomendable usar DRMS Relacionales para esto, ya que las TSDB están optimizadas para guardar entre 100000 y 200000 registros o puntos por segundo, y cuando hablamos de sensores tomando muestras, como puede ser la temperatura de un chip, o la medición de humedad de la tierra, o un sensor de CO2, no podemos arriesgarnos a perder datos. Una de las base de datos lideres en este campo es InfluxDB.
De la misma manera que es de vital importancia la elección del DRMS adecuado para nuestro proyecto, una vez elegido, el buen diseño de la base de datos hará que la búsqueda de información y la manera en la que podamos acceder las estadísticas deseadas sea de una forma simple y clara.
Puntos que debemos tener en cuenta:
- Atomizar al máximo los datos a guardar, por ejemplo si queremos guardar el nombre de un cliente, si lo separamos en Nombres y Apellidos, sera mucho mas fácil poder buscar por uno u otro, otro ejemplo es la dirección lo ideal es pones cada dato por separado, calle, numero, puerta, piso, planta, escalera, CP, ciudad, provincia, pais etc.
- Los Indices, esto sera fundamental para agilizar las búsquedas, pero siempre con precaución, si ponemos muchos, terminamos ralentizando el sistema y generando cuellos de botella, si ponemos pocos, después de unos miles de registros las búsquedas se harán cada vez mas lentas, yo recomiendo siempre y de a primeras, indices en las claves primarias y luego en todas las foráneas, y después dependiendo de las necesidades del sistema, verificar cuales son las búsquedas mas comunes e ir añadiendo indices según la demanda.
- Cuanto mas datos mejor, para análisis posteriores que queramos hacer es importante siempre guardar toda la información posible, pero con cabeza y un buen análisis previo, por ejemplo guardar siempre un timestamp de todo tipo de movimiento, por ejemplo la compra de un producto, el alta en el almacén, el cambio de almacén, cuando entra una avería, cuando esta en estado de reparación, cuando una orden de trabajo esta en incidencia, todo ese tipo de documentación es muy importante guardarla para posteriores análisis y seguimiento del modelo de negocio.
Es importante tener muy claro el modelo de negocio de la empresa para poder diseñar un modelo de base de datos adecuado.
Es importante guardar la máxima cantidad de datos/información no redundante y posible que podamos.
Siempre debemos pensar en lo que nos puedan llegar a pedir el día de mañana.
Siguiendo todos estos pequeños consejos, tendremos un sistema optimizado, y robusto para el análisis de datos y a si con estos, poder presentarlos y diseñar las estrategias y modificaciones necesarias al modelo de negocio.
Comentarios
Publicar un comentario