¿Qué es Big Data?
«Big Data» es una de las palabras de moda más utilizadas en nuestra era actual, pero ¿qué significa realmente?
Aquí hay una definición rápida y simple de big data. grandes datos son datos que son demasiado grandes y complejos para ser manejados por los métodos tradicionales de procesamiento y almacenamiento de datos. Si bien esa es una definición rápida que puede usar como heurística, sería útil tener una comprensión más profunda y completa de los grandes datos. Echemos un vistazo a algunos de los conceptos que subyacen en Big Data, como el almacenamiento, la estructura y el procesamiento.
¿Qué tan grande es el Big Data?
No es tan simple como decir «cualquier dato sobre el tamaño ‘X’ es big data», el entorno en el que se manejan los datos es un factor extremadamente importante en determinar qué califica como big data. El tamaño que deben tener los datos para que se consideren big data depende del contexto o de la tarea en la que se utilicen. Dos conjuntos de datos de tamaños muy diferentes se pueden considerar «big data» en diferentes contextos.
Para ser más concretos, si intenta enviar un archivo de 200 megabytes como un archivo adjunto de correo electrónico, no podrá hacerlo. En este contexto, el archivo de 200 megabytes podría considerarse big data. Por el contrario, copiar un archivo de 200 megabytes a otro dispositivo dentro de la misma LAN puede no llevar nada de tiempo y, en ese contexto, no se consideraría big data.
Sin embargo, supongamos que es necesario preprocesar 15 terabytes de video para usarlos en el entrenamiento de aplicaciones de visión artificial. En este caso, los archivos de video ocupan tanto espacio que incluso una computadora potente tardaría mucho tiempo en procesarlos todos, por lo que el procesamiento normalmente se distribuiría entre varias computadoras conectadas entre sí para reducir el tiempo de procesamiento. Estos 15 terabytes de datos de video definitivamente calificarían como big data.
Tipos de estructuras de Big Data
Big data viene en tres categorías diferentes de estructura: datos no estructurados, semiestructurados y estructurados.
Los datos no estructurados son datos que no poseen una estructura definible, lo que significa que los datos están esencialmente en un gran grupo. Ejemplos de datos no estructurados serían una base de datos llena de imágenes sin etiquetar.
Los datos semiestructurados son datos que no tienen una estructura formal, pero existen dentro de una estructura suelta. Por ejemplo, los datos de correo electrónico pueden contarse como datos semiestructurados, porque puede hacer referencia a los datos contenidos en correos electrónicos individuales, pero no se han establecido patrones de datos formales.
Los datos estructurados son datos que tienen una estructura formal, con puntos de datos categorizados por diferentes características. Un ejemplo de datos estructurados es una hoja de cálculo de Excel que contiene información de contacto como nombres, correos electrónicos, números de teléfono y sitios web.
Si desea leer más sobre las diferencias en estos tipos de datos, consulte el enlace aquí.
Métricas para evaluar Big Data
Los grandes datos se pueden analizar en términos de tres métricas diferentes: volumen, velocidad y variedad.
El volumen se refiere al tamaño de los datos. El tamaño medio de los conjuntos de datos suele aumentar. Por ejemplo, el disco duro más grande en 2006 era un disco duro de 750 GB. Por el contrario, se cree que Facebook genera más de 500 terabytes de datos en un día y el disco duro de consumo más grande disponible en la actualidad es un disco duro de 16 terabytes. Lo que se cuantifica como big data en una era puede no serlo en otra. Hoy en día se generan más datos porque cada vez más objetos que nos rodean están equipados con sensores, cámaras, micrófonos y otros dispositivos de recopilación de datos.
La velocidad se refiere a qué tan rápido se mueven los datos, o dicho de otro modo, cuántos datos se generan en un período de tiempo determinado. Los flujos de redes sociales generan cientos de miles de publicaciones y comentarios cada minuto, mientras que su propia bandeja de entrada de correo electrónico probablemente tendrá mucha menos actividad. Los grandes flujos de datos son flujos que a menudo manejan cientos de miles o millones de eventos en tiempo más o menos real. Ejemplos de estos flujos de datos son las plataformas de juegos en línea y los algoritmos de negociación de acciones de alta frecuencia.
La variedad se refiere a los diferentes tipos de datos contenidos en el conjunto de datos. Los datos pueden estar compuestos de muchos formatos diferentes, como audio, video, texto, fotos o números de serie. En general, las bases de datos tradicionales están formateadas para manejar uno o solo un par de tipos de datos. Para decirlo de otra manera, las bases de datos tradicionales están estructuradas para contener datos que son bastante homogéneos y de una estructura consistente y predecible. A medida que las aplicaciones se vuelven más diversas, llenas de características diferentes y utilizadas por más personas, las bases de datos han tenido que evolucionar para almacenar más tipos de datos. Las bases de datos no estructuradas son ideales para contener grandes datos, ya que pueden contener múltiples tipos de datos que no están relacionados entre sí.
Métodos de manejo de Big Data
Hay una serie de diferentes plataformas y herramientas diseñadas para facilitar el análisis de big data. Los grandes conjuntos de datos deben analizarse para extraer patrones significativos de los datos, una tarea que puede resultar bastante desafiante con las herramientas tradicionales de análisis de datos. En respuesta a la necesidad de herramientas para analizar grandes volúmenes de datos, una variedad de empresas han creado herramientas de análisis de big data. Las herramientas de análisis de big data incluyen sistemas como ZOHO Analytics, Cloudera y Microsoft BI.