Big Data

El manejo de grandes volúmenes de datos, y la necesidad de convertirlos en información para análisis requiere de técnicas como la de "Big Data" para lograr dashboards que permitan reportar de manera rápida lo que el empresario moderno requiere para tomar decisiones.

Un dashboard es una representación gráfica de datos para  gestión gerencial en el cual se indican las principales métricas o estadísticas que intervienen en la consecución de los objetivos.

Big Data es un término que hace referencia al concepto relativo a conjuntos de datos tan grandes y complejos como para que hagan falta técnica de diseño de sistemas no tradicionales para tratarlos adecuadamente.

Otros datos de interés
El volumen de procesamiento de datos ha ido creciendo a lo largo de los años. Sólo Facebook, por ejemplo, mueve 2.500.000 millones de contenidos nuevos cada minuto.

Sólo para tener una idea de cuanta información se almacena mundialmente en Internet, veamos las siguientes unidades de medida:

1 Gigabyte o un Giga es un término más o menos familiar para un usuario común, 1024 de estos Gigas son 1 Terabyte, ok?

Ahora bien 1024 Teras son 1 Petabyte, 1024 Petabyte son 1 Exabyte y 1024 Exabytes son 1 Zettabyte.

1 Zettabyte equivale como a 105,421 millones de películas de 2.5 horas en HD (Alta definición)

Se estima que 10 veces esto fue la cantidad de información almacenada en Internet en 2018 y equivale a 7 torres de DVD’s con una altura cada una casi desde la tierra a la luna.

De dónde vienen todos esos datos en Internet? Los fabricamos directa e indirectamente segundo tras segundo.

Un iPhone hoy en día tiene más capacidad de cómputo que la NASA cuando el hombre llegó a la Luna.

En resumen, el uso moderno del término “Big Data" tiende a referirse al análisis del comportamiento del usuario, los clientes, los proveedores, inventarios, créditos y otros, extrayendo valor de los datos almacenados, y formulando predicciones a través de los patrones observados.

Las tecnologías existentes para el manejo de volúmenes de información tan grandes se pueden aplicar también a los datos generados en otras áreas como las siguientes:

Sector Agropecuario
Mediante inspecciones y captura de datos y evidencias de las labores en el campo en dispositivos móviles tales como el estado de los cultivos, si hay plagas o no y cuáles plagas, si se hizo riego, si se aplicaron insecticidas y en vistas geolocalizadas analizar las zonas geográficas que requieren atención o que ponen en riesgo la producción para anticiparse a la pérdida de las cosechas y así garantizar el éxito de los productores.

Marketing y Ventas
El Big Data cada vez se utiliza más para segmentación avanzada de los consumidores, automatizar la personalización de los productos, adaptar las comunicaciones al momento del ciclo de venta, captar nuevas oportunidades de venta, apoyo en la toma de decisiones a tiempo real, gestión de crisis.

Seguros
Los proveedores de seguro médico recopilan datos sobre "determinantes sociales", como el consumo de alimentos y televisión, el estado civil, el tamaño de la vestimenta y los hábitos de compra, desde los cuales hacen predicciones sobre los costos de salud para detectar problemas de salud en sus clientes.

Deportes
Amisco es un sistema aplicado por los más importantes equipos de las ligas Española, Francesa, Alemana e Inglesa desde el 2001. Consta de 8 cámaras y diversas computadoras instaladas en los estadios, que registran los movimientos de los jugadores a razón de 25 registros por segundo, y luego envían los datos a una central donde hacen un análisis masivo de los datos. La información que se devuelve como resultado incluye una reproducción del partido en dos dimensiones, los datos técnicos y estadísticas, y un resumen de los datos físicos de cada jugador, permitiendo seleccionar varias dimensiones y visualizaciones diferentes de datos.

Finanzas
El crecimiento de datos en el mundo financiero obliga al uso del Big Data para el procesamiento rápido de datos, segmentación avanzada de clientes, creación de estrategias de precios dinámicos, gestión de riesgos, prevención de fraudes, apoyo en la toma de decisiones, detectar tendencias de consumo, definir nuevas formas de hacer mejor las cosas, detectar alertas y otro tipo de eventos complejos, hacer un seguimiento avanzado de la competencia.

Investigación
En marzo de 2012, la Casa Blanca anunció una "Iniciativa de Big Data" nacional que consistía en seis departamentos y agencias federales comprometiendo más de $ 200 millones para proyectos de investigación de Big Data.

La iniciativa incluyó una subvención de la National Science Foundation "Expeditions in Computing" de $ 10 millones durante 5 años para el AMP Lab, en la Universidad de California, Berkeley.  El AMP Lab también recibió fondos de DARPA (La Agencia de Proyectos de Investigación Avanzados de Defensa), y más de una docena de patrocinadores industriales y utiliza Big Data para atacar una amplia gama de problemas, desde predecir la congestión del tráfico hasta combatir el cáncer.

Salud y medicina
Un pionero del análisis de grandes volúmenes de información.
Entre 1853 y 1854, en Londres, una epidemia de cólera mató a miles de personas. El médico John Snow estudió los registros de defunciones, y descubrió que la mayor parte de los casos se presentaron en un barrio específico: las personas habían bebido agua de un mismo pozo. Cuando lo clausuraron, el número de casos comenzó a disminuir.

En el 2012, en la Feria de Ciencias de Google, Brittany Wenger, un estudiante de 18 años, presentó el proyecto de diseño de un software para ayudar al diagnóstico temprano del cáncer de mama. Denominó a la plataforma Cloud4cancer, que utiliza una red de inteligencia artificial y las bases de datos de los hospitales para diferenciar una muestra de un tejido benigno de una de un tumor maligno. El sistema inteligente diseñado por Wenger distingue en segundos los dos tipo de tumores, ingresando a la plataforma las características observadas. Es posible que este sistema se aplique más adelante a otros padecimientos, como la leucemia.

Muestreo de Big Data
El nombre Big Data contiene un término relacionado con el tamaño, y esta es una característica importante de Big Data.

Una pregunta de investigación importante que se puede hacer sobre los conjuntos de datos grandes es si necesita ver los datos completos para sacar ciertas conclusiones sobre las propiedades de los datos o si una muestra es lo suficientemente buena.

Pero el muestreo permite la selección de puntos de datos correctos dentro del conjunto de datos más grande para estimar las características de toda la población. Por ejemplo, en 2019 hay alrededor de 600 millones de tweets producidos todos los días. ¿Es necesario mirarlos a todos para determinar los temas que se discuten durante el día? ¿Es necesario mirar todos los tweets para determinar el sentimiento sobre cada uno de los temas?

El muestreo es el proceso de seleccionar un conjunto de individuos de una población con el fin de estudiarlos y poder caracterizar el total de la población.

La idea es bastante simple. Imagina que queremos saber algo de un universo o población, por ejemplo, qué porcentaje de los habitantes de México fuma habitualmente. Una forma de obtener este dato sería contactar con todos los habitantes de México (122 millones de personas) y preguntarles si fuman, lo cual es en sí imposible de hacer en términos prácticos.

La otra forma sería seleccionar un subconjunto de individuos (por ejemplo, 1.000 personas), preguntarles si fuman y usar esta información como una aproximación de la información buscada. Pues bien, este grupo de 1.000 personas que me permiten conocer mejor cómo se comportan el total de mexicanos es una muestra, y la forma en que los seleccionamos es el muestreo.

¿Por qué funciona el muestreo?

El muestreo es útil gracias a que podemos acompañarlo de un proceso inverso, que llamamos generalización. Es decir, para conocer un universo lo que hacemos es:

1) Extraer una muestra del mismo.
2) Medir un dato u opinión.
3) Proyectar en el universo el resultado observado en la muestra.

Esta proyección o extrapolación recibe el nombre de generalización de resultados.

La generalización de resultados añade cierto error al mismo. Imagina que tomamos una muestra al azar de 1.000 personas de México y les preguntamos si fuman. Obtengo que el 25% de la muestra fuma. La simple lógica nos dice que si de 1.000 mexicanos elegidos al azar el 25% fuma, este dato debería ser indicativo de lo que obtendríamos si preguntásemos a los 122 millones de mexicanos.

Ahora bien, el azar podría haber hecho que haya escogido para mi muestra más fumadores de lo que correspondería a la proporción exacta que hay en el universo.

El azar podría hacer que el porcentaje de fumadores en la población fuese algo diferente del 25% que hemos observado en la muestra (tal vez un 26,5%, por ejemplo).

Por lo tanto, la generalización de resultados de un muestra a un universo conlleva aceptar que cometemos cierto error.

Muestreo - Generalización 

Afortunadamente, el error cometido al generalizar resultados puede acotarse gracias a la estadística. Para ello se pueden usar dos parámetros: el margen de error, que es la máxima diferencia que esperamos que haya entre el dato observado en mi muestra y el dato real en el universo, y el nivel de confianza, que es el nivel de certeza que tengo de que realmente el dato real esté dentro del margen de error.

Por ejemplo, en nuestro caso de fumadores mexicanos, si selecciono una muestra de 471 individuos y les pregunto si fuman, el resultado que obtenga tendrá un margen de error máximo de +-5% con un nivel de confianza del 95%.

Esta forma de expresar los resultados es la correcta cuando usamos muestreo.

El tamaño de la muestra

¿Qué tamaño de muestra necesito usar para estudiar cierto universo? Depende del tamaño del universo y del nivel de error que esté dispuesto a aceptar.

Cuanta más precisión exija, mayor muestra necesito. Si quiero tener una certeza absoluta en mi resultado, hasta el último decimal, mi muestra tendrá que ser tan grande como mi universo.