viernes, 28 de junio de 2013

Casos de Éxito de uso del Big Data 1ª parte


Empresa española que está presente en más de 75 países. Posee soluciones basadas en M2M/sensores para cubrir todo el espectro de servicios que dan las SmartCities. Muchos proyectos implantados y varios premios a nivel internacional como son el “The best of sensor 2011” o  “TR35” del MIT.

Actualmente está desarrollando un proyecto en la ciudad de Santander donde controla los aparcamientos libres de una zona de Santander, el ruído, la emisión de CO2, etc, a través de una red de sensores.



Posee otro proyecto en la ciudad de Salamanca subvencionado por la UNE donde analiza la calidad del aire urbano y el tráfico para garantizar una gestión respetuosa con el medio ambiente. Su principal objetivo es lograr la gestión sostenible del tráfico en la ciudad de Salamanca con dos elementos clave: una red omnipresente de sensores de calidad del aire, así como modelos de predicción.

Otro de sus proyectos es la gestión integral del agua de la ciudad de Valencia, junto a Telefónica controlan distintos aspectos del agua con una red de sensores como son: la Temperatura, PH del agua, Conductividad, Redox, Turbiedad, Demanda Química de Oxígeno (DQO), Amoníaco, Toroides para medir la eficiencia energética, etc del agua.


Otro proyecto interesante es uno referente a Agricultura y el control de progresión de varios viñedos en Pontevedra junto al GRUPO AUSTE es capaz de controlar los parámetros ambientales como la temperatura y la humedad ambiental y otros parámetros relacionados con la agricultura, tales como la precipitación, viento o humedad de las hojas para mejorar la producción del viñedo. Han diseñado un sistema que es capaz de predecir hasta 3 diferentes plagas: mildium, oidio y botritis .


Los seis mil millones de teléfonos móviles del mundo generan enormes cantidades de datos, entre 
ellos información de seguimiento de localización y de actividad comercial, historiales de búsqueda 
y enlaces en redes sociales. Se están llevando a cabo innumerables esfuerzos para extraer estos 
datos de diferentes maneras por parte de organizaciones de investigación y empresariales de todo 
el mundo. Y de esos seis mil millones de teléfonos, cinco mil millones se encuentran en países en 
desarrollo. Muchos de ellos son teléfonos baratos capaces de hacer poco más que llamadas y 
enviar mensajes de texto. Pero toda esta actividad puede ser rastreada en las torres de telefonía 
móvil, proporcionando una forma aproximada de hacer un seguimiento de los movimientos de 
una persona. A esto hay que añadir la difusión de la tecnología de pagos móviles dentro del 
comercio simple, y como resultado obtenemos una materia prima no solo para conseguir 
conocimientos en epidemiología, sino en tendencias de empleo, tensiones sociales, pobreza, 
transporte y actividad económica.


Condado de Miami-Dade de Florida está trabajando con IBM y su iniciativa de SmartCities para reunir los principales servicios de 35 municipios y la ciudad de Miami, en un esfuerzo por ayudar al gobierno  de cada municipio a tomar decisiones con mayor información en tiempo real sobre el manejo de los recursos de agua, la reducción de los atascos de tráfico y mejorar la seguridad pública. IBM está utilizando análisis profundo en un entorno de cloud computing para ofrecer al condado un panel de control inteligente para ayudar a las agencias y departamentos  a colaborar y visualizar los servicios ofrecidos. Por ejemplo, el Departamento de Parques del Condado de Miami-Dade espera ahorrar $ 1 millón este año al reducir el desperdicio de agua a través de la identificación y reparación de tuberías de agua corroídas con fugas. También a través de una aplicación móvil pretende observar el tiempo de espera de los ciudadanos en las paradas de BUS y mejorar las rutas de transporte público.




La ciudad de New York posee un departamento de Policía que está explotando Big Data para mejorar la seguridad de la ciudad. Tienen en el departamento el Sistema llamado “Domain Awareness System” (DAS)  que se sirve de datos de más de 3000 cámaras de vigilancia, lectores de matrículas, detectores de radio, llamadas al 911, registros de detección, informes de delincuencia, etc. Todos estos datos sirven para construir una herramienta muy poderosa para combatir la delincuencia. Los agentes de seguridad son capaces de ser alertados ante cualquier circunstancia de seguridad pública y tener en tiempo real información de la situación reducción y evitando actos criminales.
"La cantidad de tiempo ahorrado por los agentes, detectives y analistas es tremendo", dijo David Petri, director de programa de DAS de la policía de New York.


ShotSpotter es otro caso de uso de Big Data, que hace uso de los datos recogidos por los sensores acústicos colocados en los barrios más conflictivos con el objetivo de recoger y localizar, disparos. Más de 70 ciudades de Estados Unidos utilizan la herramienta. En Mountain View, California está el sistema central. El sistema de detección, que triangula el sonido captado por los sensores acústicos colocados en edificios, postes y otras estructuras, es parte de una ola de avances tecnológicos que está transformando la forma en que los agentes de policía hacen su trabajo. Permite tras producirse algún disparo en las zonas monitorizadas que un agente policial se presencie rápidamente.



National Oceanic and Atmospheric Administration (NOAA) Servicio nacional norte americano de metereología

NOAA lleva explotando Big Data desde hace 50 años. En la actualidad gestiona 30 petabytes de datos nuevos al año, recogiendo más de 3,5 millones de observaciones diarias de los satélites, naves, aeronaves, boyas y otros sensores. A continuación, utiliza la medición directa de los datos atmosféricos, oceanográficos y terrestres, junto con complejos modelos predictivos de alta fidelidad para proporcionar el Servicio Meteorológico Nacional (NWS) en EE.UU. Modelos NWS 'generan millones advertencias meteorológicas y las directrices proporcionadas a analistas del sector público y privado, incluidos los organismos gubernamentales, como el Departamento de Defensa y la NASA.



Con sede en Houston, AM Biotechnologies se centra en el desarrollo de una nueva tecnología patentada para producir entidades moleculares modificadas basadas ​​en el ADN llamadas aptámeros. Los aptámeros tienen usos que van desde el diagnóstico de una analítica en particular en una muestra de sangre hasta la creación de fármacos dirigidos a sitios específicos del cuerpo. El desarrollo de estos aptámeros requiere analizar hasta decenas de miles de millones de secuencias cortas de ADN. Utilizan Big Data Analytics basandose ​​en la web desde el CD-HIT y el servicio Galaxy para cruzar sus datos.


TerraEchos está especializada en tecnología diseñada para proteger y supervisar las infraestructuras críticas. Uno de sus clientes es el laboratorio del Departamento de Energía de EE.UU., que se basa en este proveedor para proteger su inteligencia científica, la tecnología y sus recursos. Se necesitaba una solución tecnológica que permitiese detectar, clasificar, localizar y rastrear las amenazas potenciales (mecánico y biológicas) esencialmente distinguen el sonido de un susurro del  viento a kilómetros de distancia. Para ello, la solución utiliza sensores, software analítico y de computación de alto rendimiento para consumir y analizar continuamente grandes cantidades de información en movimiento, desde el movimiento humano y animal a las condiciones atmosféricas.





martes, 25 de junio de 2013

Integrar para triunfar con Big Data

Propuesta de infraestructura para Big Data


Un confundio de tecnologías están presentes para explotar Big Data. Tecnologías como la virtualización, el cloud computing (Grid),  BBDD “In-memory”, discos de estado sólido SSD, “Massively parallel processing” (MPP), Symmetrical multi-processing (SMP), Hadoop, HBase, MongoDB, Pig, Hive, Mapreduce, etc,  están al alcance. Para realizar un uso eficiente de Big Data se necesitan arquitecturas escalables, nuevas estrategias de almacenamiento, nuevas metodologías para manejar datos, nuevos algoritmos de análisis con mayor rendimiento y en tiempo real, nuevas herramientas para visualizar los datos, etc.  Un entorno de Big Data debe permitir que los datos se capturen, se organizen, se integren, se analicen y se muestren a la velocidad demandada por negocio para la toma de decisiones.

La infraestructura para hacer uso de Big Data y sacar el mayor rendimiento debería de reflejar los siguientes niveles:

NIVEL 0 Infraestructura redundada

Se encuentra en el nivel más bajo del mapa de Arquitectura de Big Data. Es fundamental que sea robusta, tenga un rendimiento aceptable, resiliente, disponible y escalable conforme a las necesidades de negocio. A diferencia de infraestructuras tradicionales se basa en una computación distribuida (que podrá integrarse con el ordenador central o infraestructura para OLTP). Los datos pueden ser almacenados físicamente en distintos lugares y ser unidos entre sí a través de herramientas analíticas a través de redes.
Los servicios en la nube capacitan a las organizaciones a tener una mayor redundancia. Garantizan el rendimiento requerido por negocio y habilitan la capacidad de computación y escalabilidad necesaria. Son posibles distintas soluciones diseñando nubes públicas, híbridas o privadas que garanticen la disponibilidad de la infraestructura (sea vía SLA con el proveedor o través de sistemas redundados y resilientes). Se necesita de un diseño que planifique el uso de almacenamiento, red y servidores necesarios para atacar la captura, organización, integración y análisis del gran volumen de datos a la velocidad y con la variabilidad del Big Data con un rendimiento aceptable.

NIVEL 1 Infraestructura de seguridad y gobierno de datos


Es imprescindible poseer una arquitectura que garantice la seguridad de la información y faculte la custodia de los datos sensibles conforme a la legislación y a las necesidades de negocio. Los retos a los que se enfrentan los sistemas de gestión de la seguridad son:

El acceso correcto a los datos procesados o sin procesar.  La información ha de ser disponible sólo al personal que  de forma legitima tienen necesidades de negocio para examinar y tratar la información.

El acceso a las aplicaciones. Los distintos enlaces entre aplicaciones y niveles de la infraestructura han de estar controlados.

Encriptación de los datos. La encriptación de datos es recomendable pero impacta directamente en el rendimiento. Como hemos comentado el rendimiento es un aspecto importante en entornos de Big Data. Si no se encripta toda la información, al menos, en ciertas capas es esencial. Para aliviar el impacto en el rendimiento existen técnicas como el uso de Token, Anónimizar la información o los controles de acceso.

Detección de amenazas. La gestión de Big Data muestra numerosas complejidades que no tienen los sistemas de información por norma general. Las múltiples fuentes de datos hacen que sea necesario definir muchas más políticas de seguridad. Al igual que esta situación implica que ciertos datos puedan suponer un riesgo para los sistemas de información. Una buena formación sobre Big Data y seguridad es fundamental para aplicar exitosamente el gobierno de los datos y su seguridad. Conocer la identidad de los fuentes y garantizar que no existe código malicioso en los datos es otro riesgo que corren las infraestructuras de Big Data.

El gobierno de los datos es otra práctica necesaria. Malintencionadamente pueden “colarse” información sensible en datos que no deberían de serlo. Son necesarios controles que partan de la base que los datos fuera de nuestra jurisdicción son inseguros, no protegidos y que contienen información confidencial.  El gobierno perseguirá realizar auditorias el proceso de Big Data.

Interfaces y flujos. Integrar datos de muchas fuentes con datos de distintos formatos es básico en un entorno de Big Data. Los enlaces y flujos entre niveles dentro de la arquitectura de Big Data ya sea desde dentro hacia fuera (relaciones con socios tecnológicos o con internet) o viceversa son el núcleo de la arquitectura de Big Data. La arquitectura ha de estar diseñada para permitir generar de forma fácil interconexiones entre el exterior y los sistemas de información internos a todos los niveles de nuestros SSII.  Servicios orientados a arquitectura o SOA nos permiten tener un estándar para poder garantizar la flexibilidad.

NIVEL 2 Fuente de datos para operar


Para cualquier entorno de Big data necesitaremos motores de bases de datos que contengan los elementos de datos relevantes para el desarrollo del negocio. La arquitectura necesita motores rápidos, escalables y robustos. Las bases de datos relacionales son necesarias. Cuando pensamos en Big Data las típicas BBDD relacionales (RDBMS) no son prácticas dadas las características el rendimiento, su costo y su escalabilidad pero continuaran siendo el eje central. Existen un gran número de motores de BBDD y su elección requiere de un estudio premeditado. Para ello se hace vital conocer que tipos de datos vamos a alojar y si es compatible con el transaccional que maneja el negocio. Las bases de datos OLTP (online transaction processing) poseen ACID:

Atómico. La transacción se completa de forma completa o nada. Sí algo falla la transacción completa falla.
Consistencia. Sólo transacciones con datos consistentes se completan.
Aislamiento. No se interfieren transacciones en paralelo.
Durabilidad. Cuando la transacción se completa los datos quedan grabados para “siempre”.

Existen otro tipos de BBDD llamadas NOSQL que ofrecen características que no cubren las RDBMS. Este tipo de BBDD se usan BASE (Basically Available, Soft state, and Eventual Consistency). Tenemos muchas soluciones basadas en este tipo de BBDD como son KVP “Key-Value Pair Databases “, Riak, BBDD documentales, MongoDB, CouchDB, HBase, BBDD de gráficas, BBDD espaciales para datos de GPS, etc.

NIVEL     Servicios y herramientas para la organización de los datos


Capturar y organizar Big Data en un contexto que sean útiles para negocio requiere técnicas para procesarlos eficientemente y sin problemas. Hadoop y los motores de Mapreduce son los más utilizados para capturar tal masa de datos. La innovación en motores de búsqueda se basa en utilizar servidores distribuidos y utilizar el potencial del GRID. Este tipo de herramientas separa la información en tamaños procesables y posteriormente la reúnen y agrupan los datos para su integración , traducción y normalización. Podemos distinguir los siguientes métodos:

Sistema de archivos distribuido. Se descomponen los datos en flujos de datos permitiendo su escalabilidad y optimizando la capacidad de almacenamiento. El ejemplo más claro es HDFS (Hadoop Dsitributed File System)

Servicios de encolamiento o serialización. Necesario para el almacenamiento de datos persistente multilenguaje  (RPC o llamadas a procedimiento remoto).

Extraer, transformar y cargar (ETL). Necesario para la carga y conversión de datos estructurados y no estructurados en Hadoop.

Servicios de flujo de trabajo. Necesario para automatizar trabajos para proporcionar una estructura de sincronización entre capas.

NIVEL 4 Almacenes de datos analíticos


Lo que se conoce por Data Warehouse y Data Mart son las técnicas primarias de analíticas de datos para ayudar a la toma de decisiones. Están basados en datos normalizados montados para el análisis de negocio (OLAP). Simplifican la creación de informes y permiten la visualización de datos dispares. Suelen crearse con BBDD relacionales, BBDD multidimensionales, ficheros planos y BBDD orientadas a objetos. La elección viene determinada por el tipo de analítica, tipo de informes y visualización que se quiere realizar. La organización de los datos y su preparación para el análisis es clave. El problema es que para Big Data no sirven procesos de carga en lotes porque se necesita una velocidad que este tipo de BBDD no soporta. El rendimiento se hace más importante que nunca. La analítica con Big Data tiene varias diferencias:

Flujos de datos tradicionales (transacciones, aplicaciones, etc) pueden producir una cantidad enorme de datos dispares como producto de la integración con Big Data.

Muchos fuentes nuevas de datos.  Cada uno necesita de una manipulación diferente antes de ser útil para negocio.

Las fuentes de contenido. Que deben ser revisadas y necesitan de técnicas distintas a la manipulación de datos estructurados.

Actualmente tecnologías como SMP, MPP e In-Memory facultan un uso más eficiente de los actuales Data Warehouse. Existen un gran número de proveedores que ofrecen Appliance (HW + SW que actúan como caja negra) que integran estás tecnologías.

Analítica de Big Data. Los algoritmos que forman parte de las herramientas de analítica tradicional son de ayuda pero no la solución. La analítica sobre Big Data debe permitir procesar rápidamente datos muy dispares. Tenemos tres clases de herramientas que ayudan a mejorar este aspecto:

Presentación de informes y cuadros de mando: Estas herramientas proporcionan una representación "user-friendly" de la información. Este campo está todavía en evolución para el Big Data y va acompañado de utilizar los datos de BBDD NoSQL (Not Only SQL).

Visualización: Estas herramientas son el siguiente paso en la evolución de los informes. El resultado ha de ser altamente interactivo y dinámico por naturaleza. Otra distinción importante entre los informes y resultados visualizados es la animación. Negocio pueden ver los cambios en los datos que utiliza con una gran variedad de técnicas de visualización, incluyendo mapas mentales, mapas de calor, infografías y diagramas de conexión.

Analítica avanzada de análisis: Estas herramientas llegan al Data Warehouse y procesan los datos para su uso. Deben explicar las tendencias o eventos que son de transformación, únicas, o revolucionarias a la práctica empresarial. El análisis predictivo y análisis de sentimiento son buenos ejemplos de este tipo de herramientas.

Premisas a la hora de tratar con Big Data

Cuando se implanta una infraestructura de estas características es necesario contextualizar cada dato con respecto al resto de datos y tener en cuenta las siguiente premisas:

Descubrir. Se hace necesario una exploración y descubrimiento de los datos. Hay que saber que datos se poseen y cómo los diferentes conjuntos de datos se relacionan entre sí.

Iteración. Los insights no siempre se conocen de antemano, el descubrimiento del valor es a menudo un proceso iterativo como el encontrar las respuestas buscadas.

Capacidad Flexible. Debido a la naturaleza iterativa del análisis de Big Data, se debe estar preparado para gastar más tiempo y utilizar más recursos para resolver los problemas.

Minería y Predicción. No siempre se sabe cómo los diferentes elementos de datos se relacionan entre sí. A medida que se realizan procesos de minería de datos para descubrir patrones y relaciones, los análisis predictivos pueden dar los puntos de vista que se están buscando.


Gestión de decisiones. Considerar el volumen de transacciones y la velocidad. Si está utilizando análisis de Big Data para conducir muchas decisiones operacionales se necesita considerar cómo automatizar y optimizar la aplicación de todas esas acciones.

viernes, 21 de junio de 2013

BIG DATA UN CAMBIO DISRUPTIVO



Este primer post tiene como objetivo definir que es el Big Data. Podéis encontrar una historia del término Big Data muy interesante en la página de Forbes.


Ya en 1941 se comienza a hablar de Big Data. Hoy por hoy podemos afirmar que ya no se trata de un concepto que sólo sea manejado por frikis si no que todas las grandes corporaciones lo tienen en la agenda y entienden que valor transformador posee el Big Data. Se trata de una disrupción total que requiere un cambio de paradigma en las organizaciones. Big Data es una tecnología que impacta en los módelos de negocio y en la estrategía empresarial, es Digital innovation, es una herramienta que puede posicionarnos en ventaja contra nuestros competidores. 

Quizás de todas las definiciones que se puedan encontrar en la red la que más me gusta sobre Big Data es la que expone  .  Para mí Big data es la palanca de cambio que cambiara TODO y hará las cosas más fáciles.  La definición más extendida de Big Data es todos aquellos datos que por volumen, velocidad de creación y variedad de formatos y fuentes las infraestructuras actuales de sistemas de información no pueden capturar, almacenar, analizar y procesar. Por ello se habla de las 3 dimensiones o 3 Vs (En 2001 Doug Laney ponía en contexto las 3V´sVolumen, variedad y velocidad en su estudio como consultor de Meta Group “3DData Management: Controlling Data Volume, Velocity, and Variety”).

Volumen


Esta dimensión se refiere a la cantidad de datos. Es obvio que se trata de la característica más identificable del Big Data. El lenguaje que utilizamos respecto al almacenamiento ha cambiado. Hace 10 años hablamos de Gibabytes como “mucho espacio” y ahora un Terabyte nos parece poco. Existen números estudios relativos al aumento exponencial de la datos digitales. El másreconocido es el realizado en 2007 por IDC junto a EMC que se repitió en 2010 y2012. El dato, quizás más utilizado en todas las publicaciones relativas a Big Data, según IDC para el 2020 se prevé un volumen de datos de 40 Zettabytes (1 trillón de Gigabytes). Esto supone un reto para la escalabilidad de las infraestructuras de las corporaciones.

Velocidad

Se refiere a los datos en movimiento. La velocidad a la que se crean, procesan y analizan los datos aumenta exponencialmente. La velocidad afecta a la latencia: el tiempo de espera entre el momento en el que se crean los datos, el momento en el que se captan y el momento
en el que están accesibles. Hoy en día, los datos se generan de forma continua a una velocidad a la que a los sistemas tradicionales les resulta imposible captarlos, almacenarlos
y analizarlos. Al igual la vida del dato se reduce.


Variedad

Tenemos diferentes tipos de fuentes y de formatos de datos. La variedad tiene que ver con gestionar la complejidad de múltiples tipos de datos (estructurados y no estructurados) Las organizaciones necesitan integrar y analizar datos de un complejo abanico de fuentes de
información tanto tradicional como no tradicional procedentes tanto de dentro como de fuera de la empresa. Con el aumento de sensores, dispositivos inteligentes y tecnologías de colaboración social, los datos que se generan presentan innumerables formas entre las que se incluyen texto, datos web, tweets, datos de sensores, audio, vídeo, secuencias de clic, archivos de registro y mucho más.
Padmasree warrier, CTO de CISCO, en una entrevistacon Mckinsey afirma que sólo está interconectado un 1% de las posibilidades de dispositivos existentes. Esto hace pensar que el incremento de información y la velocidad a la que se produce aumentaran drásticamente. Donde se hablara de "internet of everything".

Existe un cuarta dimensión/característica o 4ª V que utilizan importantes empresas relacionadas con las TIC.
  •  IBM maneja la cuarta V con el concepto de veracidad (la incertidumbre de los datos). La veracidad hace referencia al nivel de fiabilidad asociado a ciertos tipos de datos. 
  • IDC utilizan el término Valor como cuarta característica para identificar Big Data.
  • Gartner utiliza el término complejidad para referirse como los centro de procesos de datos serán mucho más complejos y donde el talento de sus profesionales será fundamental.
  •  Forrester utiliza el concepto variabilidad poniendo de manifiesto la dificultad en el análisis debido a la gran cantidad de variables.
Cada día más la información es el combustible que permite el crecimiento y la innovación. Para fomentar un uso eficiente y sacar el máximo valor al Big Data necesitamos arquitecturas escalables, que permiten capturar en capas múltiples, nuevas estrategias de almacenamiento disruptivamente escalables, metodologías nuevas para manejar datos, nuevos algoritmos de análisis con mayor rendimiento y en tiempo real y nuevas herramientas para visualizar los datos.