lunes, 5 de agosto de 2013

Hadoop y proveedores de soluciones Big Data





Big Data está cambiando el mundo donde vivimos y, tarde o temprano, los CTO´s de las organizaciones han de ir familiarizándose con el abanico de soluciones y proveedores que hay en el entorno de Big Data. Sí bien es cierto que aún es un mercado en proceso de madurez  ya no son soluciones adoptadas únicamente por early-adopters. Todos los grandes están apostando por Hadoop y es que cuando hablamos de Big Data quizás la tecnología que ha propiciado a su mayor difusión ha sido Hadoop. Con la creación de Hadoop en 2005 se ha cubierto la necesidad de analizar grandes volúmenes de datos no estructurados con una solución más barata que las existentes, con mayor rendimiento y alto grado de personalización.  El stack de Hadoop es capaz de funcionar con gran variedad de arquitecturas hardware comodity y es una solución de análisis ágil y económica para las empresas con grandes necesidades en el análisis de los datos, sin importar el tamaño de la organización. Hadoop es una gran revolución en el procesamiento y análisis de cantidades masivas de datos.  Según Gartner en 2012 su Hype cycle for Emerging Technologies Big Data se encuentra llegando al pico de las expectativas infladas.



Hadoop es 100% open source  y está en continuo desarrollo. El crodwsourcing (comunidad de desarrolladores que contribuyen en crear SW) proporciona un alto grado de innovación y continúa mejora, de hecho, son los propios empleados de empresas punteras en soluciones Haadop, los que contribuyen a la mejora de la plataforma. Normalmente por propios intereses de las compañías, que tienen  mayores necesidades, son los que incrementan las funcionalidades y las capacidades de Haadop.

Existen multitud soluciones de código abierto para procesar masivamente datos no estructurados (Apache HadoopRCascadingElasticsearchApache HbaseApache Cassandra,  MongoDBApache CouchDB, etc). Me gustaría dar una visión de cuales son los proveedores con soluciones Big Data (software+Hardware) más relevantes en el mercado de soluciones Hadoop. Recomiendo el artículo de Wikibon sobre un estudio del mercado de Big Data y una previsión para el 2017.


Dadas las circunstancias de inmadurez de muchas de las opciones voy a basarme en el siguiente criterio para escoger los proveedores para el artículo:

·      La oferta actual de soluciones Big Data.
·      La estrategia de la empresa en este ámbito.
·      Presencia en el mercado.
·      Integración con otros proveedores.


 Amazon Web Services (AWS)




Considerado el proveedor de servicios más importante de Hadoop en la nube (Amazon fue de las empresas pioneras en utilizar las funcionalidades de Hadoop y gran colaborador en sus avances). El servicio Elastic MapReduce (EMR) ya ha logrado una considerable adopción en grandes y medianas empresas. Para una amplia gama de usuarios, AWS EMR es la vía de acceso principal a una plataforma Hadoop de nivel empresarial ya que no requiere ningún tipo de inversión ni en hardware ni en software dado que es una solución en nube. Permite un pago por uso que se contabiliza por horas y por espacio en disco consumido. Ofrece así unas posibilidades de escalabilidad muy potentes.
Desde principios de este año ofrece la posibilidad de utilizar un servicio para DataWare con Redshift (solución que pretende competir con los Appliance EDW de IBM, EMC, Oracle o HP).
AWS cuenta con una amplia gama de partners asociados que ofrecen servicios de acceso/consulta, modelado y desarrollo, integración de datos, administración de clúster y aplicaciones empresariales de datos Hadoop.  AWS es un proveedor rentable, sobre todo para medianas empresas y start-ups. Se ofrece acceso bajo demanda a las tecnologías Big Data tanto para recopilar, almacenar, calcular y colaborar en torno a conjuntos de datos de todos los tamaños, desde el servicio de Hadoop administrado, Elastic MapReduce, a la poderosa familia de procesadores Intel Xeon E5. Aparte de los beneficios en costes, también es necesario indicar que la rápida adopción de esta tecnología permite una puesta en marcha en cuestión de días, en lugar de en meses. Permite la integración con un número reducido de aplicaciones de BI.


IBM


IBM cuenta con la plataforma y portfolio de aplicaciones más profunda de Big Data, según Forrester, es el líder absoluto del mercado, el más fuerte en aspectos de estrategia y el que mejor gama de productos ofrece.
Está  bien establecido en su mercado. Tiene su propia distribución de Hadoop con una gran cantidad de servicios profesionales, amplios programas de I+D+i en el desarrollo de las tecnologías asociadas. En resumen, IBM tiene un número considerable de soluciones y servicios para Big Data (engloba tanto hardware como software), aparte de una gran cartera de clientes y software, aplicaciones aparte de alguna que otra oferta de servicios en la nube para BigData.
Posee una oferta de hardware muy potente. Con la última compra de la start-up Texas Memory Systems ha potenciado su oferta de almacenamiento de alto rendimiento con la familia IBM FlashSystems. Al igual ocurre con la familia de IBM Pure Sytems&Data que se han hecho uno de los referentes en el mercado de Appliance OLAP y nubes privadas.
Aparte posee el paquete de productos InfoSphere (Infosphere Streams, InfoSphere BigInsights,  InfoSphere Data Explorer, InfoSphere Information Server y InfoSphere Master Data Management) a nivel Software, uno de los más fuertes del mercado. Cubre 360º la arquitectura para explotar Big Data. Permite integrar con proveedores importantes de analítica como SAS, Cloudera, MicroStrategy, Oracle, etc. Las facilidades de integración con otros productos son posibles pero no de fácil implantación. Su appliance Netezza ofrece mejor rendimiento para base de datos OLTP que la competencia, es fácil de instalar y usar, sus procesadores FPGA (Field Programmable array) mejoran el rendimiento ante cuellos de botella.
Ofrecen servicios profesionales muy completos (formación, consultoria, integración, mantenimiento, etc).

EMC




Greenplum fue adquirida por EMC a mediados del 2010, formando la división de Big Data llamada EMC Greenplum, es la primera empresa en utilizar Appliances de MPP con Hadoop (todas las funciones de Hadoop + las mejoras de rendimiento de MPP para OLAP). También tiene su propio SW de distribución de Hadoop, su portfolio de soluciones es muy sólido en productos de almacenamiento, y tiene una amplia fuerza de servicios profesionales de consultores técnicos de EMC y los datos científicos con experiencia Hadoop.

EMC Greenplum tiene soluciones Software que cubren prácticamente todas las soluciones empresariales y herramientas de integración de datos propios (Greenplum Unified Analytics Platform (UAP), Greenplum Database MPP, Pivotal HD, Greenplum Chorus, GreenPlum Analytic Lab, Greenplum MR (MapReduce)). Posee fuertes alianzas con proveedores de software especialistas en soluciones para la analítica.
Su producto más extendido es Greenplum Database MPP y Pivotal HD. Ofrece servicios profesionales (Cientificos de datos, desarrolladores, etc).






Oracle recientemente a través de su alianza con Cloudera ofrecen Oracle BigData Appliance que ofrece los beneficios de Hadoop y sus herramientas más las funcionalidades de tecnología MPP que posee Exadata. A parte permite la integración con otras distribuciones de Hadoop gracias a Oracle Loader for Hadoop (OLH), Oracle Direct Connector for Hadoop Distributed File System (HDFS), Oracle Data Integrator Application Adapter for Hadoop, Oracle R Connector for Hadoop,  Oracle Big Data Connectors. Al catálogo de productos hay que añadir su solución para in-memory Exalytics y su software In-Database Analytics (Oracle R Enterprise, In-Database Data Mining , In-Database Text Mining , In-Database Semantic Analysis , In-Database Spatial y In-Database MapReduce ) que tiene gran aceptación. Incluyen una fuerte estrategia a nivel hardware que cubriría toda la arquitectura necesaria para Big Data y cuenta con su ventaja en cuanto al SW de BBDD. Ofrecen todo tipo de servicios profesionales apoyados por Cloudera en la parte de Hadoop.



HP compro Vertica en 2011. Con la compra de esta start-up HP completa su oferta hardware y software para dar solución a sus clientes en Big Data. Su solución basada en MPP ofrece posibilidades de explotar el appliance con Hadoop. Posee alianza con Cloudera para integrar su solución de Hadoop. Tiene alianzas con los principales proveedores de soluciones de analítica. Su presencia en el mercado ha crecido con respecto a este tipos de soluciones gracias a su posicionamiento en los servicios que ofrece y clientes que posee. Su posibilidades de integración con Hadoop son con MapReduce, Sqoop y HDFS por lo que limita su capacidad de integración con respecto a otros proveedores (no permite Hbase, Hive o Pig). Posee el Appliance más barato del mercado salvo la oferta en la nube que es más barata. Ofrece servicios profesionales completos.


Teradata/Aster



Proveedor referente y pionero en ofrecer Appliance para base de datos OLAP con procesamiento MPP.  Adquirió la start-up Aster Data en 2011. Completa su oferta con integración con Hadoop a través de distintos servicios (Aster SQL-H y Aster-Hadoop Adaptor) en la que permite explotar el appliance con SQL y utilizar el potencial de Apache Hadoop HCatalog (MapReduce, Hive, Pig y HDFS) . Servicios profesionales completos. Su Appliance es el mejor como Datawarehouse, soporta aumento de usuarios sin degradación y es más escalable que el resto de la competencia.

MapR




Se trata de otro de los principales proveedores de distribución de Hadoop. Proporciona facilidad de uso, fiabilidad y ventajas de rendimiento para aplicaciones de base NoSQL y Hadoop. Tiene la gama de productos de familia Hadoop más amplia del mercado. La fiabilidad de su solución se consolida con una amplia gama de socios con soluciones BigData. MapR ofrece un rendimiento de más de un millón de operaciones por segundo. Proporciona ventajas de escalabilidad con soporte de hasta un billón de tablas a través de miles de nodos. M7 también proporciona una recuperación instantánea de fallos, asegurando la disponibilidad del 99,999% para aplicaciones HBase y Hadoop utilizando infraestructura propia y las de Amazon, Google y HP en la nube. No proporcionan servicios profesionales de forma directa aunque poseen alianzas estratégicas con consultoras importantes del sector de las TIC.  Integración con soluciones de analítica de SAS, MicroStrategy, Datameer, etc.

Cloudera 



Hadoop es el pure-play con la mayor adopción. El core de su negocio es su distribución de Apache Hadoop. Es el de mejor acogida por parte de empresas que adoptan este tipo tecnologías al comienzo de su expansión (mas conocidas como early-adopters) y además también es muy popular entre los proveedores de servicios basados ​​en Hadoop en la nube.  Con su nueva versión Impala mejora muy considerablemente su distribución de Hadoop.
Cloudera tiene un servicio profesional de gran calidad y creciente. Cloudera no ofrece EDW propia, no proporciona herramientas de modelado de Hadoop  y no ofrece la integración de datos real-time/lowlatency. Sin embargo, Cloudera tiene fuertes asociaciones con otros proveedores de tecnología en la mayoría de las áreas en las que su propia cartera carece de una oferta.


Hortonworks 

Ofrece servicios profesionales y software para el ecosistema de Hadoop. Nació como una empresa de la mano de Yahoo y Benchmark Capital en junio de 2011. Su principal actividad es la de fomentar el uso de una distribución de Apache Hadoop, Hortonworks Hadoop.
Es la empresa líder en tecnología Hadoop y la que realiza mayores aportaciones a la comunidad como constructor de todo el ecosistema Big Data. Ha lanzado recientemente su plataforma de datos Hortonworks que incorpora el software puramente en Apache Hadoop de código libre. Posee fuertes alianzas y compatibilidad para el Appliance de Teradata. Sus clientes Microsoft y Yahoo resultan un buen escaparate para obtener mayor cuota de mercado.


Google que fue de los promotores de que Hadoop sea hoy un referente como tecnología para explotar Big Data. Google a través de su servicio BigQuery ofrece servicios en la nube basados en MapReduce ( es la base de Hadoop) con otra solución con base de datos BigTable (solución OLAP que utiliza MPP) que pueden ser visualizados gracias a BigQuery browser. Permite una solución escalable con precio por consumo (por hora y espacio en disco) que intenta competir con Amazon. Ofrece servicios paralelos e integrables para SQL con Google Cloud SQL.



viernes, 12 de julio de 2013

Las 3 Claves para afrontar Big Data





Sacar partido al Big Data supone un auténtico reto para las organizaciones hoy en día debido a la situación coyuntural de un continuo cambio a una velocidad de vértigo. En este post me gustaría reflejar cuales son las claves para tener éxito sí queremos implantar Big Data.

  • Construir los modelos para predecir y optimizar los objetivos de negocio. 

Los objetivos de negocio deben estar claro en el diseño de nuestro mapa de Big Data. El entusiasmo por el potencial disruptivo del Big Data puede llevar al fracaso del proceso de implantación. Comenzar con pequeños pilotos para ganar experiencia y conocimiento de las nuevas tecnologías es primordial. Trabajar con expertos es recomendable para evitar cometer grandes errores. Se necesita construir un modelo que permita conocer a futuro y corrija los errores  permitiendo la optimización de los procesos de negocio. Big Data no es sólo una herramienta o una tecnología si no un conductor de una disciplina de toma de decisiones mejorada basada en análisis predictivos, que marca el comienzo de una era de cambio cultural y mejor rendimiento. La experiencia del usuario será clave, no sólo en la venta de servicios, sino también en los productos. Con Big Data la venta de productos o servicios podrá diferenciarse haciendo que el consumo de los mismos suponga una experiencia personalizada para los gustos y preferencias del cliente. Big Data nos permitirá llevar a cabo la gestión de emociones a la hora de enriquecer el consumo de los productos y servicios.

  • Escoger los datos correctos para el análisis

Big Data no es una actividad aislada. Para el éxito se necesita más que nunca el conocimiento del negocio que permita hacer las preguntas correctas y establecer las correlaciones oportunas. Negocio y TI deben de ir de la mano desde el primer momento y más que nunca. Sin duda alguna uno de los retos de Big Data es incorporar a su capacidad analítica información de contexto que permita adaptar y comprender el resultado del análisis en base a las condiciones del entorno. Para ello, el verdadero conocimiento será aquel que incorpore los atributos de entorno que contextualicen el análisis. La contextualización del dato trata de responder e incorporar al análisis información relativa a: ¿Cuándo se obtuvo la fuente origen?, ¿Cómo se obtuvo?, ¿De dónde procede? ¿Cuál es su naturaleza? 
Existe una gran complejidad de realizar análisis cuando el número de variables es muy alto. Big data es mucho más que volumen de información. Mucha de la información no es útil o pueda considerarse falsa .Big Data puede derivar que se encuentren correlaciones falsas o falsos positivos. Muchas tipos de variables, muchos tipos de observaciones, muchos resultados. En el articulo Beware the Big Errors of ‘Big Data’ de @nntaleb en wired analizan en profundidad los problemas derivados de manejar gran volumen de variables. 

  • Transformar las capacidades de la organización

Gestionar bien el talento y tener claro el mapa de conocimiento dentro de la organización es primordial para afrontar con éxito un proyecto de Big Data. Nuevos perfiles profesionales se harán necesarios como consecuencia de esta ola tecnológica. Computerworld a través de @tamharbert  basándose en informes de Mckinsey  establece roles necesarios para Big Data. Quizá como apunta HBR el sexy job del siglo 21 sea el científico de datos (Data scientist). James Kobielus en Smarter Planet Blog  realiza una descripción sobre este rol llamando a los científicos de datos astrónomos del universo de Big Data muy interesante. Big data necesita de personas que cambien el modo de pensar sobre la información y el modo en el que la usan.  Big Data supone un cambio en la cultura organizacional y posee un impacto directo en la estrategia y en los modelos de negocio.  Toda organización necesita reconsiderar el impacto del Big Data en su estrategia empresarial y armar un plan de transformación y desarrollo de capacidades que al menos de respuesta a cinco cuestiones clave:

1. ¿Dónde existen oportunidades de creación de valor? 
2. ¿Qué herramientas necesita la organización para aplicar en sus decisiones el conocimiento generado?
3. ¿Qué capacidades hay que desarrollar para analizar los datos y transformarlos en conocimiento?
4. ¿Cómo tengo que diseñar y operar mi “refinería de datos” para recoger, clasificar, depurar y almacenar los datos que la organización necesita para tratarlos analíticamente y transformarlos en conocimiento?

5. ¿Qué cuestiones críticas harán que la transformación sea exitosa?

Dar respuesta a estas cuestiones necesita de un dialogo y debate estratégico entre varías áreas de la empresa, partiendo siempre desde una visión de negocio y donde la tecnología será la solución para mucho de los retos que se planteen, pero al mismo tiempo es necesario generar las condiciones adecuadas para que usar Big Data sea un éxito y se materialice en la cuenta de resultados.

lunes, 1 de julio de 2013

Casos de éxito de uso de Big Data 2


Hay va la segunda parte con más casos de éxito de uso de Big Data. Esta entrada en blogger pretende completar el anterior post. Quería mostrar usos del Big Data de empresas españolas y evitar hablar de casos muy conocidos en la red como pueden ser los casos de Amazón, Google, Facebook, etc. Quizás uno de los ejemplos más fascinantes a parte de Libelium , que comente la semana pasada, sea el de la start-up española Cubenube.


Empresa nacida en Alcalá de Henares por estudiantes de la Universidad de Alcalá de Henares. Su objetivo es ofrecer a sus clientes una plataforma que sirva a sus clientes para tomar mejores decisiones teniendo en cuenta información valiosa. Su plataforma provee de servicio de datos y generación de informes. Apoyándose en el Cloud computing y en el BigData han conseguido posicionarse en este mercado como referentes.

De forma fácil permiten conectar toca clase de dispositivos (redes de sensores, objetos M2M, información de redes sociales etc) generar a partir de cualquier dato, gracias al uso de BigData, conocimiento para sus clientes. Su arquitectura tecnologica se basa en HBase, Hadoop/Mapreduce con BBDD Cassandra.y ofrecee a través de SaaS o PaaS almacenamiento y computación a través de la nube pública de cubenube o privada.


Dentro de sus proyectos estrellas nos encontramos proyectos de I+D como:

ReDVIDes(Red Digital deVigilancia y Detección medioambiental con Sensorización Extrema) Proyecto financiado por el Ministerio de Industria, Turismo y Comercio, dentro del Plan Avanza 2 su objetivo es desarrollar una plataforma integral de información en tiempo real sobre el estado de un cultivo, que permita una toma de decisiones eficiente y con los menores costes posibles al productor o encargado de producción. Utiliza unidades que poseen sensores, una arquitectura basadoa en SOA (arquitectura orientada a servicios), cloud computing para almacenar los datos y computar los algoritmos de predicción y Android como sistema operativo para las aplicaciones de gestión en smartphones y tablets. Cubenube a logrado innovar en la agricultura creando la primera solución Big Data para este sector a través de este proyecto y su solución bynse. Con esta solución sus clientes han conseguido reducir el consumo de agua en un 40% y aumentar su producción (predicción del riesgo de plagas y enfermedades, predicciones microclimáticas en sus parcelas y alertas y avisos meteorológicos).


El proyecto Virtual Cloud Carer propone una plataforma tecnológica, social y de comunicaciones que permita por un lado la telemonitorización y el telecontrol, en el ámbito doméstico o externo, de personas con diversos niveles de dependencia y/o patologías así como la mejora de la comunicación con sus cuidadores, y en especial a facilitar dicha comunicación a los familiares encargados de su cuidado; y por otro lado la inclusión de estos dependientes en la Sociedad de la Información reduciendo de esta manera la brecha digital en este tipo de colectivos y por ende aumentando su independencia y calidad de vida.

Esta plataforma ahorrará en costes sanitarios y sociales aprovechando las nuevas tecnologías en beneficio de cualquier ciudadano aunando a todos los actores involucrados.



viernes, 28 de junio de 2013

Casos de Éxito de uso del Big Data 1ª parte


Empresa española que está presente en más de 75 países. Posee soluciones basadas en M2M/sensores para cubrir todo el espectro de servicios que dan las SmartCities. Muchos proyectos implantados y varios premios a nivel internacional como son el “The best of sensor 2011” o  “TR35” del MIT.

Actualmente está desarrollando un proyecto en la ciudad de Santander donde controla los aparcamientos libres de una zona de Santander, el ruído, la emisión de CO2, etc, a través de una red de sensores.



Posee otro proyecto en la ciudad de Salamanca subvencionado por la UNE donde analiza la calidad del aire urbano y el tráfico para garantizar una gestión respetuosa con el medio ambiente. Su principal objetivo es lograr la gestión sostenible del tráfico en la ciudad de Salamanca con dos elementos clave: una red omnipresente de sensores de calidad del aire, así como modelos de predicción.

Otro de sus proyectos es la gestión integral del agua de la ciudad de Valencia, junto a Telefónica controlan distintos aspectos del agua con una red de sensores como son: la Temperatura, PH del agua, Conductividad, Redox, Turbiedad, Demanda Química de Oxígeno (DQO), Amoníaco, Toroides para medir la eficiencia energética, etc del agua.


Otro proyecto interesante es uno referente a Agricultura y el control de progresión de varios viñedos en Pontevedra junto al GRUPO AUSTE es capaz de controlar los parámetros ambientales como la temperatura y la humedad ambiental y otros parámetros relacionados con la agricultura, tales como la precipitación, viento o humedad de las hojas para mejorar la producción del viñedo. Han diseñado un sistema que es capaz de predecir hasta 3 diferentes plagas: mildium, oidio y botritis .


Los seis mil millones de teléfonos móviles del mundo generan enormes cantidades de datos, entre 
ellos información de seguimiento de localización y de actividad comercial, historiales de búsqueda 
y enlaces en redes sociales. Se están llevando a cabo innumerables esfuerzos para extraer estos 
datos de diferentes maneras por parte de organizaciones de investigación y empresariales de todo 
el mundo. Y de esos seis mil millones de teléfonos, cinco mil millones se encuentran en países en 
desarrollo. Muchos de ellos son teléfonos baratos capaces de hacer poco más que llamadas y 
enviar mensajes de texto. Pero toda esta actividad puede ser rastreada en las torres de telefonía 
móvil, proporcionando una forma aproximada de hacer un seguimiento de los movimientos de 
una persona. A esto hay que añadir la difusión de la tecnología de pagos móviles dentro del 
comercio simple, y como resultado obtenemos una materia prima no solo para conseguir 
conocimientos en epidemiología, sino en tendencias de empleo, tensiones sociales, pobreza, 
transporte y actividad económica.


Condado de Miami-Dade de Florida está trabajando con IBM y su iniciativa de SmartCities para reunir los principales servicios de 35 municipios y la ciudad de Miami, en un esfuerzo por ayudar al gobierno  de cada municipio a tomar decisiones con mayor información en tiempo real sobre el manejo de los recursos de agua, la reducción de los atascos de tráfico y mejorar la seguridad pública. IBM está utilizando análisis profundo en un entorno de cloud computing para ofrecer al condado un panel de control inteligente para ayudar a las agencias y departamentos  a colaborar y visualizar los servicios ofrecidos. Por ejemplo, el Departamento de Parques del Condado de Miami-Dade espera ahorrar $ 1 millón este año al reducir el desperdicio de agua a través de la identificación y reparación de tuberías de agua corroídas con fugas. También a través de una aplicación móvil pretende observar el tiempo de espera de los ciudadanos en las paradas de BUS y mejorar las rutas de transporte público.




La ciudad de New York posee un departamento de Policía que está explotando Big Data para mejorar la seguridad de la ciudad. Tienen en el departamento el Sistema llamado “Domain Awareness System” (DAS)  que se sirve de datos de más de 3000 cámaras de vigilancia, lectores de matrículas, detectores de radio, llamadas al 911, registros de detección, informes de delincuencia, etc. Todos estos datos sirven para construir una herramienta muy poderosa para combatir la delincuencia. Los agentes de seguridad son capaces de ser alertados ante cualquier circunstancia de seguridad pública y tener en tiempo real información de la situación reducción y evitando actos criminales.
"La cantidad de tiempo ahorrado por los agentes, detectives y analistas es tremendo", dijo David Petri, director de programa de DAS de la policía de New York.


ShotSpotter es otro caso de uso de Big Data, que hace uso de los datos recogidos por los sensores acústicos colocados en los barrios más conflictivos con el objetivo de recoger y localizar, disparos. Más de 70 ciudades de Estados Unidos utilizan la herramienta. En Mountain View, California está el sistema central. El sistema de detección, que triangula el sonido captado por los sensores acústicos colocados en edificios, postes y otras estructuras, es parte de una ola de avances tecnológicos que está transformando la forma en que los agentes de policía hacen su trabajo. Permite tras producirse algún disparo en las zonas monitorizadas que un agente policial se presencie rápidamente.



National Oceanic and Atmospheric Administration (NOAA) Servicio nacional norte americano de metereología

NOAA lleva explotando Big Data desde hace 50 años. En la actualidad gestiona 30 petabytes de datos nuevos al año, recogiendo más de 3,5 millones de observaciones diarias de los satélites, naves, aeronaves, boyas y otros sensores. A continuación, utiliza la medición directa de los datos atmosféricos, oceanográficos y terrestres, junto con complejos modelos predictivos de alta fidelidad para proporcionar el Servicio Meteorológico Nacional (NWS) en EE.UU. Modelos NWS 'generan millones advertencias meteorológicas y las directrices proporcionadas a analistas del sector público y privado, incluidos los organismos gubernamentales, como el Departamento de Defensa y la NASA.



Con sede en Houston, AM Biotechnologies se centra en el desarrollo de una nueva tecnología patentada para producir entidades moleculares modificadas basadas ​​en el ADN llamadas aptámeros. Los aptámeros tienen usos que van desde el diagnóstico de una analítica en particular en una muestra de sangre hasta la creación de fármacos dirigidos a sitios específicos del cuerpo. El desarrollo de estos aptámeros requiere analizar hasta decenas de miles de millones de secuencias cortas de ADN. Utilizan Big Data Analytics basandose ​​en la web desde el CD-HIT y el servicio Galaxy para cruzar sus datos.


TerraEchos está especializada en tecnología diseñada para proteger y supervisar las infraestructuras críticas. Uno de sus clientes es el laboratorio del Departamento de Energía de EE.UU., que se basa en este proveedor para proteger su inteligencia científica, la tecnología y sus recursos. Se necesitaba una solución tecnológica que permitiese detectar, clasificar, localizar y rastrear las amenazas potenciales (mecánico y biológicas) esencialmente distinguen el sonido de un susurro del  viento a kilómetros de distancia. Para ello, la solución utiliza sensores, software analítico y de computación de alto rendimiento para consumir y analizar continuamente grandes cantidades de información en movimiento, desde el movimiento humano y animal a las condiciones atmosféricas.





martes, 25 de junio de 2013

Integrar para triunfar con Big Data

Propuesta de infraestructura para Big Data


Un confundio de tecnologías están presentes para explotar Big Data. Tecnologías como la virtualización, el cloud computing (Grid),  BBDD “In-memory”, discos de estado sólido SSD, “Massively parallel processing” (MPP), Symmetrical multi-processing (SMP), Hadoop, HBase, MongoDB, Pig, Hive, Mapreduce, etc,  están al alcance. Para realizar un uso eficiente de Big Data se necesitan arquitecturas escalables, nuevas estrategias de almacenamiento, nuevas metodologías para manejar datos, nuevos algoritmos de análisis con mayor rendimiento y en tiempo real, nuevas herramientas para visualizar los datos, etc.  Un entorno de Big Data debe permitir que los datos se capturen, se organizen, se integren, se analicen y se muestren a la velocidad demandada por negocio para la toma de decisiones.

La infraestructura para hacer uso de Big Data y sacar el mayor rendimiento debería de reflejar los siguientes niveles:

NIVEL 0 Infraestructura redundada

Se encuentra en el nivel más bajo del mapa de Arquitectura de Big Data. Es fundamental que sea robusta, tenga un rendimiento aceptable, resiliente, disponible y escalable conforme a las necesidades de negocio. A diferencia de infraestructuras tradicionales se basa en una computación distribuida (que podrá integrarse con el ordenador central o infraestructura para OLTP). Los datos pueden ser almacenados físicamente en distintos lugares y ser unidos entre sí a través de herramientas analíticas a través de redes.
Los servicios en la nube capacitan a las organizaciones a tener una mayor redundancia. Garantizan el rendimiento requerido por negocio y habilitan la capacidad de computación y escalabilidad necesaria. Son posibles distintas soluciones diseñando nubes públicas, híbridas o privadas que garanticen la disponibilidad de la infraestructura (sea vía SLA con el proveedor o través de sistemas redundados y resilientes). Se necesita de un diseño que planifique el uso de almacenamiento, red y servidores necesarios para atacar la captura, organización, integración y análisis del gran volumen de datos a la velocidad y con la variabilidad del Big Data con un rendimiento aceptable.

NIVEL 1 Infraestructura de seguridad y gobierno de datos


Es imprescindible poseer una arquitectura que garantice la seguridad de la información y faculte la custodia de los datos sensibles conforme a la legislación y a las necesidades de negocio. Los retos a los que se enfrentan los sistemas de gestión de la seguridad son:

El acceso correcto a los datos procesados o sin procesar.  La información ha de ser disponible sólo al personal que  de forma legitima tienen necesidades de negocio para examinar y tratar la información.

El acceso a las aplicaciones. Los distintos enlaces entre aplicaciones y niveles de la infraestructura han de estar controlados.

Encriptación de los datos. La encriptación de datos es recomendable pero impacta directamente en el rendimiento. Como hemos comentado el rendimiento es un aspecto importante en entornos de Big Data. Si no se encripta toda la información, al menos, en ciertas capas es esencial. Para aliviar el impacto en el rendimiento existen técnicas como el uso de Token, Anónimizar la información o los controles de acceso.

Detección de amenazas. La gestión de Big Data muestra numerosas complejidades que no tienen los sistemas de información por norma general. Las múltiples fuentes de datos hacen que sea necesario definir muchas más políticas de seguridad. Al igual que esta situación implica que ciertos datos puedan suponer un riesgo para los sistemas de información. Una buena formación sobre Big Data y seguridad es fundamental para aplicar exitosamente el gobierno de los datos y su seguridad. Conocer la identidad de los fuentes y garantizar que no existe código malicioso en los datos es otro riesgo que corren las infraestructuras de Big Data.

El gobierno de los datos es otra práctica necesaria. Malintencionadamente pueden “colarse” información sensible en datos que no deberían de serlo. Son necesarios controles que partan de la base que los datos fuera de nuestra jurisdicción son inseguros, no protegidos y que contienen información confidencial.  El gobierno perseguirá realizar auditorias el proceso de Big Data.

Interfaces y flujos. Integrar datos de muchas fuentes con datos de distintos formatos es básico en un entorno de Big Data. Los enlaces y flujos entre niveles dentro de la arquitectura de Big Data ya sea desde dentro hacia fuera (relaciones con socios tecnológicos o con internet) o viceversa son el núcleo de la arquitectura de Big Data. La arquitectura ha de estar diseñada para permitir generar de forma fácil interconexiones entre el exterior y los sistemas de información internos a todos los niveles de nuestros SSII.  Servicios orientados a arquitectura o SOA nos permiten tener un estándar para poder garantizar la flexibilidad.

NIVEL 2 Fuente de datos para operar


Para cualquier entorno de Big data necesitaremos motores de bases de datos que contengan los elementos de datos relevantes para el desarrollo del negocio. La arquitectura necesita motores rápidos, escalables y robustos. Las bases de datos relacionales son necesarias. Cuando pensamos en Big Data las típicas BBDD relacionales (RDBMS) no son prácticas dadas las características el rendimiento, su costo y su escalabilidad pero continuaran siendo el eje central. Existen un gran número de motores de BBDD y su elección requiere de un estudio premeditado. Para ello se hace vital conocer que tipos de datos vamos a alojar y si es compatible con el transaccional que maneja el negocio. Las bases de datos OLTP (online transaction processing) poseen ACID:

Atómico. La transacción se completa de forma completa o nada. Sí algo falla la transacción completa falla.
Consistencia. Sólo transacciones con datos consistentes se completan.
Aislamiento. No se interfieren transacciones en paralelo.
Durabilidad. Cuando la transacción se completa los datos quedan grabados para “siempre”.

Existen otro tipos de BBDD llamadas NOSQL que ofrecen características que no cubren las RDBMS. Este tipo de BBDD se usan BASE (Basically Available, Soft state, and Eventual Consistency). Tenemos muchas soluciones basadas en este tipo de BBDD como son KVP “Key-Value Pair Databases “, Riak, BBDD documentales, MongoDB, CouchDB, HBase, BBDD de gráficas, BBDD espaciales para datos de GPS, etc.

NIVEL     Servicios y herramientas para la organización de los datos


Capturar y organizar Big Data en un contexto que sean útiles para negocio requiere técnicas para procesarlos eficientemente y sin problemas. Hadoop y los motores de Mapreduce son los más utilizados para capturar tal masa de datos. La innovación en motores de búsqueda se basa en utilizar servidores distribuidos y utilizar el potencial del GRID. Este tipo de herramientas separa la información en tamaños procesables y posteriormente la reúnen y agrupan los datos para su integración , traducción y normalización. Podemos distinguir los siguientes métodos:

Sistema de archivos distribuido. Se descomponen los datos en flujos de datos permitiendo su escalabilidad y optimizando la capacidad de almacenamiento. El ejemplo más claro es HDFS (Hadoop Dsitributed File System)

Servicios de encolamiento o serialización. Necesario para el almacenamiento de datos persistente multilenguaje  (RPC o llamadas a procedimiento remoto).

Extraer, transformar y cargar (ETL). Necesario para la carga y conversión de datos estructurados y no estructurados en Hadoop.

Servicios de flujo de trabajo. Necesario para automatizar trabajos para proporcionar una estructura de sincronización entre capas.

NIVEL 4 Almacenes de datos analíticos


Lo que se conoce por Data Warehouse y Data Mart son las técnicas primarias de analíticas de datos para ayudar a la toma de decisiones. Están basados en datos normalizados montados para el análisis de negocio (OLAP). Simplifican la creación de informes y permiten la visualización de datos dispares. Suelen crearse con BBDD relacionales, BBDD multidimensionales, ficheros planos y BBDD orientadas a objetos. La elección viene determinada por el tipo de analítica, tipo de informes y visualización que se quiere realizar. La organización de los datos y su preparación para el análisis es clave. El problema es que para Big Data no sirven procesos de carga en lotes porque se necesita una velocidad que este tipo de BBDD no soporta. El rendimiento se hace más importante que nunca. La analítica con Big Data tiene varias diferencias:

Flujos de datos tradicionales (transacciones, aplicaciones, etc) pueden producir una cantidad enorme de datos dispares como producto de la integración con Big Data.

Muchos fuentes nuevas de datos.  Cada uno necesita de una manipulación diferente antes de ser útil para negocio.

Las fuentes de contenido. Que deben ser revisadas y necesitan de técnicas distintas a la manipulación de datos estructurados.

Actualmente tecnologías como SMP, MPP e In-Memory facultan un uso más eficiente de los actuales Data Warehouse. Existen un gran número de proveedores que ofrecen Appliance (HW + SW que actúan como caja negra) que integran estás tecnologías.

Analítica de Big Data. Los algoritmos que forman parte de las herramientas de analítica tradicional son de ayuda pero no la solución. La analítica sobre Big Data debe permitir procesar rápidamente datos muy dispares. Tenemos tres clases de herramientas que ayudan a mejorar este aspecto:

Presentación de informes y cuadros de mando: Estas herramientas proporcionan una representación "user-friendly" de la información. Este campo está todavía en evolución para el Big Data y va acompañado de utilizar los datos de BBDD NoSQL (Not Only SQL).

Visualización: Estas herramientas son el siguiente paso en la evolución de los informes. El resultado ha de ser altamente interactivo y dinámico por naturaleza. Otra distinción importante entre los informes y resultados visualizados es la animación. Negocio pueden ver los cambios en los datos que utiliza con una gran variedad de técnicas de visualización, incluyendo mapas mentales, mapas de calor, infografías y diagramas de conexión.

Analítica avanzada de análisis: Estas herramientas llegan al Data Warehouse y procesan los datos para su uso. Deben explicar las tendencias o eventos que son de transformación, únicas, o revolucionarias a la práctica empresarial. El análisis predictivo y análisis de sentimiento son buenos ejemplos de este tipo de herramientas.

Premisas a la hora de tratar con Big Data

Cuando se implanta una infraestructura de estas características es necesario contextualizar cada dato con respecto al resto de datos y tener en cuenta las siguiente premisas:

Descubrir. Se hace necesario una exploración y descubrimiento de los datos. Hay que saber que datos se poseen y cómo los diferentes conjuntos de datos se relacionan entre sí.

Iteración. Los insights no siempre se conocen de antemano, el descubrimiento del valor es a menudo un proceso iterativo como el encontrar las respuestas buscadas.

Capacidad Flexible. Debido a la naturaleza iterativa del análisis de Big Data, se debe estar preparado para gastar más tiempo y utilizar más recursos para resolver los problemas.

Minería y Predicción. No siempre se sabe cómo los diferentes elementos de datos se relacionan entre sí. A medida que se realizan procesos de minería de datos para descubrir patrones y relaciones, los análisis predictivos pueden dar los puntos de vista que se están buscando.


Gestión de decisiones. Considerar el volumen de transacciones y la velocidad. Si está utilizando análisis de Big Data para conducir muchas decisiones operacionales se necesita considerar cómo automatizar y optimizar la aplicación de todas esas acciones.