Procesamiento de Big Data con el clic de un botón

Si tiene una aplicación que realiza cálculos pesados ​​en un gran conjunto de datos y los resultados deben devolverse lo más rápido posible con solo hacer clic en un botón, ¿cuáles son algunos de los diseños arquitectónicos que se utilizan para hacer que este trabajo funcione a gran escala?

Por ejemplo, una aplicación ejecuta una simulación para predecir resultados futuros y luego realiza un análisis estadístico de esos datos junto con los datos históricos. Hay una buena cantidad de CPU para ejecutar la simulación y DB pesado con la inserción, luego muchas lecturas de DB grandes para recopilar datos históricos y más CPU para hacer análisis estadísticos.

En esencia, hay muchos datos para procesar (tanto de CPU como de IO) y, en teoría, los resultados deberían mostrarse con solo hacer clic en un botón.

Entiendo que este no siempre es un objetivo realista dependiendo de la intensidad, pero ¿cuáles son algunas arquitecturas típicas para lograr tal tarea?

preguntado el 16 de mayo de 11 a las 20:05

Sin conocer los detalles, yo diría que preprocese / precalcule todo lo que pueda anticipar para acelerar las consultas de los usuarios. -

2 Respuestas

Google hace esto para devolver resultados de búsqueda.

Echa un vistazo a Hadoop - http://hadoop.apache.org/ - y específicamente MapReduce.

"Hadoop MapReduce es un modelo de programación y un marco de software para escribir aplicaciones que procesan rápidamente grandes cantidades de datos en paralelo en grandes grupos de nodos informáticos".

contestado el 17 de mayo de 11 a las 00:05

Rob ha sugerido un buen enfoque con MapReduce.

Creo que este tipo de procesamiento es parte del proceso de minería de datos y el proceso de minería de datos tiene un enfoque diferente al del modelo de respuesta de solicitud tradicional.

Como mínimo

cree una sola tabla (desnormalizada) y almacene toda la información necesaria en esta tabla y luego, cuando los usuarios necesiten la información en tiempo real, simplemente haga una búsqueda en la tabla y obtenga la información lo más rápido posible.

pero existen desafíos para este enfoque y uno de los mayores desafíos es completar los datos en esta tabla desnormalizada.

la mayoría de las veces, se puede hacer fuera de línea, puede ser un trabajo nocturno o algo que llene esta tabla cuando la carga es mínima.

Este enfoque es uno de los que se utilizan cuando ve "El cliente que compró este artículo también compró" en una aplicación típica de comercio electrónico.

para obtener más información y referencia, consulte

1- Servicios de análisis de servidor SQL

2- Filtrado colaborativo de artículo a artículo (esp. referir implementación de Amazon)

contestado el 17 de mayo de 11 a las 11:05

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.