Big data CMS Búsqueda de texto completo

Actualmente tengo una aplicación donde los usuarios suben el documento (pdfs/excel/word, pocas imágenes). Buscando una solución de Big-Data (Hadoop-MangoDB) donde pueda

  1. almacene miles de archivos pdf, word, excel (como somos, el tamaño también está creciendo)

  2. Buscar metainformación de la imagen

  3. Búsqueda de texto completo (principalmente en tiempo real)

  4. Recuperación más rápida

Por favor aconséjame

preguntado el 12 de junio de 12 a las 19:06

1 Respuestas

eche un vistazo a apache Hbase también... puede que le resulte útil para su caso de uso... es una base de datos NOSQL que se ejecuta sobre Hdfs y proporciona acceso aleatorio de lectura/escritura en tiempo real... puede echar un vistazo a Apache Hive como bueno... aunque no es para el procesamiento en tiempo real a diferencia de Hbase, proporciona un almacén de datos en la parte superior de un clúster de Hadoop con una interfaz similar a SQL... puede ejecutar trabajos de Hive en segundo plano y mantener sus datos procesados ​​y listos para servir si conoce el tipo de procesamiento por adelantado ... sería útil si proviene de un fondo de SQL.

Respondido el 12 de junio de 12 a las 21:06

He usado HBase, Hive para mi otro proyecto. HBase está orientado a la columna y se puede usar para indexar con solr y Hive es totalmente irrelevante aquí. Estoy buscando un sistema orientado a documentos como Mongo. Pero no me gusta la idea de derivación. - kumar MI

No he dicho que debas usar Hive en lugar de Mongo o algo así. Y hay varias opciones si desea optar por un sistema orientado a documentos como: Terrastore, Apache CouchDB, Amazon SimpleDB, etc. Puede elegir uno según su conveniencia: Tariq

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.