Las mejores formas de almacenar una gran cantidad de documentos y poder buscar su contenido

Estoy buscando algunas sugerencias sobre la mejor manera de almacenar una gran cantidad de documentos y poder realizar búsquedas de texto libre en su contenido.

Trabajo en PHP y MySQL. Estoy en un host de Windows, pero es un alojamiento compartido, por lo que no tengo acceso al servicio de indexación de Windows. De ahí la pregunta.

Estaba considerando usar la interfaz COM para abrir documentos cargados, leer su contenido en un campo de texto largo y luego crear un índice de texto completo en él. ¿Quizás alguien pueda señalarme en otra dirección?

preguntado el 30 de enero de 12 a las 20:01

¿Has considerado algo como Solr? -

Necesitará más información. ¿Qué tipo de documentos? -

Hola joe, no estoy seguro de si el alojamiento compartido de hostgator lo permite, lo comprobaré -

Sphinx es otra alternativa con la que tengo buenas experiencias. -

Sí, de nuevo, no creo que lo permitan en el alojamiento compartido, tal vez tenga que morder la bala.

2 Respuestas

Pruebe la búsqueda de texto completo de MySQL: http://dev.mysql.com/doc/refman/5.5/en/fulltext-search.html Se hizo más o menos para tu caso.

Respondido el 31 de enero de 12 a las 00:01

Sí, estaba al tanto de esa opción, pero cada documento tendrá al menos un par de páginas, por lo que db bloat será enorme. - Mrk Fldig

Por favor, especifique el tamaño aproximado de los documentos y el número aproximado de documentos, para que podamos brindar una mejor respuesta. MySQL puede manejar cantidades bastante masivas de datos. Si no es adecuado, también puede considerar motores de búsqueda dedicados como Lucene, o como @Wrikken mencionó Sphinx. - Artem Goutsoul

Una gran cosa acerca de la búsqueda de texto completo de MySQL es que es bastante fácil de probar y comparar con muy poco esfuerzo. - Artem Goutsoul

Bueno, mi alojamiento no me permite instalar NADA en este momento, por lo que MySql parece ser mi única opción en el alojamiento compartido, los documentos tienen un tamaño de CV normal, no más de 500 K cada uno (y ese es el MÁXIMO). Mrk Fldig

500K cada uno en qué formato? ¿Cuál es el tamaño del documento una vez que se convierte en texto sin formato (antes de cargarlo en la base de datos)? - Artem Goutsoul

puedes usar esta clase para hacer lo que quieras

Respondido el 31 de enero de 12 a las 00:01

eso es lo que necesito, pero el problema es que podría estar haciendo miles de estas búsquedas al día, tal vez a través de 100,000-1 millón de documentos, por lo que una solución basada en un sistema de archivos no funcionaría. Mrk Fldig

sí, esa es una clase poderosa para buscar los archivos y su contenido - bizzr3

Lo descargaré y echaré un vistazo. Mrk Fldig

Tengo algunas soluciones, puede mezclar esto con una clase y hacer que un objeto funcione mejor en un proyecto a gran escala. bizzr3

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.