Webcrawler analiza las páginas encontradas.

escribí un simple webcrawler. Busqué todos los sitios web y los encontré en mi disco duro. ahora quiero analizarlos, para poder escribir una interfaz simple como www.google.de y buscar información en mis páginas recuperadas.

el problema es cómo encontrar la información importante de una manera "rápida". entonces el cálculo es importante. podría ser en tiempo real o después de la recuperación. mi idea es escribir un diccionario con una lista de palabras en inglés y contar las entradas ... o ¿qué hacer? Necesito una conferencia sobre cómo extraer información y comprimirla. pero no sé dónde buscar.

el rastreador se basa en c ++ con mysql donde se almacenan los enlaces.

Espero que mi pregunta sea clara. :D

Por cierto, sry por mi mal inglés, pero no hay un tablero como este en alemán: P

preguntado el 16 de mayo de 11 a las 18:05

1 Respuestas

La ciencia de la recuperación de información (IR) es complicada.

¿Ha mirado alguno de los textos estándar? Como:

Introducción a la recuperación de información por Christopher D. Manning, Prabhakar Raghavan y Hinrich Schütze (7 de julio de 2008) - http://www.amazon.com/Introduction-Information-Retrieval-Christopher-Manning/dp/0521865719/ref=sr_1_1?s=books&ie=UTF8&qid=1305573574&sr=1-1

Recuperación de información: implementación y evaluación de motores de búsqueda por Stefan Büttcher, Charles LA Clarke y Gordon V. Cormack (23 de julio de 2010) - http://www.amazon.com/Information-Retrieval-Implementing-Evaluating-Engines/dp/0262026511/ref=sr_1_3?s=books&ie=UTF8&qid=1305573574&sr=1-3

Busque 'recuperación de información' en Amazon para obtener más información.

También puede echar un vistazo a mi respuesta a Pregunta de diseño para el sistema de notificación que describe una arquitectura general para la búsqueda de sitios web de spidering.

contestado el 23 de mayo de 17 a las 13:05

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.