Actualice Nutch para obtener el padre de cada URL obtenida

Mientras ejecuto el rastreador Apache Nutch 1.4, quiero almacenar información adicional. Quiero almacenar el padre de cada URL.

Por ejemplo, quiero rastrear una página a.html que tiene 2 enlaces de anclaje a b.html y c.html Entonces, cuando rastree a.html, debería obtener algo como esto:

a.html null
b.html a.html
c.html a.html

Quiero guardar algo como esto. He leído cómo funciona Nutch y también he ejecutado Nutch en Eclipse. También leí fetcher.java y registré dónde obtuvo el contenido. Pero no tuve éxito en saber dónde obtiene Nutch las URL secundarias de una página determinada. Creo que este paso tiene lugar después del paso de análisis.

preguntado el 22 de mayo de 12 a las 10:05

1 Respuestas

Creo que la información se puede obtener generando linkdb.

La base de datos de enlaces, o linkdb: contiene la lista de enlaces conocidos a cada URL, incluida la URL de origen y el texto de anclaje del enlace. Mantiene un mapa de enlaces invertido, enumerando los enlaces entrantes para cada URL.

bin/nutch invertlinks crawldb/linkdb -dir crawldb/segments

En la fase de análisis, nutch genera enlaces externos a partir del contenido rastreado y luego las direcciones URL recién descubiertas se almacenan en crawldb en la fase de actualización. Las nuevas direcciones URL se recuperan en el siguiente ciclo/ronda de rastreo nutch.

contestado el 24 de mayo de 12 a las 04:05

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.