Preguntas con respuestas sobre "web-crawler"

1,355 preguntas, página #1

13

votos

6

respuestas

vistas 2,661

¿Cómo permito que los rastreadores de búsqueda indexen correctamente las páginas con desplazamiento infinito?

Tengo un sitio web en el que implemento el desplazamiento infinito: cuando un usuario llega al final de una página, se realiza una llamada AJAX y se adjunta contenido nuevo en la parte inferior de la página. Esto, sin embargo, significa que todo el contenido después del primer "salto de página" es inaccesible para los rastreadores de búsqueda. Por ejemplo, tengo una página...

preguntado 11 años, 4 meses

5

votos

1

respuestas

vistas 2,601

Nutch: lectura de datos y adición de metadatos

Recientemente comencé a buscar apache nutch. Podría configurar y rastrear páginas web de mi interés con nutch. No entiendo muy bien cómo leer estos datos. Básicamente, quiero asociar los datos de cada página con algunos metadatos (algunos datos aleatorios por ahora) y almacenarlos localmente, lo que será...

preguntado 11 años, 4 meses

2

votos

1

respuestas

vistas 3,532

Elemento no encontrado en el caché: ¿quizás la página ha cambiado desde que se buscó en el controlador web Selenium Ruby?

Estoy tratando de escribir un rastreador que rastree todos los enlaces de la página cargada y registre todos los encabezados de solicitud y respuesta junto con el cuerpo de la respuesta en algún archivo, digamos XML o txt. Estoy abriendo todos los enlaces de la primera página cargada en una nueva ventana del navegador, por lo que no obtendré este error: ...

preguntado 11 años, 4 meses

0

votos

1

respuestas

vistas 819

Jsoup: la sesión caduca después de un tiempo

He escrito un código Java usando Jsoup o extrayendo algunos datos del sitio web https://widgets.vodafone.com. Esto lo hice leyendo los encabezados usando el complemento de Firefox 'Live HTTP Headers' y pasándolos mientras iniciaba sesión. Aunque funciona perfectamente, la sesión caduca cada dos días. Y lo principal...

preguntado 11 años, 4 meses

11

votos

1

respuestas

vistas 5,809

Obtención de archivos HTML estáticos del volcado XML de Wikipedia

Me gustaría poder obtener archivos HTML estáticos relativamente actualizados del enorme (incluso cuando está comprimido) archivo de volcado XML de Wikipedia en inglés enwiki-latest-pages-articles.xml.bz2 que descargué de la página de volcado de WikiMedia. Parece que hay bastantes herramientas disponibles, aunque la documentación...

preguntado 11 años, 4 meses

2

votos

1

respuestas

vistas 668

¿Se pueden utilizar bots neuronales entrenados por una red neuronal para el siguiente propósito?

Hola, tengo una tarea que realizar, que es básicamente recuperar de alguna manera presentaciones de PowerPoint o documentos pdf pertenecientes a un campo determinado. Digamos que quiero recuperar notas de conferencias en ppt y pdf relacionadas con el campo de la bioinformática. Me gustaría saber si esta tarea se puede lograr adaptando el...

preguntado 11 años, 4 meses

2

votos

1

respuestas

vistas 394

Rails: detección de IP de bots para sortear pings más cortos

Tengo una aplicación que registra los clics de los usuarios. El problema es que estos clics se envían a través de Twitter, lo que acorta cada enlace con t.co. Debido a esto, Twitter parece acceder al enlace entre 7 y 15 veces desde diferentes direcciones IP, probablemente para hacer cosas como registro y protección contra correo no deseado. ...

preguntado 11 años, 4 meses

0

votos

1

respuestas

vistas 2,270

proxy python local para navegador web

¡Hola chicos! Usando complementos de Firefox puedo capturar encabezados. Quiero hacerlo en python: necesito cambiar la configuración del proxy del navegador a localhost: 8080 (o cualquier puerto), luego cada solicitud realizada por el navegador debe pasar a través del script de python que realmente se está ejecutando en mi máquina. Este script debería ser capaz...

preguntado 11 años, 4 meses