0
votos
1
respuestas
vistas 764
Maximizando urls/segundo en un raspador paralelo
Tengo que raspar miles de sitios web diferentes, lo más rápido posible. ...
preguntado 11 años, 4 meses
1,355 preguntas, página #1
0
votos
1
respuestas
vistas 764
Tengo que raspar miles de sitios web diferentes, lo más rápido posible. ...
preguntado 11 años, 4 meses
0
votos
1
respuestas
vistas 1,944
Estoy tratando de rastrear varios sitios usando Nutch. Mi seed.txt se ve así: ...
preguntado 11 años, 4 meses
21
votos
3
respuestas
vistas 38,866
Soy nuevo en Scrapy, tenia el codigo spider...
preguntado 11 años, 4 meses
1
votos
3
respuestas
vistas 4,990
Quiero crear un Web Crawler, que tome el contenido de algún sitio web y lo guarde en un almacenamiento de blobs. ¿Cuál es la forma correcta de hacerlo en Azure? ¿Debo iniciar un rol de trabajador y usar el método Thread.Sleep para que se ejecute una vez al día? ...
preguntado 11 años, 4 meses
2
votos
1
respuestas
vistas 544
Espero reunir varias decenas de miles de páginas de datos gubernamentales (en varios miles de carpetas) que están en línea y poner todo en un solo archivo. Para acelerar el proceso, pensé que primero descargaría el sitio en mi disco duro antes de rastrearlo con algo como Anemone + Nokogiri. ...
preguntado 11 años, 4 meses
3
votos
1
respuestas
vistas 2,299
Voy a construir mi aplicación basada en ajax, y mis URL son algo así como: ...
preguntado 11 años, 4 meses
5
votos
1
respuestas
vistas 3,203
¡Hola! Estoy tratando de escribir un rastreador web con python. Quería usar python multithreading. Incluso después de leer artículos y tutoriales sugeridos anteriormente, todavía tengo un problema. Mi código está aquí (el código fuente completo está aquí): ...
preguntado 11 años, 4 meses
0
votos
2
respuestas
vistas 351
estoy escribiendo un rastreador web, usando wxpython para mostrar el resultado en tiempo real. Suponiendo que solo hay un botón llamado rastrear en la ventana. cuando hice clic en el botón, aparecerá un nuevo cuadro de diálogo y TextCtrl en el nuevo cuadro de diálogo mostrará la URL actual que se está rastreando. ...
preguntado 11 años, 4 meses
6
votos
4
respuestas
vistas 9,866
¿Cómo puedo configurar mi sitio para permitir el rastreo de robots conocidos...
preguntado 11 años, 4 meses
2
votos
4
respuestas
vistas 4,698
Estoy rastreando una web con la ayuda de un dom simple en PHP. ...
preguntado 11 años, 4 meses
13
votos
6
respuestas
vistas 2,661
Tengo un sitio web en el que implemento el desplazamiento infinito: cuando un usuario llega al final de una página, se realiza una llamada AJAX y se adjunta contenido nuevo en la parte inferior de la página. Esto, sin embargo, significa que todo el contenido después del primer "salto de página" es inaccesible para los rastreadores de búsqueda. Por ejemplo, tengo una página...
preguntado 11 años, 4 meses
0
votos
1
respuestas
vistas 456
Estoy trabajando en un proyecto de rastreador. Estoy atrapado en una situación en la que el texto href en una página sigue repitiéndose en otras páginas bajo ese dominio. ...
preguntado 11 años, 4 meses
5
votos
1
respuestas
vistas 2,601
Recientemente comencé a buscar apache nutch. Podría configurar y rastrear páginas web de mi interés con nutch. No entiendo muy bien cómo leer estos datos. Básicamente, quiero asociar los datos de cada página con algunos metadatos (algunos datos aleatorios por ahora) y almacenarlos localmente, lo que será...
preguntado 11 años, 4 meses
5
votos
1
respuestas
vistas 2,836
Quiero descargar todos los pasajes de http://source.yeeyan.org. ...
preguntado 11 años, 4 meses
-1
votos
1
respuestas
vistas 75
Hola, me preguntaba si había una consulta específica que pudiera ingresar en Google que daría como resultado que Google me diera una lista de las páginas de inicio de ciencias de la computación de todas las universidades con una dirección '.edu'. ...
preguntado 11 años, 4 meses
2
votos
1
respuestas
vistas 3,532
Estoy tratando de escribir un rastreador que rastree todos los enlaces de la página cargada y registre todos los encabezados de solicitud y respuesta junto con el cuerpo de la respuesta en algún archivo, digamos XML o txt. Estoy abriendo todos los enlaces de la primera página cargada en una nueva ventana del navegador, por lo que no obtendré este error: ...
preguntado 11 años, 4 meses
2
votos
1
respuestas
vistas 1,497
...
preguntado 11 años, 4 meses
0
votos
1
respuestas
vistas 819
He escrito un código Java usando Jsoup o extrayendo algunos datos del sitio web https://widgets.vodafone.com. Esto lo hice leyendo los encabezados usando el complemento de Firefox 'Live HTTP Headers' y pasándolos mientras iniciaba sesión. Aunque funciona perfectamente, la sesión caduca cada dos días. Y lo principal...
preguntado 11 años, 4 meses
11
votos
1
respuestas
vistas 5,809
Me gustaría poder obtener archivos HTML estáticos relativamente actualizados del enorme (incluso cuando está comprimido) archivo de volcado XML de Wikipedia en inglés enwiki-latest-pages-articles.xml.bz2 que descargué de la página de volcado de WikiMedia. Parece que hay bastantes herramientas disponibles, aunque la documentación...
preguntado 11 años, 4 meses
-2
votos
2
respuestas
vistas 317
...
preguntado 11 años, 4 meses
2
votos
1
respuestas
vistas 668
Hola, tengo una tarea que realizar, que es básicamente recuperar de alguna manera presentaciones de PowerPoint o documentos pdf pertenecientes a un campo determinado. Digamos que quiero recuperar notas de conferencias en ppt y pdf relacionadas con el campo de la bioinformática. Me gustaría saber si esta tarea se puede lograr adaptando el...
preguntado 11 años, 4 meses
3
votos
3
respuestas
vistas 2,349
Necesito descargar muchas páginas a través de proxies. ...
preguntado 11 años, 4 meses
2
votos
1
respuestas
vistas 154
¡Hola chicos! Digamos que tengo una página que obtuve con este script: ...
preguntado 11 años, 4 meses
3
votos
1
respuestas
vistas 150
2
votos
1
respuestas
vistas 2,431
No puedo obtener el tiempo restante de Groupon HTML. Encontré un método antes presionando el enlace y regresó en formato JSON, pero ese enlace ya no funciona. ...
preguntado 11 años, 4 meses
2
votos
1
respuestas
vistas 394
Tengo una aplicación que registra los clics de los usuarios. El problema es que estos clics se envían a través de Twitter, lo que acorta cada enlace con t.co. Debido a esto, Twitter parece acceder al enlace entre 7 y 15 veces desde diferentes direcciones IP, probablemente para hacer cosas como registro y protección contra correo no deseado. ...
preguntado 11 años, 4 meses
1
votos
0
respuestas
vistas 757
Tuve una situación inusual en producción mientras hacía una publicación asincrónica de ajax. ...
preguntado 11 años, 4 meses
0
votos
2
respuestas
vistas 1,347
Quería rastrear un sitio web pero guardar solo esas páginas web,...
preguntado 11 años, 4 meses
1
votos
4
respuestas
vistas 139
soy nuevo en todo Por favor ayuda. Estoy tratando de gatear cada...
preguntado 11 años, 4 meses
0
votos
1
respuestas
vistas 2,270
¡Hola chicos! Usando complementos de Firefox puedo capturar encabezados. Quiero hacerlo en python: necesito cambiar la configuración del proxy del navegador a localhost: 8080 (o cualquier puerto), luego cada solicitud realizada por el navegador debe pasar a través del script de python que realmente se está ejecutando en mi máquina. Este script debería ser capaz...
preguntado 11 años, 4 meses