Raspado de página para un div en particular

Me pregunto si hay una manera de leer la salida html de una página web determinada usando Java.

Sé que en php puedes hacer algo como:

$handle = @fopen("'http://www.google.com", "r");
$source_code = fread($handle,9000);

Estoy buscando el equivalente de Java.

Además, una vez que tengo el html renderizado, ¿hay alguna utilidad de Java que me permita eliminar un solo div por su id?

Gracias por cualquier ayuda en esto.

preguntado el 03 de mayo de 12 a las 17:05

1 Respuestas

Utiliza jsopa.

Puede elegir entre un modelo de árbol y una potente sintaxis de consulta similar a los selectores de CSS o jQuery, además de métodos de utilidad para obtener rápidamente el origen de una página web.

Para citar de su sitio web:

Obtenga la página de inicio de Wikipedia, analícela en un DOM y seleccione los titulares de la sección En las noticias en una lista de Elementos:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

Una vez que encontraste el Element representando el div quieres eliminar, solo llama remove() en ella.

contestado el 03 de mayo de 12 a las 17:05

No tenía claro a qué me refería con desnudarme. Quiero eliminar un div particular en una variable y descartar el resto de la página. ¿Alguna idea sobre cómo haría eso? - Baxter

Oh, eso debería ser tan fácil como Element someElement = doc.getElementById("someId") :) - Felipe Reichart

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.