No se puede encontrar el código fuente exacto de mi blog

Estoy en un proyecto en el que me ocupo de analizar HTML de páginas web. Entonces, tomé mi blog (Blog de Bloggers - Plantilla Dinámica) e intenté leer su contenido. Desafortunadamente, no pude ver la fuente "real" de la página web del blog.

Esto es lo que observé:

  1. he hecho clic view source en un artículo aleatorio de mi blog y traté de encontrar el contenido en él. y no pude encontrar ninguno. Todo era JavaScript.

  2. Entonces, guardé la página web en mi computadora portátil y revisé la fuente nuevamente, esta vez encontré el contenido.

  3. También verifiqué la fuente usando developers tools en los navegadores y nuevamente encontró el contenido en él.

  4. Ahora, probé la forma de Python

    import urllib
    from bs4 import BeautifulSoup
    
    soup = BeautifulSoup( urllib.urlopen("my-webpage-address") )
    print soup.prettify()
    

    Ni siquiera encontré el contenido en el código HTML.

Finalmente, por qué no puedo encontrar el contenido en el código fuente en el caso 1, 4.

¿Cómo debo obtener el código HTML real? Deseo escuchar cualquier biblioteca de Python que haga el trabajo.

preguntado el 12 de junio de 12 a las 16:06

Tienes que analizar el JavaScript, que tiene otras implicaciones. -

1 Respuestas

El contenido se carga a través de JavaScript (AJAX). No está en la "fuente".

En el paso 2, está guardando el resultante página, no la fuente original. En el paso 3, está viendo lo que representa el navegador.

Los pasos 1 y 4 "no funcionan" porque está obteniendo la fuente de la página (que no contiene el contenido). En realidad, debe ejecutar JavaScript, lo cual no es fácil de hacer para un raspador de pantalla.

Respondido el 12 de junio de 12 a las 16:06

Entonces, ¿cómo debo extraer exactamente el contenido que escribo en él? - Surya

@Surya: necesitaría buscar un marco o lib de "navegador sin cabeza" que pueda representar la página exactamente como lo haría un navegador, incluido javascript. Phantomjs, o fantasma o casperjs - jdi

O, si está de acuerdo con solo tener el contenido sin procesar, puede realizar las solicitudes de ajax en Python usted mismo presionando el punto final de ajax con los datos de obtención o publicación apropiados. - andres gorcester

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.