Filtrando los datos raspados usando C#

He extraído con éxito datos de la página de sitios web. Pero contiene tanto las etiquetas HTML como el texto sin formato. ¿Cómo puedo filtrar los datos no deseados (etiquetas, scripts, texto que no es necesario, etc.) de estos datos extraídos? Al menos sugiera algún enfoque para hacerlo.

preguntado el 04 de julio de 12 a las 06:07

2 Respuestas

Puedes usar Paquete HTML Agility para analizar el html y eliminar cualquier toma no deseada.

Cómo usar el paquete de agilidad HTML

contestado el 23 de mayo de 17 a las 11:05

Puedes empezar echando un vistazo a la Paquete HTML Agility. Esto debería permitirle eliminar cualquier HTML.

Este es un analizador HTML ágil que construye un DOM de lectura / escritura y es compatible con XPATH o XSLT simple (en realidad, no TIENES que entender XPATH ni XSLT para usarlo, no te preocupes ...). Es una biblioteca de código .NET que le permite analizar archivos HTML "fuera de la web". El analizador es muy tolerante con HTML mal formado del "mundo real". El modelo de objetos es muy similar al que propone System.Xml, pero para documentos HTML (o streams).

Respondido 04 Jul 12, 06:07

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.