análisis html - reemplazando el carácter de nueva línea
Frecuentes
Visto 256 veces
1
Creé un código de análisis html simple que obtiene contenido de texto de un XPath dado.
Mi código:
XPathFactory xFactory = XPathFactory.newInstance();
CleanerProperties props = new CleanerProperties();
props.setNamespacesAware(false);
XPath xpathi = xFactory.newXPath();
HtmlCleaner cleaner = new HtmlCleaner(props);
TagNode node = cleaner.clean(rawContent);
org.w3c.dom.Document doc = new DomSerializer(props).createDOM(node);
Object[] obj = xpathi.compile("//div[@class='answer']").evaluate(doc, XPathConstants.NODESET);
En esto, obtengo el obj poblado con las respuestas esperadas. Pero el carácter \n en las respuestas se reemplaza con una cadena vacía. ej.) Si la respuesta es como, uno dos tres
estoy recibiendo uno dos tres quiero obtener uno dos tres
Para esto, ¿necesito configurar alguna propiedad en CleanerProperties?
Cualquier sugerencia plz..
0 Respuestas
No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas parsing html-parsing or haz tu propia pregunta.
Quiero conservar los saltos de línea.. - sriram
Acotó el problema. La fuente html es como una dos Tres. Dado que los saltos de línea no tienen etiquetas de cierre adecuadas, parece que el limpiador html los eliminó. Entonces obtengo el texto concatenado sin espacio. ¿Alguna idea para resolver esto? - sriram