análisis html - reemplazando el carácter de nueva línea

Creé un código de análisis html simple que obtiene contenido de texto de un XPath dado.

Mi código:

XPathFactory xFactory = XPathFactory.newInstance();
CleanerProperties props  = new CleanerProperties();
props.setNamespacesAware(false);    
XPath xpathi = xFactory.newXPath();
HtmlCleaner cleaner = new HtmlCleaner(props);
TagNode node = cleaner.clean(rawContent);
org.w3c.dom.Document doc = new DomSerializer(props).createDOM(node);
Object[] obj = xpathi.compile("//div[@class='answer']").evaluate(doc, XPathConstants.NODESET);

En esto, obtengo el obj poblado con las respuestas esperadas. Pero el carácter \n en las respuestas se reemplaza con una cadena vacía. ej.) Si la respuesta es como, uno dos tres

estoy recibiendo uno dos tres quiero obtener uno dos tres

Para esto, ¿necesito configurar alguna propiedad en CleanerProperties?

Cualquier sugerencia plz..

preguntado el 21 de mayo de 12 a las 19:05

Quiero conservar los saltos de línea.. -

Acotó el problema. La fuente html es como una dos Tres. Dado que los saltos de línea no tienen etiquetas de cierre adecuadas, parece que el limpiador html los eliminó. Entonces obtengo el texto concatenado sin espacio. ¿Alguna idea para resolver esto? -

0 Respuestas

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.