encontrar palabras comunes de dos páginas web sobre la marcha
Frecuentes
Visto 736 veces
1
Tengo una lista de especies aquí:
http://megasun.bch.umontreal.ca/ogmp/projects/other/compare.html
Y una lista de especies aquí:
http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=3524
Me gustaría encontrar todas las especies que se mencionan en AMBAS páginas. ¿Cómo puedo hacer esto rápidamente? (No me importa si se encuentran palabras que no se refieren a especies. Quiero hacer una comparación de palabras en general :)
Gracias por las sugerencias.
1 Respuestas
1
En cada página de una consola, haga lo siguiente:
var html = document.body.innerHTML;
results = [];
html.match(/>([^<]+?)</g) // grab all values like ">...<"
.map(function(match) { // look for a long words..words..words
return match.match(/\w.*\w/);
})
.filter(function(match) { // ignore empty matches
return match!==null
})
.forEach(function(match) {
var text = match[0];
if (!text.match(/[0-9]/) && // ignore matches with numbers
results.indexOf(text)==-1) // add to results if not duplicate
results.push(text);
});
JSON.stringify(results);
Entonces hazlo:
var page1 = JSON.parse(' /*COPY-PASTE THE RESULT OF PAGE 1*/ ');
var page2 = JSON.parse(' /*COPY-PASTE THE RESULT OF PAGE 2*/ ');
page1.map(function(s){return page2.indexOf(s)!=-1});
Esto es necesario para eludir las restricciones del navegador.
Demostración:
> JSON.stringify( page1.filter(function(s){return page2.indexOf(s)!=-1}) )
'["Beta vulgaris","Spinacia oleracea"]'
contestado el 22 de mayo de 12 a las 16:05
No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas html search text or haz tu propia pregunta.
¿Con qué idioma? ¿Qué has intentado hasta ahora? - knittl