Cómo encontrar información en los vertederos de wikipedia

Me disculparé ya que soy bastante nuevo en SQL.

Quería evitar rastrear wikipedia, así que comencé a buscar otra forma de hacerlo. DBPedia parecía una posible solución, pero después de una hora de buscar por dónde empezar, volví a los vertederos de wikipedia.

La pregunta que tengo es ¿cómo encuentro lo que quiero en los basureros? ¿Qué vertederos necesito para encontrar una información en particular? Hay tantos vertederos allí y contribuyen a diferentes partes de la estructura. ¿Necesito descargarlos todos para obtener cien megabytes de datos?

Investigué la estructura de la base de datos de Mediawiki, pero eso no ayudó mucho.

¿Alguien ha hecho algo así antes? Estoy particularmente interesado en las tablas que wiki hace sobre atletas y demás. ¿Hay alguna forma de rastrear qué información o vincular información relacionada en qué volcado de wiki en particular?

EDITAR: Estoy tratando de obtener una lista de atletas de todos los deportes, con nombres, edades, deporte, medallas ... etc ...

preguntado el 24 de agosto de 12 a las 09:08

¿No nos está diciendo lo que quiere hacer, pero espera que sepamos qué vertederos necesitará? -

Bueno, en realidad no estoy preguntando por vertederos específicos, sino por la forma de navegar a través de ellos. Edité la publicación para los detalles de lo que estoy buscando específicamente. -

parecía más complicado que simplemente restaurar volcados y obtener cosas de la fuente "primaria", -

2 Respuestas

Wikipedia (o sus vertederos) realmente no contiene la información estructurada que está buscando. Si desea averiguar qué medallas ganó un atleta, puede intentar analizar el artículo de ese atleta para encontrar la plantilla utilizada para las medallas. Pero hacer esto probablemente sea difícil, porque las plantillas a menudo no están estandarizadas y cambian con el tiempo.

Creo que DBPedia sería mucho mejor para sus necesidades.

Respondido 24 ago 12, 17:08

Teniendo la misma pregunta... en este preciso momento de mi vida. Dediqué un tiempo a eso, y la respuesta es -> No hay una página que le brinde una vista previa de los volcados de datos para que pueda ver una pequeña parte de ellos antes de descargar todo el gigantesco conjunto de bases de datos gigantes - eso por cierto es un gran problema para analizar en cualquier aplicación de texto normal. Si tiene acceso a una terminal, use el comando "gato" para ver qué hay dentro, con mucho, la forma más rápida.

Sabía lo que quería encontrar: un volcado que contenía pageId y Títulos, no había información sobre qué volcado contenía eso. Así que tuve que buscar buscar buscar -> nada... luego tuve que descargar como 10-15 volcados de diferentes tipos para abrirlos y ver si podía usarlos.

Resulta que el volcado: enwiki-latest-page.sql.gz contenía todos los ID de página y títulos de ing. Wikipedia. Lo cual, en general, es un volcado útil ya que desde pageId puede solicitar todo el texto y el contenido de cualquier página wiki y puede usar el título para saber para qué es este pageId.

Respondido 03 Oct 16, 20:10

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.