Conjunto de datos de palabras comunes para construir oraciones básicas

Así que estoy haciendo un "imán de nevera" interactivo y estaba tratando de encontrar un conjunto de datos válido para que las palabras tengan para que el usuario las arrastre.

Estoy usando este conjunto de datos... pero no es tan bueno

http://en.wikipedia.org/wiki/Most_common_words_in_English

e ideas sobre dónde encontrar un conjunto de palabras más válido

preguntado el 22 de mayo de 12 a las 16:05

1 Respuestas

Una forma de hacerlo usted mismo es descargar un corpus de texto y luego ejecutar un script que cuente el número de cada palabra que aparece. Luego elige algún valor N y dividir cada conteo por N (redondeando hacia abajo). Para cada palabra, haga un imán para cada cuenta dividida. deberías elegir N en función de cuántos imanes desea sacar al final.

Esto tiene la ventaja de que la distribución de los imanes coincide con la distribución de las palabras. Por ejemplo, si "el" aparece 1000 veces, "hombre" 320 veces, "camina" 150 veces y "salta" 2 veces, y elige N para ser 100, entonces terminará haciendo 10 "los" imanes, 3 "hombre", 1 "camina" y 0 "saltos".

También es posible que desee tomar el logaritmo de los recuentos para intentar reducir el sesgo. Dado que las distribuciones de palabras son Zipfian, podría terminar con miles de "los" imanes para cada "paseo").

Finalmente, lo bueno de este enfoque es que puede ejecutarlo en un dominio en particular para crear un conjunto de imanes de palabras para ese dominio. Por ejemplo, si desea crear imanes de palabras que suenen como noticias, ejecútelos en un corpus de noticias. Si desea crear imanes de palabras que suenen como cuentos de hadas, ejecútelos en un corpus de cuentos de hadas.

Si realmente quieres ponerte elegante, puedes usar algo como TF-FDI para seleccionar las palabras que son más representativas de ese dominio y luego mezclarlas con palabras de función comunes.

contestado el 22 de mayo de 12 a las 19:05

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.