¿Cómo calcular probabilidades a partir de matrices de confusión? necesita denominador, matrices de caracteres

Este papel contiene matrices de confusión para errores ortográficos en un canal ruidoso. Describe cómo corregir los errores basados ​​en propiedades condicionales.

El cálculo de probabilidad condicional está en la página 2, columna izquierda. En la nota al pie 4, página 2, columna izquierda, los autores dicen: "Las matrices de caracteres se pueden replicar fácilmente y, por lo tanto, se omiten del apéndice". ¡No puedo entender cómo pueden ser replicados!

¿Cómo replicarlos? ¿Necesito el corpus original? o, ¿quisieron decir los autores que podían volver a calcularse a partir del material del artículo mismo?

preguntado el 22 de mayo de 12 a las 20:05

1 Respuestas

Mirando el papel, solo necesita calcularlos usando un corpus, ya sea el mismo o uno relevante para su aplicación.

Al replicar las matrices, tenga en cuenta que implícitamente definen dos diferentes chars matrices: un vector y una matriz n-por-n. para cada personaje x, el vector chars contiene un recuento del número de veces que el carácter x ocurrido en el corpus. Para cada secuencia de caracteres xy, la matriz chars contiene un recuento del número de veces que ocurrió esa secuencia en el corpus.

chars[x] representa una búsqueda de x en el vector; chars[x,y] representa una búsqueda de la secuencia xy en la matriz. Tenga en cuenta que chars[x] = la suma sobre chars[x,y] por cada valor de y.

Tenga en cuenta que todos sus recuentos se basan en el corpus de AP Newswire de 1988 (disponible en el LDC). Si no puede usar su corpus exacto, no creo que sea irrazonable usar otro texto del mismo género (es decir, otro corpus de noticias) y escalar sus conteos para que se ajusten a los datos originales. Es decir, la frecuencia de un carácter determinado no debería variar demasiado de un texto a otro si son lo suficientemente similares, por lo que si tiene un corpus de 22 millones de palabras de noticias, podría contar los caracteres de ese texto y luego duplíquelos para aproximarse a sus recuentos originales.

contestado el 30 de mayo de 12 a las 22:05

si no es el mismo corpus, ¿cómo se pueden calcular las probabilidades? el numerador y el denominador deben ser "compatibles", ¿no? de lo contrario, la división podría generar probabilidades muy diferentes según el corpus para el numerador y el corpus para el denominador. - nigromante

Si usa un corpus similar (es decir, uno de texto de noticias) de tamaño similar, probablemente pueda suponer que los caracteres y las secuencias de caracteres ocurren aproximadamente con la misma frecuencia que en su corpus original. (Estoy buscando para ver si el corpus Newswire de 1988 está disponible para descargar en cualquier lugar, pero es posible que también tenga que volver a calcular las otras matrices). DMH

Parece que los datos de 1988 son parte del corpus TIPSTER disponible en LDC: ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC93T3A - DMH

Gracias por el enlace de datos. Pero con respecto a su comentario sobre "corpus similar", el problema es que el documento no proporciona frecuencias en ninguna parte; da cuenta. Para obtener frecuencias de conteos, necesita la matriz de caracteres basada en el corpus original (creo). Y si tiene las frecuencias, entonces no necesita ninguna otra información de ninguna manera. ¿Tengo razón? - nigromante

Mi razonamiento es básicamente este: un corpus similar (por ejemplo, el mismo género) debería tener frecuencias de caracteres similares. Afirman que el corpus de AP Newswire de 1988 tiene ~ 44 millones de palabras, por lo que si usa un corpus de 22 millones de palabras de newswire y duplica sus conteos, puede obtener una aproximación razonable. - DMH

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.