Modelo de reconocimiento de entidad de nombre OpenNLP para fecha y hora

Estoy usando modelos OpenNLP para el reconocimiento de entidades de nombre.

Paso oraciones en las que quiero identificar palabras. Open NLP requiere una variable String [], por lo tanto, divido mi String en palabras separadas por espacios.

Me enfrento al problema de reconocer la Fecha. Si, por ejemplo, la cadena contiene la fecha: 7 de enero de 2012 y divido la cadena en palabras, "7", "Jan" y "2012" se separan como 3 palabras diferentes. Aunque se reconocen como fechas, los 3 tokens diferentes no tienen sentido para mí para su posterior procesamiento. ¿Cómo puedo posiblemente dividir mi cadena, de modo que "2 de enero de 2012" pueda tomarse como una sola cadena... 7 de enero de 2012 es un formato... A veces también es 7,2012 de enero de 12. La fecha también reconoce el formato de hora que ingresé: como 18:XNUMX p. m.

El modelo de hora NER no reconoce la hora en 12:18pm o 09:52:52.. ¿Qué tipo de formato de hora acepta?

preguntado el 02 de mayo de 12 a las 19:05

1 Respuestas

El modelo de fecha y hora de Apache OpenNLP es estadístico, entrenado a partir de un corpus. Reconocerá la fecha y la hora del contexto, no solo del formato.

Si tienes necesidades específicas puedes crear tu propio corpus y tren su propio modelo de buscador de nombres de OpenNLP.

OpenNLP Name Finder también admite algunas personalizaciones durante el entrenamiento. Tal vez si crea un corpus y también agrega algunos características basadas en expresiones regulares puedes mejorar tus resultados.

contestado el 03 de mayo de 12 a las 02:05

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.