3
votos
1
respuestas
vistas 391
Fuzzy Regex, procesamiento de texto, análisis léxico?
No estoy muy seguro de qué terminología buscar, así que mi título es raro... Este es el flujo de trabajo que tengo: ...
preguntado 10 años, 8 meses
303 preguntas, página #1
3
votos
1
respuestas
vistas 391
No estoy muy seguro de qué terminología buscar, así que mi título es raro... Este es el flujo de trabajo que tengo: ...
preguntado 10 años, 8 meses
3
votos
1
respuestas
vistas 164
A menudo uso Python para reemplazar varios tipos de caracteres en el texto, usando scripts que se ven así: ...
preguntado 10 años, 8 meses
26
votos
7
respuestas
vistas 60,640
Tengo la siguiente lista de palabras: ...
preguntado 10 años, 8 meses
0
votos
1
respuestas
vistas 462
Tengo dos archivos y cada archivo tiene 3 columnas y n número de filas (diferente número de filas en cada archivo). ...
preguntado 10 años, 8 meses
0
votos
1
respuestas
vistas 1,811
Estoy tratando de implementar LCA de múltiples nodos en un árbol n-ario en Java. Estoy trabajando con árboles de análisis de oraciones, por lo que es razonable suponer que el número de hijos de un nodo <= 6. Los nodos múltiples aquí son dos frases (secuencia continua de palabras) en una oración. Sea k el número de nodos...
preguntado 10 años, 8 meses
2
votos
3
respuestas
vistas 601
...
preguntado 10 años, 8 meses
0
votos
1
respuestas
vistas 264
Quiero generar un árbol de análisis (Objeto Java) a partir de una descripción de análisis (Forma condensada de un análisis sintáctico) de una oración en inglés. Estoy usando Java para lo mismo y también necesito definir un árbol eficiente. P.ej. de la descripción: ...
preguntado 10 años, 8 meses
1
votos
1
respuestas
vistas 201
Aquí hay un ejemplo de una oración de Ontonotes-V3.0. Deseo saber el significado de *T*-1 y *-2 en la oración Treebanked [que creo que es una versión simbólica de la oración simple]...
preguntado 10 años, 8 meses
11
votos
1
respuestas
vistas 8,016
¿Cómo se ven afectadas las frecuencias de términos (TF) y la frecuencia de documentos inversa (IDF) por la eliminación y lematización de palabras vacías? ...
preguntado 10 años, 8 meses
1
votos
2
respuestas
vistas 1,063
Suponiendo un archivo de valores separados por tabulaciones (TSV) con una línea de encabezado, ¿cómo se crearía una matriz de PHP con los campos de encabezado como clave y los campos de datos como datos? ...
preguntado 10 años, 9 meses
1
votos
2
respuestas
vistas 82
empezando a trabajar como técnico de TI últimamente...
preguntado 10 años, 9 meses
0
votos
3
respuestas
vistas 202
Está bien, estoy procesando registros de búsqueda con una clase Java, pero en algún momento me topé con una parte complicada en los registros: ...
preguntado 10 años, 9 meses
95
votos
7
respuestas
vistas 87,768
Tengo una variable Bash, $word, que a veces es una palabra o una oración, por ejemplo: ...
preguntado 10 años, 9 meses
0
votos
1
respuestas
vistas 314
Tengo un conjunto de correos electrónicos en un archivo de texto. Quiero extraerle el cuerpo. El documento de muestra se muestra a continuación. ...
preguntado 10 años, 9 meses
2
votos
1
respuestas
vistas 1,323
Recientemente he estado tratando de crear un programa de Python al que le das una palabra y enumera todos sus sinónimos. Aquí está el código que estoy usando: ...
preguntado 10 años, 10 meses
1
votos
1
respuestas
vistas 964
Tengo un archivo csv, que se puede importar a R. ...
preguntado 10 años, 10 meses
3
votos
5
respuestas
vistas 4,647
Tengo un problema con Python desde hace unos días. Soy un bioinformático sin conocimientos básicos de programación y estoy trabajando con archivos de texto enormes (25 gb aprox.) que tengo que procesar. ...
preguntado 10 años, 10 meses
2
votos
1
respuestas
vistas 1,914
Soy un novato total tratando de usar Python para analizar los archivos de registro de mi empresa. Tienen un formato diferente, por lo que los analizadores de registros en línea no funcionan bien con ellos. ...
preguntado 10 años, 10 meses
1
votos
3
respuestas
vistas 339
Estoy tratando de escribir un indexador de documentos genérico a partir de un montón de documentos con diferentes codificaciones en Python. Me gustaría saber si es posible leer todos mis documentos (que están codificados con utf-8, ISO8859-xx y windows-12xx) con utf-8 sin pérdida de caracteres. ...
preguntado 10 años, 11 meses
0
votos
2
respuestas
vistas 1,278
...
preguntado 10 años, 11 meses
2
votos
2
respuestas
vistas 715
No tengo mucha experiencia en análisis de sentimientos o procesamiento del lenguaje natural, pero he estado leyendo un poco sobre eso en mi tiempo libre. Me gustaría realizar y experimentar para analizar hilos / comentarios de foros como reddit, digg, blogs, etc. Estoy particularmente interesado en hacer ...
preguntado 10 años, 11 meses
5
votos
1
respuestas
vistas 967
Necesito segmentar palabras de un texto. Algunas veces, las palabras con guiones se escriben sin guiones y las palabras apóstrofes se escriben sin apóstrofo. También hay problemas similares, como diferentes problemas de ortografía de las mismas palabras (por ejemplo, color, color) o una sola palabra que se escribe con espacios entre ...
preguntado 10 años, 11 meses
0
votos
1
respuestas
vistas 101
...
preguntado 10 años, 11 meses
0
votos
1
respuestas
vistas 250
Estoy trabajando en un proyecto de pasatiempo para migrar una biblioteca de marcado existente a una biblioteca de clases C # / .NET. Si está familiarizado con Markdown, es un concepto similar. ...
preguntado 10 años, 11 meses
307
votos
6
respuestas
vistas 187,902
En un script de Bash, quiero seleccionar N líneas aleatorias del archivo de entrada y la salida a otro archivo. ...
preguntado 10 años, 11 meses
2
votos
4
respuestas
vistas 680
Tengo un archivo html con texto en ruso. ¿Cómo puedo obtener todas las palabras en texto sin etiquetas html, símbolos especiales, etc.? ...
preguntado 10 años, 11 meses
8
votos
2
respuestas
vistas 9,060
Tengo un archivo .txt, que quiero procesar en Java. Quiero borrar su última línea. ...
preguntado 10 años, 11 meses
0
votos
1
respuestas
vistas 297
Estoy tratando de leer un comando y un nombre. Por ejemplo, "nombre:" + "nombre de usuario" y quiero agregar el nombre de usuario a una lista de arrays. Estoy tratando de dividir la entrada, de modo que tenga una variable de nombre y una variable de nombre de usuario como se muestra a continuación: ...
preguntado 11 años, 0 meses
16
votos
6
respuestas
vistas 3,970
Voy a hacer un algoritmo de ajuste de palabras en PHP. Quiero dividir pequeños fragmentos de texto (frases cortas) en n líneas de un máximo de m caracteres (no se dan n, por lo que habrá tantas líneas como sea necesario). La peculiaridad es que la longitud de las líneas (en caracteres) debe estar lo más equilibrada posible entre líneas. ...
preguntado 11 años, 0 meses