problema de codificación?

trabajo con archivos txt, y recientemente encontré, por ejemplo, estos caracteres en algunos de ellos:

http://pastebin.com/raw.php?i=Bdj6J3f4

¿Cuáles podrían ser estos personajes? codificación de caracteres incorrecta? Solo quiero usar archivos TXT UTF-8 normales, pero cuando uso:

iconv -t UTF-8 input.txt > output.txt


sigue siendo el mismo.

Cuando abro los archivos en gedit, los copio y pego en otros archivos txt, entonces no hay caracteres como los de pastebin. para que gedit pueda resolver este problema, codifica bien los archivos TXT. pero hay demasiados archivos txt.

por qué hay http://pastebin.com/raw.php?i=Bdj6J3f4 -como caracteres en los archivos de texto? ¿se pueden convertir a "caracteres normales"? No puedo ver, por ejemplo: el carácter "ÃŒ", cuando abro los archivos con vim, solo después de "trabajar con ellos" (por ejemplo: awk, etc.)

preguntado el 08 de enero de 11 a las 19:01

3 Respuestas

Sería útil si publicara el contenido binario real de su archivo (tal vez utilizando la salida de od -t x1). El pastebin devuelve esto como HTML:

"ÃŒ" "Ã" "à ©"

La primera línea corresponde a U + 00C3 U + 0152. La última línea corresponde a U + 00C3 U + 00A9, que es la cadena "\ ux00e9" en UTF ("\ xc3 \ xa9") con los bytes UTF-8 reinterpretados como Latin-1.

Respondido el 08 de enero de 11 a las 22:01

Desde man iconv:

El programa iconv convierte texto de una codificación a otra. Más precisamente, convierte de la codificación dada para la opción -f a la codificación dada para la opción -t. Cualquiera de estas codificaciones tiene como valor predeterminado la codificación de la configuración regional actual

Porque no especificaste el -f opción, asume que el archivo está codificado con la codificación de su configuración regional actual (probablemente UTF-8), lo que aparentemente no es cierto. Sus editores de texto (gedit, vim) hacen alguna detección de codificación; puede verificar qué codificación detectan (no sé cómo, no uso ninguno de ellos) y usarlo como -f opción iconv (o guarde el archivo abierto con la codificación deseada usando uno de esos editores de texto).

También puede utilizar alguna herramienta para la detección de codificación como Módulo chardet de Python:

$ python -c "import chardet as c; print c.detect(open('file.txt').read(4096))"
{'confidence': 0.7331842298102511, 'encoding': 'ISO-8859-2'}

Respondido el 09 de enero de 11 a las 00:01

... ¡resuelto!

cómo:

Simplemente hice clic derecho en las carpetas que contienen los archivos TXT y las pegué en otra carpeta ..: O y listo ... no hay más caracteres feos ..

Respondido el 09 de enero de 11 a las 12:01

No es la respuesta que estás buscando? Examinar otras preguntas etiquetadas or haz tu propia pregunta.