Foro de debate

Problema con tildes en R

Problema con tildes en R

de Diego Buenaño -
Número de respuestas: 4

Hola...

Tengo un problema al cargar archivos de texto en R,  los archivo están en formato UTF-8, y les he cargado utilizado la función DirSource, en esta función en el segundo parámetro le he indicado que el tipo de encoding es UTF-8, sin embargo al ver los datos cargados veo que las palabras con tilde se cortaron y se reemplazaron con un caracter especial.

Por favor su ayuda


En respuesta a Diego Buenaño

Re: Problema con tildes en R

de Franz Jimeno -

Hola,

¿Con qué sistema operativo estás trabajando?, en ocasiones uno piensa que el formato UTF-8 es el correcto y no es así. Existen programas que indican cuál es la codificación de un fichero.


¿Puedes copiar y pegar aquí lo que te aparece cuando ejecutas la función sessionInfo()?


Franz

En respuesta a Franz Jimeno

Re: Problema con tildes en R

de Diego Buenaño -



Hola Franz, muchas gracias por responder a continuación copio el el resultado de la ejecución de dicha función 

> sessionInfo()

R version 3.4.0 (2017-04-21)

Platform: x86_64-w64-mingw32/x64 (64-bit)

Running under: Windows 7 x64 (build 7601) Service Pack 1

 Matrix products: default

 locale:

[1] LC_COLLATE=Spanish_Ecuador.1252  LC_CTYPE=Spanish_Ecuador.1252   

[3] LC_MONETARY=Spanish_Ecuador.1252 LC_NUMERIC=C                    

[5] LC_TIME=Spanish_Ecuador.1252    

 attached base packages:

[1] stats     graphics  grDevices utils     datasets  methods   base     

 other attached packages:

[1] tm_0.7-1   NLP_0.1-10

 loaded via a namespace (and not attached):

[1] compiler_3.4.0  parallel_3.4.0  tools_3.4.0     SnowballC_0.5.1 Rcpp_0.12.11   

[6] slam_0.1-40 



En respuesta a Diego Buenaño

Re: Problema con tildes en R

de Franz Jimeno -

Hola Diego,

veo que utilizas windows. Puedes probar con la codificación nativa de windows que es "windows-1252" en lugar de UTF-8, a ver si así te aparece correctamente.

En ocasiones la codificación es difícil de reconocer, ya que los ficheros de texto no tienen ninguna manera de identificarse con su codificación correcta. 

Si no te funcionara de esa manera, intentaría coger algún programa tipo notepad ++ para intentar grabar el fichero con otra codificación e intentar abrirlo luego.


Un saludo,


Franz

En respuesta a Diego Buenaño

Re: Problema con tildes en R

de Franz Jimeno -
Hola Diego,


perdona que responda tan tarde. No se si pudiste solucionar el problema.

Te explico una posible solución por si no lo hubieras conseguido.

La codificación de texto, a veces, es un quebradero de cabeza. 

Existen funciones que intentan descubrir qué codificación se está utilizando.

Puedes probar con una librería llamada readr. 

install.packages("read")
library(readr)

Puedes utilizar la función guess_encoding, que intentará averiguar qué codificación utiliza un fichero. Por ejemplo:

> texto <- "a\n\u00b5\u00b5"

> guess_encoding(texto)
# A tibble: 1 × 2
  encoding confidence
     <chr>      <dbl>
1    UTF-8        0.8
> parse_character(texto, locale=locale(encoding="UTF-8"))
[1] "a\nµµ"

Un saludo,


Franz