jueves, 21 de abril de 2016

Hacer una base de datos para R

Ciertamente existen muchas librerías que permiten a R abrir distintos formatos (como .xlsx, .sav, .dbf, entre otras), pero en esta entrada les enseñaré a crear bases sencillas y legibles en cualquier ordenador.

Para ello iniciaremos con un ejemplo. Supongamos que ustedes tienen una investigación en la que desean determinar si las personas que tiene miedo irracional a las arañas (aracnofobia) experimentan ansiedad igual o diferente cuando están en presencia de una araña  real o cuando están en presencia de una fotografía de la misma. Para ello tienen una muestra de 24 participantes, 12 en el grupo de arañas reales, y otros 12 en el grupo de fotografías de arañas.


La forma de capturar los datos puede variar un poco, pero en general es prácticamente la misma a como hacemos en cualquier software de análisis de datos. Para ello tenemos que organizar nuestros datos en un arreglo de filas y columnas como usted crea que sería más conveniente para analizar.
Pongamos el ejemplo de que en una columna colocamos la puntuación de ansiedad, y en una columna contigua especificamos si la puntuación corresponde a una persona que estuvo en el grupo de arañas reales o bien de fotografías de arañas. Ésto podemos capturarlo en una hoja de cálculo cualquiera tal como se puede apreciar en figura de a continuación:


En mi ejemplo, pueden apreciar que añadí además un titulo a cada columna para saber que variable tengo en cada una de ellas. Esto es recomendable realizarlo, ya que posteriormente será de mucha ayuda en R. Una vez satisfechos con nuestra base, la guardamos en formato de "Texto (delimitado por tabulaciones)" con el nombre que querramos. En mi caso le llame "Aracnofobia". Lo que creará  un archivo con extensión "txt" el cual ya puede ser abierto fácilmente por R.

Para abrir la base simplemente abrimos Rstudio, y hacemos click en el botón que dice "Import data set" que se ubica en el recuadro de la esquina superior derecha. Le damos click en la opción "From Local File..." (ver figura de abajo) lo que nos abrirá un cuadro de diálogo donde podremos buscar el archivo que previamente habíamos guardado. Lo seleccionamos y la damos en "Abrir".


Al abrirlo, obtendremos un cuadro de diálogo donde señalaremos las características de nuestra base, que para propósitos prácticos usualmente no modificaremos mucho, pero que explicaré a continuación.


En la caja de "Name" colocamos el nombre de la base de datos. Por omisión lleva el nombre del archivo (en mi caso Aracnofobia), pero lo pueden cambiar a su gusto. Yo recomiendo cambiarlo cuando el nombre del archivo es muy largo o difícil. En "Encoding" lo dejamos en "Automatic". En "Heading" tenemos la opción de Yes o No. Y esto nos sirve para decirle a R que nuestra base tiene títulos (o Headings) en las columnas con el nombre de las variables (tal como en mi caso que se llaman: Participante, araña, y  ansiedad). En caso de que su base no tenga títulos en las variables marquen no, y R simplemente podrán títulos genéricos de tipo V1, V2, V3, hasta Vn, siendo n el número de columnas que tengan como variables. Por omisión, R detecta automáticamente si su archivo tiene títulos o no, pero nunca está demás cerciorarse que lo haya detectado correctamente.

En cuanto a "Row Names" utiliza el titulo de la variable como nombre de la columna, "Separator" toma en cuanta como están separados los datos en la base original (el txt), que en nuestro caso, es por tabulaciones, razón por la que R inmediatamente lo detecta y utiliza la opción "Tab" (en la práctica, esta tampoco lo modificaremos muy seguido). En cuanto al decimal, lo usamos para definir de que forma determinamos los decimales en la base (p. ej. en américa usamos el punto, pero en ciertos lugares del mundo se usa la coma). En cuanto a "Quote" R lo utilizá para determinar como tomará las cadenas de texto (es decir, variables que solo son texto), y usualmente toma por omisión las dobles comillas (nuevamente, este lo modificaremos poco en la práctica). "Coment" es por si el archivo tiene comentarios en los metadatos, lo que casi siempre será NO, y "na.strings" se refiere al valor que R usará y colocará en los datos perdidos, lo cual tampoco modificaremos mucho y que por omisión es NA. Finalmente, siempre se marca la opción "String as Factors" que se refiere a que las cadenas de texto serán consideradas como factores, es decir, variables de tipo nominal.

Adicionalmente Rstudio nos mostrará dos pequeñas visualizaciones de los datos: la superior que hace referencia a como se ven los datos originales (Input file), y la inferior donde representa como se verá la base en el ambiente de R (Data Frame). Si estamos satisfechos con las configuraciones le damos en "Import", y Rstudio correra el comando siguiente:

> Aracnofobia <- read.delim("C:/Users/JULIO/Desktop/Aracnofobia.txt")
> View(Aracnofobia)

El cual simplemente se usa para abrir el archivo y que hace todo lo que configuramos en el cuadro de diálogo anterior pero en forma de comando (por si quieren aprender los comandos). Finalmente, obtendrán como resultado, una base de datos o Data Frame (en lenguaje de R) el cual ya está listo para que utilicen en sus análisis estadísticos!


Sin más que añadir, espero que la información sobre R les haya sido de utilidad. Creo que lo será, ya que si bien hay muchos blog de R, pocos hay en español y aun mucho menos que inicien a los lectores en R desde cero.

Cualquier duda, pueden preguntar en los comentarios o en mis redes sociales, y nos vemos la próxima cuando les ayude a ver la distribución de sus datos.

Nota: El ejemplo y los datos los obtuve el libro de Andy Field: Discovering Statistics using R!

0 comentarios:

Publicar un comentario