Primeros pasos con el software R

Escrito por Francisco Joel Jahuey-Martínez y Jessica B. Herrera-Ojeda

¿Qué es R?

R es conocido como un lenguaje de programación, pero más bien es un conjunto de programas que se integran para realizar diversas funciones, como manejar y analizar datos, cálculos y hacer gráficos. Al ser gratuito y relativamente fácil de utilizar, se ha convertido en la plataforma estadística más recurrida para el análisis de datos, convirtiéndose en un software de alto nivel, llegando a la altura de otros lenguajes y programas estadísticos como Phyton, SPSS y SAS.

Actualmente es difícil imaginar a un investigador que no utilice un software especializado para sus análisis estadísticos, siendo esta fase de la investigación una de los más importantes para el éxito de un estudio, por lo que es común que estudiantes y profesionales de áreas afines a las matemáticas o la estadística, estén familiarizados con el programa; sin embargo, esto no significa que en otras áreas científicas hayan tenido algún acercamiento a este programa. Esta es una de las razones por las que este artículo pretende instruir al lector en el entendimiento y manejo básico del programa R por medio de una serie de pasos y recomendaciones que lo guiarán en el proceso de aprendizaje, partiendo de una mínima o nula experiencia en programación.

 

Comencemos: La descarga

La consola puede ser descargada desde el sitio web oficial de R. El proceso de instalación es muy fácil (vea el siguiente video), únicamente se selecciona la versión adecuada para el sistema operativo de nuestra computadora y se siguen los pasos de instalación que vienen definidos, igual que otro software o app. La plataforma de R está disponible para el sistema operativo que usemos normalmente en nuestra computadora (Windows, MacOS y Linux) y no requiere de grandes cantidades de memoria RAM para su uso básico.

Pero si queremos usar R con una interfaz más afable y no estresarnos de más, es recomendable instalar RStudio, plataforma más llamativa y amigable para el usuario, ya que contiene múltiples menús y opciones para el manejo de datos, lo que nos va a permitir hacer muchas cosas basándose en el lenguaje R (https://www.rstudio.com/products/rstudio/).

 

Primeros pasos: ¿Cómo me comunico con el programa?

Es importante entender que para aprender a utilizar R, el usuario debe aprender a «hablar» su mismo lenguaje, es decir, entender de qué forma podemos «conversar o chatear» en el mismo idioma de una computadora. De manera técnica, esto significa que debemos pasar o escribir comandos a través de un script al software para especificar las instrucciones que el programa debe ejecutar. Bueno, y pensarás, ¿qué es un script? Un script es un archivo de texto, un documento que contiene un conjunto de órdenes y códigos, como una receta de cocina, los cuales pueden guardarse y utilizarse para repetir un análisis posteriormente de principio a fin. Las palabras o el vocabulario que van escritas en el script y en las que entiende las instrucciones el software R, se llaman funciones.

 

¿Y qué son las funciones?

Las funciones son códigos creados por desarrolladores y sirven para realizar tareas específicas en R. Generalmente son empaquetados en lo que se denominan «librerías o paquetes». Afortunadamente, los usuarios principiantes no necesitarán crear funciones, sino que empezarán utilizando las funciones que ya existen en diversas librerías. Actualmente, R cuenta con más de 17 000 librerías disponibles en el repositorio llamado CRAN, disponible aquí.

Existe una infinidad de funciones, por lo que sería imposible memorizarlas todas, ya que tan solo la librería «base» contiene más de 1 200 funciones básicas. Algunas de ellas se utilizan de manera frecuente, como se describe en el siguiente cuadro. Pero esto no debe preocuparnos, ya que siempre podrás escribir en la consola la función help (?) para acceder a diversas páginas con mucha documentación sobre las funciones de R.

A pesar de la gran variabilidad y disponibilidad de funciones, siempre surgirá la siguiente duda: ¿Qué función debo utilizar para hacer este análisis?

 

¿Cómo encontrar la función que necesitas en R?

Además del tip anterior de usar el comando help (?), debemos primero como usuarios saber en qué tarea queremos que nos ayude el programa: sumar por filas, resumir múltiples variables, generar gráficas, etc. Un primer intento para encontrar la función adecuada es realizar una búsqueda en Google utilizando la famosa frase ¿How to… in R? (¿Cómo hago… en R?), por ejemplo, ¿How to read a file in R? traduciéndose en ¿Cómo leer un archivo en R? Esta búsqueda arrojará respuestas en sitios como rdocumentation y statmethods. Bastará con leer la descripción de la función proporcionada en el sitio web y, si esta función cumple las necesidades del usuario, se debe seguir la instrucción de cómo ejecutarlo, pero debemos tener en cuenta la estructura de datos solicitada por la función; de esta forma empezamos a chatear con el programa.

 

Ya encontré la función, ahora ¿Cómo la utilizo?

Recordemos que utilizar R implica «hablar idioma computadora», por lo que un paso crucial al aprender R, es saber que las funciones se deben escribir bajo un orden específico o sintaxis para que pueda trabajarse correctamente. La mayoría de las funciones se ejecutan escribiendo el nombre de la función seguido de paréntesis conteniendo el nombre del objeto al que se desea aplicar la función, por ejemplo, para que podamos sumar los datos ponemos la siguiente función: sum(datos). En caso de no utilizar una sintaxis correcta o de no escribir correctamente el nombre de la función o del objeto, surgirá el mensaje más molesto para todo usuario de R, el famoso y temido «Error».

A medida que el usuario adquiera experiencia y dominio sobre las funciones de R, podrá escribir instrucciones cada vez más complejas; sin embargo, no hay que desesperarse ya que escribir funciones es un viaje de toda la vida. Como recomendación, antes de empezar a escribir códigos en R, vale la pena trazar un mapa detallado de todos los procedimientos que se desean realizar sobre la base de datos, e ir resolviendo paso a paso cada una de las tareas. De este modo, el usuario podrá notar un avance en sus análisis y evitará caer en la confusión o frustración. Con el paso del tiempo, el usuario notará que sus procedimientos serán cada vez más metódicos y ordenados. El uso de editores de texto como Tinn-R, sirven de apoyo en la escritura de códigos.

 

 Generando objetos

Una de las características principales de R son los objetos, ya que son estas estructuras las que nos sirven para manipular la información, como el almacenamiento de datos, los cuales deben ser creados por el usuario. Existen cinco tipos de estructuras básicas: vectores, tablas o dataframes, matrices, listas y arreglos, cada uno con atributos específicos. Estos objetos pueden ser creados mediante las funciones vector, data.frame, matrix, list y array. Dependiendo del tipo y de la cantidad de datos que se desean manejar, se debe elegir la estructura de datos adecuada.

El tipo de objeto más utilizado es el dataframe, que es una estructura de datos en forma de tabla o cuadro donde las filas representan las observaciones y las columnas las variables. De hecho, la mayoría de las funciones básicas de R que sirven para leer y cargar archivos, como read.table o read.csv, generan un objeto tipo dataframe. También su generación es muy simple, basta con indicar el nombre y el contenido de cada columna, por ejemplo, para guardar información dentro del objeto denominado «grupos», se utiliza: grupos<-data.frame (individuo= c(1:5), grupo= c(“A”,“B”,“B”,“C”,“A”). Note que para guardar información dentro de un objeto se debe utilizar el operador de asignación «<-», especie de flecha que indica en dónde se depositarán los datos de interés.

Independientemente de la manera en que se generen los objetos, todos deben tener un nombre que los identifique, el cual se recomienda que sea corto y alusivo a su contenido para que el usuario pueda identificarlos fácilmente. Otro tip que puede servir para no perderse con el contenido de los objetos es la función ls, ya que ayuda a conocer todos los objetos presentes en una sesión de R.

 

Otras maneras de aprender R

Otra manera de aprender R es mediante la librería «Rcmdr» que, a través de una interfaz gráfica, facilita la ejecución de operaciones en R sin la necesidad de introducir códigos. La ventaja de utilizarla, es que el usuario puede observar los comandos ejecutados por la librería cada vez que se realiza algún procedimiento gráfico o estadístico desde la ventana de interfaz gráfica. Otra opción es mediante la librería «swirl» que, mediante ejercicios y preguntas de opción múltiple, enseña de manera interactiva los conceptos básicos para el análisis de datos. También existen los denominados «bookdowns» que son libros electrónicos muy explicativos que incluyen códigos para practicar R, una lista completa se encuentra disponible aquí.

La lista de posibilidades del lenguaje R para adaptarse a las distintas necesidades del análisis datos complejos es infinita, ya que permite al usuario definir sus propias funciones; sin embargo, es importante ser perseverante con este software porque los errores de código al principio pueden provocar frustración, pero practicando, mejor será el desempeño, confianza y agilidad en el uso del programa. Síguelo utilizando para que sea tu software de confianza.

 

 

 

Para Saber más: 

Mendoza-Vega, J.B. (2021). R para principiantes. https://bookdown.org/jboscomendoza/r-principiantes4/

 

Rodríguez-Silva, J.L.A. (2019). ¿Qué puede hacer el software R para resolver tus problemas? Revista Digital Universitaria, 20(3). https://www.revista.unam.mx/2019v20n3/que-puede-hacer-el-software-r-para-resolver-tus-problemas/

 

The R Project for Computing Statistics. (2021). https://www.r-project.org/

 

Francisco Joel Jahuey-Martínez. Facultad de Zootecnia y Ecología, Universidad Autónoma de Chihuahua. Chihuahua, México.

Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.

 

Jessica B. Herrera-Ojeda. Instituto Tecnológico del Valle de Morelia, Tecnológico Nacional de México, Jefa del Departamento de Ciencias Básicas. México.

Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.