Información extra

Introducción a R

Este documento es parte de la documentación oficial de R y ofrece una introducción al entorno y el lenguaje que cubre algunos de los aspectos tratados en este tema (y otros que veremos en temas sucesivos).

Accede al artículo desde la siguiente dirección web:

http://cran.r-project.org/doc/manuals/r-release/R-intro.html

Cómo instalar R

Este vídeo contiene un pequeño tutorial en español para instalar R en un entorno Windows, creado por personal de la Universidad Miguel Hernández de Elche. Aunque nosotros trabajaremos con una versión más reciente que la que se instala en el tutorial, el proceso de instalación no ha experimentado grandes cambios, con lo que el vídeo sigue siendo de utilidad para este curso.

Accede al vídeo desde la siguiente dirección web:

https://www.youtube.com/watch?v=ABrSmBE_QWI

Aprendizaje del Software Estadístico R

Se trata de un curso introductorio a R, elaborado por el profesor Alberto Muñoz, del Departamento de Estadística de la Universidad Carlos III de Madrid. El curso contiene materiales teóricos, actividades, lecturas recomendadas, etc. Todo ello se encuentra públicamente disponible en el repositorio OCW (Open Course Ware) de la UC3M.

Accede al curso desde la siguiente dirección web:

http://ocw.uc3m.es/estadistica/aprendizaje-del-software-estadistico-r-un-entorno-para-simulacion-y-computacion-estadistica

RStudio

RStudio es un entorno de desarrollo integrado para R, que se distribuye en dos versiones: una para escritorio (Rstudio IDE), que podemos instalar en nuestro equipo (y que cuenta con versiones gratuitas y comerciales para los principales sistemas operativos), y otra para servidores (Rstudio Server) que está pensada para ser utilizada a través un navegador.

Accede a la página web desde la siguiente dirección web:

https://www.rstudio.com/

A Brief History of S

Se trata de un artículo en el que Richard A. Becker, uno de los creadores del lenguaje S, describe brevemente los orígenes e historia de dicho lenguaje, ofreciendo información de primera mano en aspectos tales como la motivación que les llevó al desarrollo de este lenguaje y su evolución a lo largo de los años.

Becker, R. A. (s.f.). A Brief History of S. En CiteSeer.
AT&T Bell Laboratories.

Accede a la página web desde la siguiente dirección:

http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=2B5988B453B0F4298323CE7CF04715E0?doi=10.1.1.131.1428&rep=rep1&type=pdf

R Contributed Packages

Desde esta página se puede acceder al listado de los paquetes de extensión disponibles para el entorno R. Existen dos variantes del listado: una ordenada por nombre y otra por fecha de publicación. Para cada paquete el listado muestra su nombre, un enlace a su página web y una frase describiéndolo.

Accede a la página web desde la siguiente dirección:

http://cran.r-project.org/web/packages/

Listas de correo de R

En esta página web se proporcionan los enlaces a las diferentes listas de correo de R, así como una breve descripción de la finalidad de cada una de ellas.

Accede a la página web desde la siguiente dirección:

http://www.r-project.org/mail.html

Crantastic

Dada la gran proliferación de paquetes de R para las más diversas actividades, se hace necesario poder disponer de un mecanismo de búsqueda que nos facilite encontrar paquetes que implementen una funcionalidad deseada. Esta es la motivación que llevó al desarrollo de Crantastic una herramienta web que permite buscar, etiquetar y puntuar paquetes de R. También ofrece un listado de los más populares.

Accede a la página web desde la siguiente dirección:

http://crantastic.org

R-Bloggers

R-Bloggers.com es un agregador de contenido aportado por blogueros que escriben sobre R (en inglés). El sitio ayuda a los blogueros y otros usuarios a seguir la blogosfera de R y enterarse de las últimas novedades sobre ese lenguaje.

Accede a la página web desde la siguiente dirección:

http://www.r-bloggers.com

Intro to R

Este canal consta de 21 vídeos introductorios a R (en inglés), donde se cubren aspectos tratados en este tema, y otros que veremos en temas sucesivos.

Accede al canal desde la siguiente dirección web:

https://www.youtube.com/playlist?list=PLOU2XLYxmsIK9qQfztXeybpHvru-TrqAP

A (Not So) Short Introduction to S4

R es un lenguaje que soporta el paradigma de programación orientado a objetos. En este documento se presenta una introducción bastante completa a S4, uno de los sistemas para implementar orientación a objetos en R.

Accede al documento desde la siguiente dirección web:

http://cran.r-project.org/doc/contrib/Genolini-S4tutorialV0-5en.pdf

The R Book

Se trata de un libro bastante extenso (más de 1000 páginas) que ofrece una introducción bastante completa al lenguaje R así como a sus aplicaciones en distintos escenarios de análisis de datos.

Accede a una parte del libro desde la siguiente dirección web:

http://books.google.es/books?id=ccn0eLakpboC&printsec=frontcover

R Data Analysis tutorial

En el canal, podéis encontrar una serie de vídeos en los que se introducen brevemente algunos de los aspectos cubiertos en este tema (estadística básica, importar datos desde fichero, regresión lineal, etc.).

Accede al canal desde la siguiente dirección web:

https://www.youtube.com/playlist?list=PLAB8D47163F188965

R DataMining.com: R and Data Mining

Web dedicada por completo al uso de R como herramienta de minería de datos, donde podrás encontrar ejemplos y tutoriales sencillos sobre algunos de los aspectos cubiertos en este tema (clustering, clasificación…).

Accede a la página desde la siguiente dirección web:

http://www.rdatamining.com/

Package «e1071»

Documentación del paquete e1071, que hemos utilizado en este tema al abordar el problema de clasificación. En esta documentación podrás encontrar información acerca de las distintas funciones que componen el paquete.

Accede al documento desde la siguiente dirección web:

http://cran.r-project.org/web/packages/e1071/e1071.pdf

An introduction to data mining

Se trata de un libro que podemos consultar directamente en la web y que incluye recursos en los que se presentan, a nivel introductorio, los principales conceptos teóricos relativos a buena parte de los aspectos cubiertos en este tema (por ejemplo, incluye información sobre los tests de Chi-cuadrado y t de Student, la correlación, el algoritmo de k-means, el clasificador bayesiano ingenuo, etc.).

Accede al libro desde la siguiente dirección web:

http://chem-eng.utoronto.ca/~datamining/dmc/data_mining_map.htm

Determining the optimal number of clusters: 3 must known methods

Uno de los problemas del método de agrupamiento K-means que vimos en el tema es determinar la K (que representa el número de grupos) óptima. En el siguiente recurso se describen (en inglés) tres métodos distintos, incluyendo el método del codo. Se proporciona además código R para aplicarlos en la práctica.

Accede a la página desde la siguiente dirección web:

http://www.sthda.com/english/wiki/determining-the-optimal-number-of-clusters-3-must-known-methods-unsupervised-machine-learning

UCI Machine Learning repository

En este sitio web podrás encontrar multitud de bases de datos y ficheros con los que poder experimentar a la hora de trabajar con algoritmos de minería de datos. Entre ellos se encuentra Iris, que utilizamos en este manual.

Accede a la página web desde la siguiente dirección:

https://archive.ics.uci.edu/ml/index.html

Producing Simple Graphs with R

Se trata de un tutorial práctico (en inglés) en el que se presentan los principales tipos de gráficos de R. Para cada tipo se incluye un ejemplo que se va desarrollando paso a paso, ofreciendo tanto el código de R como la imagen del gráfico resultante en cada etapa.

Accede al tutorial desde la siguiente dirección web:

https://www.harding.edu/fmccown/r/

Introduction to R graphics with ggplot2

En este tema nos hemos centrado en el sistema gráfico que R incorpora por defecto, sin embargo, existen también paquetes de extensión específicamente diseñados para facilitar la representación gráfica de datos. En esta referencia podéis encontrar un pequeño tutorial (en inglés) en el que se describe uno de los paquetes gráficos más ampliamente utilizados: ggplot2.

Accede al documento desde la siguiente dirección web:

http://tutorials.iq.harvard.edu/R/Rgraphics/Rgraphics.html

Introduction to the tm package. Text mining in R

Un pequeño tutorial de 8 páginas en las que el autor del paquete tm presenta algunas funcionalidades básicas del mismo. Con respecto a lo presentado en este tema, resulta de interés la sección relativa a gestión de metadatos de corpus y documentos (que no hemos tratado aquí).

Accede al tutorial desde la siguiente dirección web:

http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

The igraph software package

Se trata de un pequeño artículo en el que se ofrece una introducción a la librería igraph, describiendo a nivel general algunas de sus principales funcionalidades y presentando posibles escenarios de uso.

Csardi, G y Nepusz, T. (2006). The igraph software
package for complex network research. Inter Journal, 1695.

Accede al artículo desde la siguiente dirección web:

http://www.necsi.edu/events/iccs6/papers/c1602a3c126ba822d0bc4293371c.pdf

Aplicaciones de la teoría de grafos a la vida real

Se trata de una colección bastante extensa de pequeños tutoriales elaborados por personal de la Universidad Politécnica de Valencia en los que se tratan distintos aspectos de la teoría de grafos y sus aplicaciones a escenarios de la vida cotidiana.

Accede al vídeo desde la siguiente dirección web:

https://www.youtube.com/playlist?list=PL6kQim6ljTJu44dsVeZifHHiuDC1MEZ7q

Stanford Large Network Dataset Collection

Desde esta página se pueden descargar ficheros que contienen ejemplos de grafos obtenidos de diversas fuentes y supone una fuente interesante en la que encontrar datos sobre los que poder llevar a cabo un análisis.

Accede a la página web a través de la siguiente dirección:

http://snap.stanford.edu/dat

R in action

R in Action le brinda una introducción guiada a R, que le brinda una vista de 2,000 pies de la plataforma y sus capacidades. Le presentará las funciones más importantes de la instalación base y más de 90 de los paquetes contribuidos más útiles. A lo largo del libro, el objetivo es la aplicación práctica: cómo puede dar sentido a sus datos y comunicar ese entendimiento a los demás.

Kabacoff, R. (2011). R in action. Nueva York: Editorial Manning.

Accede al libro a través de la siguiente dirección:

http://www.cs.uni.edu/~jacobson/4772/week11/R_in_Action.pdf

Bibliografía complementaria

  • Newman, M. E. J. (2010). Networks: An introduction. Oxford: Oxford University Press.

  • Kabacoff, R. (2011). R in action. Nueva York: Editorial Manning.

  • Dalgaard, P. (2004). Introductory Statistics with R. Copenhague: Springer.

  • Matloff, N. (2011). The Art of R Programming: A Tour of Statistical Software Design.

  • California: No Starch Press.

  • Teetor, P. (2011). R Cookbook. California: O’Reilly.

  • Kolaczyk, E. & Csárdi, G. (2014). Statistical Analysis of Network Data with R. Springer.

  • Wilkinson, L. (2005). The Grammar of Graphics. Springer.

  • Russell, M. A. (2013). Mining the Social Web. California: O’Reilly Media.

  • Weiss, S. M., Indurkhya, N., Zhang, T., Damerau, F. (2005).Text Mining. Springer.