miércoles, 13 de mayo de 2009

Curso de análisis de datos en R - Sesión 5

Técnicas de análisis de datos multivariantes

En esta clase aprenderemos a manejar distintas técnicas multivariantes en R, como análisis de componentes principales (PCA), análisis de ordenación o análisis de la varianza multivariante (solamente los árboles de regresión y clasificación no serían considerados como una técnica multivariante). El listado completo de técnicas está enumerado a continuación:
  1. Análisis de componentes principales
  2. Análisis de la varianza multivariado (MANOVA)
  3. Escalamiento multidimensional no métrico (NMDS)
  4. Análisis de correspondencias canónico (CCA)
  5. Árboles de regresión y clasificación (CART)
La clase se dividirá en grupos. Cada grupo deberá elegir una técnica determinada, leer la documentación sobre lo que esa técnica hace e imaginar situaciones en sus respectivos campos de investigación en las que el uso de esta técnica podría ser de utilidad. Toda esta información está disponible en una wiki. Una wiki es una herramienta que nos permite trabajar de forma colaborativa on-line.

Una vez leída la documentación, cada grupo deberá aplicar dicha técnica a la resolución de un caso de estudio. Para ello, tendrá que escribir el código necesario que permitirá implementar esa función en R con los datos provistos en el ejemplo. Esto llevará aproximadamente la primera mitad de la clase. En la segunda mitad de la clase, cada grupo explicará a sus compañeros los fundamentos básicos de esa técnica y mostrará su implementación en R.

lunes, 11 de mayo de 2009

Curso de análisis de datos en R - Sesión 4

Modelos Lineales Generalizados (GLM)

Los modelos lineales (regresión, ANOVA, ANCOVA) se basan en los siguientes supuestos:
  • los errores se distribuyen normalmente;
  • la varianza es constante; y
  • la variable respuesta se relaciona linealmente con la(s) variable(s) independiente(s).
En muchas ocasiones, sin embargo, nos encontramos con que uno o varios de estos supuestos no se cumplen. Por ejemplo, es muy común en ecología que a medida que aumenta la media de la muestra, aumente también su varianza. Estos problemas se pueden llegar a solucionar mediante la transformación de la variable respuesta (por ejemplo tomando logaritmos). Sin embargo estas transformaciones no siempre consiguen corregir la falta de normalidad, la heterocedasticidad (varianza no constante) o la no linealidad de nuestros datos. Además resulta muchas veces difícil interpretar los resultados obtenidos. Si decimos que la abundancia de pino silvestre es función de la elevación tenemos una idea más o menos clara de lo que esto puede significar. Si la relación es positiva, un aumento de la elevación aumentaría la abundancia de esta especie. Pero ¿qué quiere decir que el logaritmo de la abundancia de pino silvestre es función de la elevación? Esto ya no es tan intuitivo. La cosa se complica aún más cuando utilizamos otro tipo de transformaciones, como las exponenciales, las potencias, etc. Una alternativa a la transformación de la variable respuesta y a la falta de normalidad es el uso de los modelos lineales generalizados.

Los modelos lineales generalizados (GLM de las siglas en inglés de Generalized Linear Models) son una extensión de los modelos lineales que permiten utilizar distribuciones no normales de los errores (binomiales, Poisson, gamma, etc.) y varianzas no constantes.
Ciertos tipos de variables respuesta sufren invariablemente la violación de estos dos supuestos de los modelos normales y los GLM ofrecen una buena alternativa para tratarlos. Específicamente, podemos considerar utilizar GLM cuando la variable respuesta es:
  • un conteo de casos (p.e. abundancia de una planta);
  • un conteo de casos expresados como proporciones (p.e. porcentaje de plántulas muertas en un experimento de vivero);
  • una respuesta binaria (p.e. vivo o muerto, hombre o mujer).

lunes, 4 de mayo de 2009

Curso de análisis de datos en R - Sesión 3

Modelos lineales en R: Regresión, ANOVA y ANCOVA

¿Qué es una regresión? ¿Y un ANOVA? ¿Cuál es la principal diferencia entre ambos? ¿Qué supuestos estadísticos debemos asumir cuando llevemos a cabo este tipo de análisis? Estas y otras preguntas son críticas en la aplicación de modelos lineales a la resolución de problemas estadísticos.

En esta sesión se analizan distintos casos de estudio mediante el uso de modelos lineales y se explica cómo evaluar los supuestos de dichos modelos, cómo solucionar problemas de colinealidad y cómo estandarizar las variables para poder comparar los coeficientes del modelo resultante.

Los pasos a seguir para ajustar un modelo lineal (y prácticamente casi cualquier otro modelo estadístico paramétrico) se resumen en la siguiente figura.


En esta sesión se verán los siguientes contenidos:
  1. Conceptos estadísticos básicos: ANOVA y regresión
  2. Cosas importantes antes de empezar
  3. Cómo ajustar un modelo lineal en R
    1. Un ejemplo de regresión
    2. Un ejemplo de ANOVA
    3. Un ejemplo de ANCOVA
    4. Interacción entre factores o factores y co-variables
  4. Evaluación de los supuestos del modelo: Exploración de los residuos
  5. Problemas de colinealidad: Reducción de variables
  6. Estandarización de coeficientes

viernes, 1 de mayo de 2009

Curso de análisis de datos en R - Sesión 2

Gráficos en R

R ofrece una increíble variedad de gráficos. Para tener una idea, escribe el comando demo(graphics). Cada función gráfica en R tiene un enorme número de opciones permitiendo una gran flexibilidad en la producción de gráficos y el uso de cualquier otro paquete gráfico palidece en comparación. Al contrario que con funciones estadísticas, el resultado de una función gráfica no puede ser asignado a un objeto sino que es enviado a un dispositivo gráfico. Un dispositivo gráfico es una ventana gráfica o un archivo.

Existen dos tipos fundamentales de funciones gráficas: las funciones gráficas de alto nivel que crean una nueva gráfica y las funciones gráficas de bajo nivel que agregan elementos a una gráfica ya existente. Las gráficas se producen con respecto a parámetros gráficos que están definidos por defecto y pueden ser modificados con la función par().

A lo largo de esta sesión el alumno aprenderá a manejar gráficos y dispositivos gráficos en R. También se verá en detalle algunas funciones gráficas y sus parámetros, ejemplos prácticos del uso de estas funciones en la producción de gráficos y la descripción de los distintos paquetes que las contienen. Los contenidos concretos se detallan a continuación:
  1. Conceptos básicos
  2. La organización de R
    1. Tipos de sistemas gráficos
    2. Formato de gráficos
  3. Gráficos tradicionales
    1. El paquete graphics
    2. Funciones de alto nivel: representación de una o dos variables
    3. Funciones de alto nivel: representación de múltiples variables
    4. Funciones de bajo nivel
    5. Cómo personalizar un gráfico
  4. Los paquetes grid y lattice

Buscar entradas