miércoles, 14 de abril de 2010

Seis métodos para incluir la autocorrelación espacial en el análisis de datos espaciales

Los datos espacialmente explícitos (ej. datos que muestran la distribución de las especies) generalmente manifiestan autocorrelación espacial. La autocorrelación espacial ocurre cuando los valores de las variables muestreadas en puntos cercanos no son independientes entre sí o, dicho de otro modo, cuando muestras próximas entre sí exhiben valores más parecidos que con muestras más alejadas. La causa principal de la autocorrelación espacial es la relación existente entre la distancia y determinados procesos biológicos como la especiación, la extinción, la dispersión o las interacciones entre especies. Existen dos causas más que pueden producir dependencia espacial de los residuos del modelo (no autocorrelación espacial en sentido estricto), pero a efectos estadísticos, los efectos de dicha dependencia espacial suponen los mismos problemas que los de la autocorrelación espacial. Estas son: (1) el intento de modelar linealmente relaciones no lineales entre la variable respuesta y las variables ambientales; y (2) la ausencia en el modelo de variables ambientales que están espacialmente estructuradas y, que por tanto, causan una estructura espacial en la variable respuesta (ej. variables climáticas).

La autocorrelación espacial es a la vez una oportunidad para explicar determinados procesos (ej. procesos de contagio, dispersión geográfica, organización social, etc.) y un reto para el análisis de datos espaciales, ya que los residuos de los modelos no son totalmente independientes y esto conlleva un aumento del error de tipo I (esto es, rechazar la hipótesis nula siendo cierta). Por ello se han desarrollado en los últimos años una gran variedad de métodos para corregir los efectos de la autocorrelación espacial. En este artículo se presentan y explican seis métodos concretos: el mapeo espacial de vectores propios (spatial eigenvector mapping, SEVM), generalización de mínimos cuadrados (generalised least squares, GLS), modelos autorregresivos condicionales (conditional autoregressive models, CAR), modelos autorregresivos simultáneos (simultaneous autoregressive models, SAR), modelos lineales generalizados mixtos (generalised linear mixed models, GLMM) y ecuaciones de estimación generalizadas (generalised estimation equations, GEE). También se discute en qué condiciones el uso de uno u otro modelo es más adecuado y se provee el código en R para implementar estas funciones.

Todos estos modelos asumen la existencia de estacionariedad (spatial stationarity) e isotropía (isotropic spatial autocorrelation). La estacionariedad se refiere al hecho de que la autocorrelación espacial es constante en el espacio. Esto no siempre es necesariamente cierto. Por ejemplo, en el caso de la capacidad de dispersión de un organismo, ésta podría cambiar al pasar de la llanura a la montaña, en dónde el movimiento está más restringido. La isotropía se refiere a qué la autocorrelación espacial actúa de la misma forma en todas las direcciones. Algunos factores ambientales que podrían causar anisotropía son el viento (dando a un organismo que se dispersa con el viento una dirección de movimiento preferente), las corrientes de agua (ej. en el movimiento del plancton) o la direccionalidad en el transporte del suelo a favor de pendiente.


5 comentarios:

Guchachi dijo...

a qué te refieres con residuos del modelo? Podrías explicarme, gracias.

Luis Cayuela dijo...

Imagina que estás modelando la riqueza de especies sobre un espacio dividido en cuadrículas de 10x10 km. Es muy posible que tu variable respuesta, riqueza de especies, esté correlacionada espacialmente, esto es, los valores que observas en una cuadrícula van a ser similares a los de las cuadrículas vecinas. Esto puede suponer un problema si intentas modelar la riqueza en función de otras variables explicativas, ya que violas el principio de independencia (una cuadrícula no es "independiente" de sus vecinas).

Sin embargo, deja de ser un problema si tus variables explicativas absorben esta autocorrelación. Los residuos del modelo serían las diferencias entre los valores que predice tu modelo y los valores observados. Si tus residuos no tienen autocorrelación espacial es que ésta ha sido absorbida por las variables explicativas. Pero si los residuos siguen estando autocorrelacionados, entonces puedes tener un problema por violación del principio de independencia.

El caso más típico es si la riqueza de especies está condicionada por variables climáticas. Como los valores que tú observas de precipitación y temperatura en un determinado sitio son muy similares a los de los sitios próximos, si la riqueza de especies está causada por estas variables, va a ser lógico que tú observes autocorrelación espacial en la variable riqueza de especies. No obstante, una vez que ajustas tu modelo de riqueza en función de variables climáticas (modelo lineal, GLM), la autocorrelación espacial que observabas en la respuesta (riqueza) desaparece en los residuos ¿por qué? porque era atribuible al clima, que era el que causaba en última instancia los valores de riqueza.

Espero que te haya servido la explicación y no haberte enredado más que aclarado.

Ignacio dijo...

Hola Luis

Primero felicitarte por tu blog....existe alguna forma de medir la autocorrelacion a distintas escalas? lo preguno porque quisiera saber que influencia tiene la superficie de analisis en los valores de autocorrelación? por otro lado... que influencia tendria el tamaño de las cuadriculas en la medida de autocorrelacion?

Gabriela Henríquez dijo...

Buenas. Cómo puedo calcular la autocorrelación en Maxent ¿Podrás ayudarme? o en el programa R, soy nueva en los dos, no se en qué forma tengo que meter los datos :/

Santiago Barros Q dijo...

Hola Luis.

Es un gusto poder saludarte, me llama mucho la atención tu trabajo en R y te felicito por la gran ayuda que brindas en tu Blog, actualmente estoy trabajando con modelos lineales mixtos específicamente con la función glmer() del paquete lme4, quiero poder controlar la autocorrelación espacial de mis datos sin embargo, se que para un modelo lineal con la función lm() se puede controlar esta autoccorelación con los medelos SAR sin embrago quisiera poder hacer lo mismo que hacen los modelos SAR pero con un modelo lineal mixto específicamente con la función glmer(), no se si talvez me podrías echar una mano con el paquete con el cual podría hacer esto??.

Te comento un poco estoy trabajando con aves específicamente con la especie Vultur gryphus (Cóndor Andino), pertenezco a la Universidad del Azuay, la facultad de ciencia y tecnología , Escuela de Biología, Ecología y Gestión, y me interesa poder determinar las variables ambientales que están afectando en la distribución de esta especie para lo cual es muy importante porder controlar la autocorrelación espacial de los sitios en los cuales se registro a esta especie.

Te agradezco de antemano por la ayuda prestada y espero tu respuesta

Blgo. Santiago Barros Q.

Buscar entradas