modelos predictivos de riqueza de diversidad vegetal ...

1 downloads 0 Views 3MB Size Report
Al Dr. Antoine Guisan (Universidad de Lausanne) por el interés y la confianza .... conflictos ambientales más graves a los que ha tenido que enfrentarse la ...
UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE CIENCIAS BIOLÓGICAS DEPARTAMENTO DE BIOLOGÍA VEGETAL I

MODELOS PREDICTIVOS DE RIQUEZA DE DIVERSIDAD VEGETAL. COMPARACIÓN Y OPTIMIZACIÓN DE MÉTODOS DE MODELADO ECOLÓGICO. MEMORIA DE TESIS DOCTORAL PRESENTADA POR:

MANUEL RUBÉN GARCÍA MATEO

V. Bº DIRECTOR: Dr. JESÚS MUÑOZ FUENTE V. Bº CODIRECTOR: Dr. ÁNGEL MANUEL FELICÍSIMO PÉREZ

MADRID 2008

UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE CIENCIAS BIOLÓGICAS DEPARTAMENTO DE BIOLOGÍA VEGETAL I

MODELOS PREDICTIVOS DE RIQUEZA DE DIVERSIDAD VEGETAL. COMPARACIÓN Y OPTIMIZACIÓN DE MÉTODOS DE MODELADO ECOLÓGICO

Memoria para optar al grado de DOCTOR en CIENCIAS (Sección Biológicas) que presenta el Licenciado: MANUEL RUBÉN GARCÍA MATEO Este trabajo ha sido dirigido por JESÚS MUÑOZ FUENTE (Real Jardín Botánico, CSIC). ÁNGEL MANUEL FELICÍSIMO PÉREZ (Universidad de Extremadura).

MADRID 2008

Don Jesús Muñoz Fuente, Doctor en Biología y Científico Titular del Real Jardín Botánico (CSIC) y Don Ángel Felicísimo Pérez, Doctor en Biología y Profesor de la Universidad de Extremadura, informan de que:

La memoria titulada Modelos predictivos de riqueza de diversidad vegetal. Comparación y optimización de métodos de modelado ecológico, que presenta Manuel Rubén García Mateo, Licenciado en Biología, para optar al grado de Doctor, ha sido realizada en el Real Jardín Botánico (CSIC) bajo nuestra dirección, reuniendo todas las condiciones exigidas a los trabajos de tesis doctoral.

Madrid, 2 de septiembre de 2008

Fdo. Jesús Muñoz Fuente

Fdo. Ángel Manuel Felicísimo Pérez

A mis padres

“If we knew what it was we were doing, it would not be called research, would it?” Albert Einstein (1879 - 1955)

ÍNDICE

ÍNDICE AGRADECIMIENTOS ...................................................................................... 15 ABREVIATURAS ............................................................................................. 17 APLICACIONES INFORMÁTICAS INTRODUCCIÓN GENERAL

...................................................................... 19

............................................................................. 21

1.1. El problema a investigar ................................................................... 23 1.2. Biogeografía y biodiversidad ............................................................. 25 1.3. El área de estudio ............................................................................ 27 1.4. Sistemas de Información Geográfica (SIG)........................................... 30 1.5. Modelado ecológico .......................................................................... 31 1.5.1. Tipos de datos utilizados en modelado ecológico ........................ 32 Variable dependiente .............................................................. 32 Variables independientes......................................................... 34 1.5.2. Modelos de distribución de especies ......................................... 36 Algoritmos genéticos ............................................................. 45 Distancia métrica de Gower .................................................... 46 Envuelta medioambiental ....................................................... 48 Máxima entropía ................................................................... 48 Regresión logística múltiple .................................................... 50 Árboles de clasificación y regresión .......................................... 51 MARS .................................................................................. 52 MARS-Multirrespuesta ............................................................ 54 1.5.3. Evaluación y comparación de métodos ..................................... 54 Curva ROC ........................................................................... 57 1.6. Objetivos y estructura de la tesis ....................................................... 58

11

Modelos predictivos de riqueza de diversidad vegetal

PRIMERA PARTE: estudiando los efectos del tamaño de muestra en los modelos de distribución de especies (MDE) ........................................... 61 2.1. Resumen ....................................................................................... 63 2.2. Introducción ................................................................................... 64 2.3. Material y métodos .......................................................................... 66 2.3.1. Variables dependientes .......................................................... 66 Datos

con

elevado

número

de

presencias,

ausencias

verdaderas y prevalencia desequilibrada ................................. 66 Datos con pocas presencias, sin datos de ausencias y prevalencia equilibrada.......................................................... 68 2.3.2. Variables independientes ....................................................... 69 2.3.3. Método de modelado ecológico ................................................ 69 2.3.3. Comparación entre MDE ......................................................... 70 2.4. Resultados ..................................................................................... 70 2.5. Discusión ....................................................................................... 74

SEGUNDA PARTE: generando pseudo-ausencias y ausencias de grupo fiables. Comparación de técnicas descriptivas y discriminantes ............ 81 3.1. Resumen ....................................................................................... 83 3.2. Introducción ................................................................................... 84 3.3. Material y métodos .......................................................................... 86 3.3.1. Área de estudio .................................................................... 86 3.3.2. Variable dependiente ............................................................. 87 3.3.3. Variables independientes ....................................................... 88 3.3.4. Métodos de modelado ecológico .............................................. 88 Técnicas discriminantes .......................................................... 88 Técnicas descriptivas .............................................................. 89 Técnicas mixtas .................................................................... 89 3.3.5. Validación de métodos ........................................................... 89

12

ÍNDICE

3.3.6. Diseño experimental .............................................................. 89 3.4. Resultados ..................................................................................... 92 3.4.1. Comparación de los resultados de métodos y técnicas ................ 92 3.4.2. Comparación entre ausencias de grupo y pseudo-ausencias ........ 95 3.4. Discusión ....................................................................................... 95 3.4.1. Comparación de los resultados de métodos y técnicas ......................... 95 3.4.2. Comparación entre ausencias de grupo y pseudo-ausencias .................. 95 3.4.3. Delimitación de áreas tampón al generar pseudo-ausencias al azar ............................................................................................. 98 3.4.4. Comparación de los resultados entre especies ........................... 98 3.4.4. Conclusiones ........................................................................ 99

TERCERA PARTE: modelando patrones de diversidad. Comparación de diferentes métodos, estrategias, aproximaciones y corrientes ............ 101 4.1. Resumen ..................................................................................... 103 4.2. Introducción ................................................................................. 104 4.2.1. Área de estudio .................................................................. 104 4.2.2. Diseño de Espacios Naturales Protegidos (ENP) ...................... 104 4.2.3. La utilización de datos de herbario ......................................... 105 4.2.4. Opciones y métodos de modelado ecológico ............................ 105 4.2.5. Objetivos ........................................................................... 107 4.3. Material y métodos ........................................................................ 107 4.3.1. Área de estudio .................................................................. 107 4.3.2. Variable dependiente ........................................................... 107 4.3.3. Variables independientes ..................................................... 108 4.3.4. Métodos de modelado ecológico a nivel de especie ................... 108 4.3.5. Opciones de modelado ecológico a nivel de comunidad ............. 109 Estrategias ......................................................................... 109 Aproximaciones y corrientes ................................................. 110

13

Modelos predictivos de riqueza de diversidad vegetal

4.3.6. Mapas de riqueza específica (diversidad α) potencial ................ 111 4.3.7. Patrones altitudinales de biodiversidad ................................... 112 4.4. Resultados ................................................................................... 113 4.4.1. Evaluación de la consistencia de los MDE a nivel de especie ...... 113 4.4.2. Correlación a nivel de comunidad .......................................... 116 4.4.3. Patrones altitudinales de biodiversidad ................................... 117 4.5. Discusión ..................................................................................... 121 4.5.1. Evaluación de la consistencia de los MDE a nivel de especie ...... 121 4.5.2. Correlación a nivel de comunidad .......................................... 123 4.5.3. Patrones altitudinales de biodiversidad ................................... 123 4.5.4. Principales conclusiones aplicables al modelado ecológico ......... 127 4.5.5. Principales conclusiones para la conservación en Ecuador ......... 128 4.6. Anexos ........................................................................................ 131 4.6.1. Anexo I: Tabla de resultados de AUC ..................................... 131 4.6.2. Anexo II: Flujo de trabajo .................................................... 139

RESUMEN Y CONCLUSIONES FINALES ...........................................................

157

APÉNDICE ..................................................................................................

165

REFERENCIAS BIBLIOGRÁFICAS

14

.................................................................... 169

AGRADECIMIETOS

AGRADECIMIENTOS Quiero expresar mi más profundo agradecimiento a todos los que han contribuido de alguna manera en la consecución de este trabajo. A la Fundación BBVA, cuyo patrocinio económico ha hecho posible la realización de la presente tesis doctoral. A los doctores Jesús Muñoz y Ángel M. Felicísimo por dirigir este trabajo de investigación y por la confianza que depositaron en mí, a la que espero haber respondido. Me enseñaron bastante sobre los SIG, especialmente en la programación y automatización de procesos. A las personas que me recibieron con los brazos abiertos en el Missouri Botanical Garden (Iván Jiménez, Mary Merello, Olga Marta Montiel, T. Patricia Feria, Trisha Consiglio, Sandra Arango, etc.); y por supuesto en Ecuador: Universidad Central del Ecuador (Iván Morillo, Lorena), CLIRSEN, Herbario Nacional (Carlos Morales, Edison, David Neill, etc.), Fundación Jatun Sacha, etc. Tener la oportunidad de viajar a estos lugares ha sido toda una experiencia personal por la que me considero afortunado, sobre todo por conocer a estas personas, que incluso pusieron a nuestra disposición sus hogares. Al Dr. Antoine Guisan (Universidad de Lausanne) por el interés y la confianza mostrados hacia mí. Al Dr. Miguel B. Araújo (Museo Nacional de Ciencias Naturales, CSIC) por atenderme tan amablemente y por el interés mostrado por mi trabajo. A la Dra. Jane Elith (Universidad de Melbourne) que tan amablemente nos cedió las sintaxis para poder ejecutar MARS-Multiresponse. A los Drs. Federico Fernández y José Manuel Moreno (Universidad de Castilla-La Mancha) por la confianza depositada en mí. A la Dra. T. Patricia Feria (Universidad Panamericana de Texas) por su apoyo y participación en diferentes colaboraciones. A los Drs. Barbara Mackinder (Kew Royal Botanical Garden) y Jan Wieringa (Universidad de Wageningen) por el interés mostrado por mi trabajo y la participación en diversas colaboraciones. Al Dr. Mario Sanz Elorza por las colaboraciones en las que permitió participar. Al Dr. Santiago Pajarón (Universidad Complutense de Madrid) por el apoyo mostrado en todo momento. Me gustaría hacer una mención especial a tanta gente sin cuyas contribuciones esta tesis no hubiera sido posible. Especialmente a los recolectores de todas las colecciones empleadas en el presente estudio, pero también a los especialistas y taxónomos que las identificaron y clasificaron. Sin el arduo y laborioso trabajo de

15

Modelos predictivos de riqueza de diversidad vegetal

ambos (colectores y taxónomos) la realización de esta tesis no hubiera sido posible. A todos los desarrolladores de las técnicas y el software empleado, por el gran trabajo que llevan a cabo. Especialmente a mis padres y a mi hermana, por el apoyo que he tenido en ellos. A mis compañeros del Real Jardín Botánico por su inestimable ayuda. A todos ellos les agradezco su apoyo, simpatía y compañerismo, especialmente a Manuel de la Estrella. Y aquellos que soportaron escucharme y supieron aconsejarme en los momentos más difíciles: Alberto, Alejandro, Alicia, Andrea, Beatriz Álvarez, Beatriz Guzmán, Elena, Emilio, Gema, Inés, Juan, Katia, Manuel Macía, María Romeralo, Rafa, Tania y, cómo no, María. A mis nuevos compañeros de la Universidad de Castilla-La Mancha, que me han recibido con una gran simpatía y compañerismo: Ángel, Antonio, Amparo, Blanca, Carlos, Celia, Dani, David, Gonzalo, Iván, María, etc. Especialmente a César e Itziar que revisaron detenidamente este trabajo. A todas las personas que he tenido la oportunidad de conocer en congresos, cursos, conferencias, etc., que convirtieron en algo mucho más ameno y divertido estas actividades. Me hicieron pasar muy buenos momentos que guardaré con un buen recuerdo. A todos mis amigos, cuya lista afortunadamente sería interminable (biólogos y no

biólogos,

sevillanos,

ecuatorianos,

madrileños,

garciotuneros,

bayoleros,

toledanos, serranos, talaveranos, compañeros de viajes en el AVE, etc.). Muy especialmente a aquéllos que supieron soportarme en los malos momentos y darme su apoyo: Beatriz, Carol, Cristina, David, Elena, Fabio, Fernando, Gema, Héctor, Manuel, María, Mario, Meme, Nacho, Raquel, Salud, Susana, Sandra, Tere, etcétera. A todos los compositores y músicos, que sin saberlo, me hicieron más amenas las interminables horas de trabajo. Casi cinco años de trabajo suponen una extensa lista de gracias, espero que los que no estén reflejados aquí sepan perdonar mi olvido.

16

ABREVIATURAS

ABREVIATURAS A continuación presentamos un listado de las abreviaturas empleadas en esta tesis, su definición y explicación aparecen en el texto. ABREVIATURAS

SIGNIFICADO

AG

ausencia de grupo

AML

arc macro language

AUC

area under the ROC curve

CART

classification and regression trees

CHN

colecciones de historia natural

DMG

distancia métrica de gower

ENP

espacio natural protegido

GAM

generalised additive models

GARP

genetic algorithm for rule set production

GIS

geographical information systems

GLM

generalised linear models

IPCC

Intergovernmental Panel on Climate Change

MARS

multivariate adaptive regression splines

MAXENT

maximum entropy

MDE

modelo de distribución de especies

NDVI

normalized difference vegetation index

P/A ó PA

mapas de presencia/ausencia

PS-A

pseudo-ausencia

RLM

regresión logística múltiple

ROC

receiver operating characteristic

SIG

sistemas de información geográfica

TDES

técnicas descriptivas

TDIS

técnicas discriminantes

WGS84

world geodetic system 1984

17

APLICACIONES INFORMÁTICAS

APLICACIONES INFORMÁTICAS A continuación presentamos un listado de las diferentes aplicaciones informáticas y su versión empleadas en el desarrollo de modelos de distribución de especies.

SOFTWARE

VERSIÓN

INFORMACIÓN

ArcCatalog

9.1

SIG con licencia educativa (http://www.esri.com/)

ArcInfo

9.1

SIG con licencia educativa (http://www.esri.com/)

ArcMap

9.1

SIG con licencia educativa (http://www.esri.com/)

ArcView

3.2

SIG con licencia educativa (http://www.esri.com/)

CART

5.0

Classification and regression trees (http://www.salford-systems.com/)

Desktop Garp

1.1.6

Modelizador libre (http://www.nhm.ku.edu/desktopgarp/)

Diva-GIS

5.2

SIG libre (http://www.esri.com/)

MARS

2.0

multivariate adaptive regression splines (http://www.salford-systems.com/)

MAXENT

2.1

R

2.4.1

Entorno de programación libre (http://www.r-project.org/) Programa de estadística de libre difusión

Simtest

SPSS

Modelizardor libre (http://homepages.inf.ed.ac.uk/s0450736/maxent.html)

(http://www.wsl.ch/staff/niklaus.zimmermann/programs/progs/simtest.f90)

13.0

Programa de análisis estadístico (http://www.spss.com/es/)

19

INTRODUCCIÓN GENERAL

INTRODUCCIÓN

1. Introducción general Esta tesis trata sobre el empleo de los modelos de distribución de especies (MDE) en la investigación de patrones de diversidad vegetal y su aplicación en el diseño de zonas protegidas para la conservación del medio natural. Para abordar este trabajo hemos querido basarnos en la enorme cantidad de datos almacenados en los herbarios y sus bases de datos asociadas. También se busca una optimización de los distintos métodos y opciones de modelado ecológico con el objetivo de conseguir resultados fiables y aplicables a problemas concretos. Esta introducción no pretende ser una revisión exhaustiva, sino que su objetivo es presentar la información necesaria para comprender el desarrollo de esta Tesis Doctoral. Nos hemos basado en los estudios de revisión más importantes publicados hasta la fecha (Guisan & Zimmermann, 2000; Lobo, 2000; Elith, 2002; Guisan & Thuiller, 2005; Araújo & Guisan, 2006) y que pueden ser consultados para ampliar la información. También se presentan los datos y la metodología empleados.

1.1. El problema a investigar El hombre ha ejercido una presión y perturbación sobre el medio desde tiempos remotos. En la actualidad las actividades humanas están provocado uno de los conflictos ambientales más graves a los que ha tenido que enfrentarse la humanidad (Hoekstra et al., 2005; Loreau et al., 2006). La extinción de especies es un proceso natural. Sin embargo, en las últimas décadas hemos elevado la velocidad de desaparición de especies de una forma exponencial. En toda la historia planetaria tan sólo se han producido cinco procesos de pérdida de biodiversidad tan rápidos como el actual, el último de los cuales fue la desaparición de los dinosaurios (Chapin et al., 2000), por lo que este proceso actual de perdida de especies ha sido denominado la ‘sexta extinción’ (Leakey & Lewin, 1996). Este proceso puede significar la desaparición de la mitad de especies que existen en la Tierra a finales de este siglo (Pimm et al., 1995; Jenkins, 2003). Se trata de un problema de máxima importancia al que tenemos que enfrentarnos y buscar soluciones. El procedimiento más adecuado parece ser la creación de espacios protegidos donde se asegure la persistencia de esta biodiversidad. Aunque por sí solas estas reservas no son adecuadas para la conservación de la naturaleza, sí que deben ser el eje principal sobre el que giren las estrategias de conservación regionales (Margules & Pressey, 2000). Estas reservas deben representar la biodiversidad a nivel regional y asegurar su permanencia (Margules & Pressey, 2000). Sin embargo, como veremos posteriormente, el

23

Modelos predictivos de riqueza de diversidad vegetal

concepto de biodiversidad es muy complejo, y la comunidad científica sólo posee una vaga idea sobre los patrones de diversidad biológica y los factores que influyen en su conservación (Lobo, 2000; Sarkar & Margules, 2002). Parece ineludible que una buena red de espacios naturales protegidos debe estar basada en el conocimiento de los patrones espaciales de diversidad biológica, y para solventar esta falta de conocimiento se emplean varias aproximaciones o abstracciones de la realidad: cartografías de tipos de vegetación, sustratos geológicos, datos climáticos, imágenes de satélite, criterio de expertos, etc. (Ferrier, 2002; Sarkar & Margules, 2002). En los últimos años, con el desarrollo de potentes técnicas estadísticas y los sistemas de información geográfica (SIG), ha progresado rápidamente una nueva herramienta: los modelos de distribución de especies (MDE) (Guisan & Zimmermann, 2000). Como veremos de forma más detallada posteriormente, son modelos no subjetivos que predicen lo adecuada que es un área para el desarrollo de una determinada especie en relación con las condiciones ambientales (p. ej. clima, suelo, topografía, etc.). Estos modelos se han convertido en una herramienta muy potente y cada vez están más presentes en la bibliografía científica, siendo una de sus principales aplicaciones los trabajos relacionados con los patrones de biodiversidad y la biología de la conservación. Los MDE son una herramienta en pleno desarrollo y expansión; continuamente surgen nuevos métodos, estrategias, aproximaciones, corrientes, etc., tanto a nivel específico (Elith et al., 2006), como a nivel de comunidad (Wilson et al., 2005; Ferrier & Guisan, 2006). Todas estas opciones necesitan una evaluación objetiva que compruebe si sus resultados son lo suficientemente fiables para su aplicación en el mundo real. Uno de los objetivos de esta tesis es comparar y optimizar una gran variedad de opciones a la hora de realizar MDE fiables y aplicarlos a la investigación de los patrones de biodiversidad y biología de la conservación. Sin duda, el otro gran problema que afecta a la conservación de la biodiversidad, en la actualidad, es el efecto del cambio climático. Este proceso supone una variación del clima global, que puede deberse a procesos intrínsecos (por ejemplo grandes erupciones volcánicas), externos (por ejemplo variaciones en la radiación solar), y más recientemente la actividad humana. En la actualidad, la comunidad científica no duda de la existencia de un cambio en los patrones climáticos del planeta, debido en gran parte a la actividad humana. En las conclusiones presentadas por el Panel Intergubernamental sobre el Cambio Climático (IPCC, ‘Intergovernmental Panel on Climate Change’) en su cuarto informe (noviembre, 2007), se ofrecen datos clarificadores sobre las emisiones globales de gases de efecto invernadero y su relación con el calentamiento global del planeta. Desde

24

INTRODUCCIÓN

épocas pre-industriales hasta la actualidad se ha registrado un aumento superior al 70% en la emisión de estos gases (1970-2000), lo que muy probablemente ha provocado el aumento global de temperatura observado en los últimos años: en once de los últimos doce años se han registrado los valores más elevados de temperaturas medias de los que se tiene constancia desde 1850. Uno de los efectos más inmediatos de este cambio son los desajustes en los sistemas biológicos (Walther et al., 2002): desincronización entre los ciclos de especies relacionadas; cambios en las rutas y épocas en las migraciones; cambios drásticos en las condiciones ambientales, tan rápidos que no permiten la adaptación de las especies a esta nueva situación, o la migración a zonas que presenten condiciones más favorables para su desarrollo, etc. Todos estos procesos pueden llegar a suponer una enorme pérdida en la biodiversidad global (Parmesan & Yohe, 2003; Thomas et al., 2004; Araújo & Rahbek, 2006). Es necesario una gestión de este cambio, evaluar sus efectos en la biodiversidad y un plan para estabilizar las emisiones de carbono que están influyendo en este proceso (Pacala & Socolow, 2004). Esta tesis está integrada dentro de un amplio proyecto de investigación titulado: Evolución de las zonas de alta biodiversidad y endemicidad en Ecuador bajo un escenario de cambio global. Este proyecto considera los efectos del calentamiento global sobre los patrones de biodiversidad. El objetivo principal de este proyecto es la comparación de zonas de máxima diversidad en la actualidad y en un escenario de cambio climático en el año 2080, de la cual surgirán diferentes tipos de actuación y protección de la biodiversidad. Con este objetivo los mapas de diversidad potencial obtenidos en este trabajo para la actualidad serán comparados con modelos futuros (escenario de cambio climático) y de esta forma definir las zonas de cambio y estabilidad en cuanto a la biodiversidad, datos que serán muy útiles para generar una nueva propuesta de Espacios Naturales Protegidos en Ecuador. Los modelos obtenidos en este trabajo, derivados de variables bioclimáticas, también serán comparados con modelos obtenidos mediante la combinación de dos tipos variables independientes: bioclimáticas e imágenes de satélite, en particular el Índice de Vegetación Normalizado (NDVI).

1.2. Biogeografía y biodiversidad Dos conceptos importantes a lo hora de desarrollar este trabajo, en los que queremos hacer especial hincapié, son el de biogeografía y el de biodiversidad.

25

Modelos predictivos de riqueza de diversidad vegetal

La biogeografía es la ciencia que describe la distribución de los organismos en el espacio y el tiempo y estudia los factores de los que depende. Uno de los objetivos de esta disciplina es el estudio de las áreas potenciales para el desarrollo de especies, dentro del cual se encuadra esta tesis. Esta dimensión de la biogeografía tiene un interés intrínseco, pero además tiene un interés aplicado en la gestión de espacios naturales y la conservación de la biodiversidad, entre otros muchos, como veremos posteriormente. La biogeografía es una herramienta indispensable a la hora explicar la distribución espacial de la biodiversidad. Esta disciplina aborda el estudio de cómo las especies han respondido a los diferentes cambios en las condiciones ambientales a lo largo de la historia geológica del planeta (estado de no-equilibrio). Una de estas respuestas es la adaptación espacial (Lobo, 2000), que consiste en el desplazamiento hacia lugares donde las condiciones ambientales son más favorables. Esta respuesta es más frecuente en especies que presentan una tasa de evolución poco flexible. Como veremos posteriormente, este concepto nos será útil a lo hora de interpretar los modelos de distribución de especies. Debemos considerar estos modelos como una primera aproximación, una instantánea de la vida evolutiva de una especie. Cuando hablamos de biodiversidad no podemos referirnos exclusivamente al número de especies que habitan un área determinada (riqueza de especies). Se trata de un concepto más amplio que engloba otras características como la abundancia relativa de cada una de ellas. Las especies en general se distribuyen según jerarquías de abundancia, desde muy abundantes hasta raras. Cuanto mayor es el grado de dominancia de unas y rareza de otras, menor es la biodiversidad de la comunidad. La biodiversidad también depende del grado de relaciones que se establecen entre todas las especies y de éstas con el biotopo. La biodiversidad se muestra como heterogeneidad a otros niveles: genético (variabilidad genética de cada una de las especies), geográfico (variabilidad de ecosistemas que existen en un determinado área) y dentro de cada ecosistema (variabilidad espacial y temporal de la riqueza). El término biodiversidad surgió en 1985 como una contracción de “biological diversity”, e inmediatamente adquirió relevancia: al año siguiente se empleó en un simposio, y en 1988 se publicó un libro titulado BioDiversity (Wilson, 1988), que le dio popularidad. Desde entonces se han dado multitud de definiciones para este concepto. La definición aportada por Solbrig (1991) nos parece la más apropiada en el contexto de este trabajo: “propiedad de las distintas entidades vivas de ser variadas”. Cada nivel de organización biológico (gen, célula, individuo, comunidad o ecosistema) tiene más de una manifestación, siendo la diversidad una característica

26

INTRODUCCIÓN

fundamental de todos los sistemas biológicos, que también incluye la diversidad de las interacciones y procesos vivos que acontecen en cada uno de estos niveles (Sarkar & Margules, 2002). Por lo tanto, podemos decir que hay varios niveles de diversidad (Ricklefs & Schluter, 1994). En un primer nivel encontramos la diversidad alfa, o riqueza específica, que es una función de la cantidad de especies presentes en un hábitat determinado. La diversidad beta, o diversidad diferencial, indica la variación en diversidad en una serie de hábitats, y se estudia normalmente como la variación encontrada a lo largo de un gradiente. Finalmente, la diversidad gamma, o diversidad regional, cuantifica la heterogeneidad de una región dada. Existe también un componente genético, o intraespecífico, reflejado mediante la cantidad de alelos diferentes que posee una especie (variabilidad genotípica) y los caracteres que codifiquen en el organismo (variabilidad fenotípica). La diversidad genética es un componente muy importante de la diversidad; sin variación genética la evolución a través de la selección natural no sería posible. Como vemos la biodiversidad es un concepto muy amplio, imposible de abarcar en todos sus variantes. En este trabajo nos centramos en dos niveles: especie y comunidad (diversidad alfa) (Pereira & Cooper, 2006). Un concepto importante en la conservación de la biodiversidad son los denominados puntos calientes de biodiversidad (‘biodiversity hot spots’), concepto acuñado por Myers (1988). Se trata de aquellos lugares en los que existe una gran cantidad de especies endémicas y un elevado grado de amenaza para su conservación. En su conjunto representan una superficie inferior al cinco por ciento de la superficie terrestre y sin embargo albergan el 50% aproximadamente de las especies conocidas (Myers et al., 2000). Por tanto, deben representar una prioridad en las políticas de conservación a nivel global. Dentro de uno de estos puntos calientes para la biodiversidad se encuentra Ecuador. Este trabajo se presenta como una aportación a los planes estratégicos que se están llevando a cabo a una escala regional y que en el futuro pueden suponer el establecimiento de una red efectiva de reservas para la conservación de la biodiversidad (Margules & Pressey, 2000).

1.3. El área de estudio El área de estudio es la República de Ecuador, país situado en América del Sur, entre las longitudes 75º 20’ W y 81º W y las latitudes 1º 30’ N y 5º S, con una extensión aproximada de 283.000 km2. Administrativamente se divide en 22

27

Modelos predictivos de riqueza de diversidad vegetal

provincias (Fig. 1.1). Geográfica, ecológica y climatológicamente podemos dividir Ecuador en cuatro áreas naturales: -

La región de la Costa es la zona más occidental del país. En general son zonas poco elevadas a excepción de Cordillera Costera, cuyos picos varían entre los 400-600 m de altitud. Esta área se ve sometida al efecto de “El Niño”, que produce alternancias entre épocas secas y frías, y otras húmedas y cálidas.

-

La zona andina, en el tercio central del país, incluye las dos cordilleras paralelas que recorren el país de Norte a Sur. Hay varios volcanes que superan los 5000 m, el más alto de los cuales es el Chimborazo (6310 m).

-

La región amazónica es una penillanura con una orografía complicada de numerosos cerros. En esta zona la lluvia es constante durante prácticamente todo el año.

-

Las islas Galápagos, que no han sido incluidas en este estudio, conforman un archipiélago de origen volcánico situado en el océano Pacífico, 1.000 kilómetros al Oeste del continente formado por 13 islas principales, 17 islotes y decenas de rocas.

Figura 1.1. Mapa político del Ecuador continental.

La selección de este país como zona de estudio se basó en los siguientes criterios: -

En uno de los países con más diversidad de todo el planeta, uno de los puntos calientes (“hot spots”) de la biodiversidad mundial, en donde de acuerdo con algunos autores se deben priorizar los objetivos para la conservación para obtener una mayor rentabilidad de los fondos invertidos (Myers et al., 2000). En este país habitan más de 2.400 especies de

28

INTRODUCCIÓN

vertebrados y más de 16.000 de plantas vasculares (Jørgensen & LeónYánez, 1999; Kareiva & Marvier, 2003), algunos autores estiman que pueden existir más de 20.000 especies de plantas vasculares (Balslev & Renner, 1989), de las que más de 4.000 son endémicas del país (Valencia et al., 2000). Se trata del país con mayor diversidad florística de todo el mundo en relación a su tamaño (Jørgensen et al., 1992). -

La elevada biodiversidad que posee este país se ve seriamente amenazada por un gran número de factores (Dodson & Gentry, 1991; Best & Kessler, 1995; Mecham, 2001; Ulloa Ulloa & Jørgensen, 2004). Como, por ejemplo, deforestación, incendios provocados, explotación petrolera de la Amazonía, presión de la población rural, plantación de palma africana, instalación de camaroneras en el golfo de Guayaquil, etc.

-

Es uno de los países tropicales de los que mejor se conoce su diversidad vegetal. La cantidad de colecciones por unidad de superficie es muy elevada si lo comparamos con otros países tropicales (Loiselle et al., 2008). Esta enorme cantidad de información se debe, en gran parte, al esfuerzo realizado por el Missouri Botanical Garden (St. Louis, EEUU) en este país, representado en su base de datos TROPICOS (con 228.997 colecciones y 8.096 localidades, lo que representa 0,89 colecciones/km2) (Loiselle et al., 2008).

-

La gran variedad medioambiental y orográfica convierten a este país en un lugar ideal para el desarrollo de modelos de distribución de especies (Skov & Borchsenius, 1997).

-

Se trata de un país situado en áreas tropicales, donde se han llevado a cabo pocos trabajos de esta índole, la mayor parte de las aplicaciones relacionadas con los MDE se han llevado a cabo en zonas templadas. Además, en los trópicos se pueden registrar las mayores tasas de pérdida de biodiversidad a causa del cambio climático (Deutsch et al., 2008) y por lo tanto deben ser el principal objeto de estudio. Además, en áreas tropicales es muy complicado conseguir datos sobre la distribución de especies, y por lo tanto la modelización es realmente necesaria y prioritaria.

Hasta la fecha, en este país se han llevado a cabo varios trabajos enfocados hacia el modelado ecológico (Skov & Borchsenius, 1997; Anderson & Martinez-Meyer, 2004; Vargas et al., 2004; Peralvo et al., 2005; Cuesta-Camacho et al., 2006a; Cuesta-Camacho et al., 2006b; Cuesta-Camacho et al., 2006c; Montenegro Armijos, 2006; Loiselle et al., 2008) pero en ninguno de ellos se trabaja con un número tan

29

Modelos predictivos de riqueza de diversidad vegetal

elevado de especies como en este estudio (397 especies y 17.064 colecciones de herbario).

1.4. Sistemas de Información Geográfica (SIG) Para un tipo de trabajo como el presente son indispensables los SIG (Sistemas de Información Geográfica) o GIS (Geographical Information Systems) en su acrónimo en ingles. Permiten almacenar, ver, manipular y analizar una gran cantidad de datos georreferenciados de una forma eficaz y rápida. En

la

enciclopedia

libre

(http://es.wikipedia.org/wiki/Sig)

encontramos

la

siguiente definición para los SIG: “una integración organizada de hardware, software, datos geográficos y personal, diseñado para capturar, almacenar, manipular, analizar y desplegar en todas sus formas la información geográficamente referenciada con el fin de resolver problemas complejos de planificación y gestión. También puede definirse como un modelo de una parte de la realidad referido a un sistema de coordenadas terrestre y construido para satisfacer unas necesidades concretas de información.” Los SIG presentan dos formatos diferentes a la hora de representar la información: vectorial o ráster. El formato ráster presenta la información en forma de celdas regulares, cada una de las cuales contiene un valor determinado reflejo de la realidad. Se centra en las propiedades del espacio más que en la precisión de la localización. El formato vectorial representa digitalmente una entidad determinada mediante tres tipos diferentes de características: puntos, líneas o polígonos. En este segundo tipo el interés se centra en la precisión de localización de los elementos. En este trabajo se han empleado ambos formatos: el vectorial para las variables dependientes (se trata de los puntos de presencia de la especie, basados en las coordenadas geográficas) y el ráster para las variables independientes (se trata de variables continuas de las que existen valores para todo el área de estudio). Todos los datos empleados en este trabajo han sido proyectados en WGS84 (World Geodetic System 1984). Se trata de un sistema de coordenadas mundiales, que data de 1984, en la que por ejemplo se basan los sistemas de posicionamiento globales como el GPS. Un concepto esencial, que no debemos olvidar cuando trabajemos con un SIG y datos georreferenciados, son los metadatos. Se trata de una información anexa a los datos principales, como por ejemplo su extensión, autores, metodología, proyección, datum, etc. Esta información siempre debe estar presente a la hora de

30

INTRODUCCIÓN

generar cualquier información georreferenciada. En este trabajo hemos generado sus correspondientes metadatos para cada uno de los modelos utilizados.

1.5. Modelado ecológico (“Ecological modelling”) Podemos definir el modelado como la generalización, mediante simulación o formulación matemática, de una realidad que sólo conocemos parcialmente. En los últimos años las técnicas de modelado cada vez se aplican más en campos diversos de la biología –ecología, evolución, biogeografía, biología de la conservación, etc.–, en lo que se conoce como modelado ecológico (“ecological modelling”). Como veremos posteriormente, consiste en buscar una relación estadística o matemática entre los datos disponibles sobre la distribución de una especie y diferentes variables que describen las condiciones ambientales, extrapolando esta relación al resto del área de estudio. Por lo tanto, para poder llevar a cabo estos modelos necesitamos datos georreferenciados de la distribución de la especie que queremos modelizar, variables ambientales que cubran todo el área de estudio y uno o varios métodos que establezcan una relación entre ambos. A continuación examinaremos las distintas posibilidades

que existen para cada uno de ellos y explicaremos

detalladamente las seleccionadas para este trabajo. La importancia del clima para explicar la distribución de animales y plantas se conoce desde hace mucho tiempo (von Humboldt & Bonpland, 1807), la combinación del clima y otros factores se emplea para explicar la distribución de la vegetación en todo el planeta (Salisbury, 1926; Cain, 1944; Good, 1953; Holdridge, 1967; McArthur, 1972; Box, 1981; Walter, 1985; Woodward, 1987; Akin, 1991). El análisis de estas relaciones es uno los objetivos centrales en ecología y su cuantificación es el punto central de los modelos de distribución de especies (Guisan & Zimmermann, 2000). Antes de continuar, debemos saber que se trata de una herramienta compleja, que requiere integrar nociones de campos muy diversos: biología (biogeografía, ecología, botánica, zoología, etc.), estadística (inferencia, métodos, validación de métodos, etc.), cartografía (georreferenciación, proyecciones geográficas, sistemas de coordenadas, etc.), bases de datos, informática (manejo de una gran variedad de programas, programación, etc.), teledetección, climatología, sistemas de información geográfica, etc. Muchas de estas materias o herramientas no están incluidas en los planes de estudios de muchas universidades (Soberon & Peterson, 2004), a pesar del gran número de aplicaciones en el que pueden verse involucradas, lo que dificulta aún más su aprendizaje y puesta en marcha.

31

Modelos predictivos de riqueza de diversidad vegetal

1.5.1. Tipos de datos utilizados en modelado ecológico Variable dependiente (variable respuesta) La variable dependiente en este tipo de análisis son los datos referentes a la distribución de especies. Puede incluir sólo datos de presencias (Zaniewski et al., 2002; Ottaviani et al., 2004; Olivier & Wotherspoon, 2006; Tsoar et al., 2007), de presencias y ausencias (Manel et al., 2001; Elith et al., 2006; Graham et al., 2008) o datos de abundancia (Guisan et al., 1998; Guisan & Harrell, 2000; Leathwick, 2001; Pearce & Ferrier, 2001; Cawsey et al., 2002). La procedencia de los datos es variada. Lo más común es que provengan de colecciones de historia natural derivadas de muestreos no dirigidos (Soberon et al., 1996; Graham et al., 2004a), aunque también los hay derivados de muestreos aleatorios o estratificados (Guisan et al., 1998; Cawsey et al., 2002), así como de observaciones oportunistas como la monitorización de animales (Brotons et al., 2007). La mayor parte de la información está disponible en las colecciones de historia natural (CHN). Por el contrario en muy pocas ocasiones existen datos tomados en el campo con un diseño experimental encaminado a la elaboración y validación de MDE (Feria et al., En revisión). Los datos procedentes de colecciones de historia natural presentan una serie de inconvenientes (Margules & Pressey, 2000; Soberon & Peterson, 2004; Rowe, 2005; Edwards et al., 2006; Papeş & Gaubert, 2007b) (véase Tercera Parte), aunque debe señalarse que algunos de estos problemas no son específicos de este tipo de datos: 1) sólo registran datos sobre la presencia de las especies y no sobre su ausencia; 2) están colectados con diferentes fines y por diferentes recolectores y no presentan una estrategia de muestreo; 3) como consecuencia del punto anterior, pueden reflejar una distribución medioambiental sesgada de la especie; y 4) pueden presentar errores en la georreferenciación e identificación de las colecciones. Algunos autores sugieren remuestrear los datos para superar estos inconvenientes (Araújo & Guisan, 2006), pero en la mayoría de las ocasiones dispondremos de un número muy pequeño de datos y remuestrear los datos resulta inviable. Un punto importante, por el que los MDE realizados con datos procedentes de herbarios han recibido un gran número de críticas, es que estas colecciones no representan un muestreo aleatorio del área de estudio, y están altamente correlacionados con carreteras, ríos, localidades, puntos interesantes desde el punto de vista botánico, etc. (Reddy & Dávalos, 2003; Soberon & Peterson, 2004; Hopkins, 2007; Papeş & Gaubert, 2007b; Schulman et al., 2007). Podría suceder que estas carreteras supusiesen un muestreo aleatorio, ya que su trazado recorre las diferentes regiones climáticas del área de estudio y por lo tanto no afectaría a la

32

INTRODUCCIÓN

fiabilidad de los modelos, o bien que sucediera todo lo contrario, es decir, que los datos almacenados en las colecciones de historia natural muestren un sesgo climático. Dos trabajos, realizados en Israel (Kadmon et al., 2004) y Ecuador (Loiselle et al., 2008), analizaron en detalle este hecho. En ambos se llegó a la misma conclusión, que los resultados finales de los MDE generados a partir de colecciones de historia natural pueden ser absolutamente fiables a pesar de no haber sido obtenidos mediante muestreos aleatorios, y que el factor realmente limitante es el número mínimo de presencias con el que se generen los modelos (véase Primera Parte). Una

correcta

georreferenciación

(latitud/longitud)

de

los

datos

es

muy

importante a la hora de realizar trabajos de modelado ecológico, ya que estas localizaciones se emplearán para muestrear las variables independientes y por tanto definirán las características ambientales en las que vive el organismo cuya distribución se pretende modelizar. Curiosamente, hay algunos métodos (por ejemplo MAXENT), que parecen ser particularmente robustos a un error moderado en la georreferenciación de las localidades (Graham et al., 2008). En nuestro trabajo los datos proceden de la base de datos TROPICOS (Missouri Botanical Garden, Saint Louis, EEUU). Es una base de datos en la que figuran las colecciones georreferenciadas de diferentes herbarios. Trabajar con la totalidad de datos

almacenados

en

TROPICOS

para

Ecuador

sería

inviable

por

lo

que

seleccionamos varias familias como grupos indicadores (Flather et al., 1997; Howard et al., 1998) de la biodiversidad vegetal de este país. Los criterios para seleccionar estas familias fueron los siguientes: 1) estar revisadas recientemente por su especialista, lo que garantiza las identificaciones y lo apropiado del tratamiento taxonómico utilizado; 2) las especies incluidas son nativas de Ecuador; 3) consideradas

en

su

conjunto

incluyen

representantes

de

todas

las

zonas

biogeográficas del país, así como de sus condiciones medioambientales (Fig. 1.2); 4) en su mayoría estaban georreferenciadas; y 5) en su conjunto, incluyen una amplia diversidad de formas de vida (biotipos). Teniendo en cuenta estos parámetros, las seis familias elegidas fueron Araceae (sólo el género Anthurium), Bignoniaceae, Bromeliaceae,

Gesneriaceae,

Lauraceae,

y

Papilonaceae.

En

total

se

seleccionaron 397 especies (Tabla 1.1) para las que había un mínimo de 15 presencias (véase Primera Parte). Lo que supuso manejar la información relacionada con 17.064 colecciones.

33

Modelos predictivos de riqueza de diversidad vegetal

Figura 1.2. Distribución en Ecuador de las colecciones de las diferentes especies y familias empleadas en este trabajo.

TAXON

ESPECIES

COLECCIONES

Anthurium

53

2513

Gesneriaceae

11

415

Lauraceae

89

3030

Bromeliaceae

93

4977

Bignoniaceae

28

1122

Leguminosae

123

5007

Total

397

17064

Tabla 1.2. Número de especies y colecciones para cada uno de los taxones analizados en este trabajo.

Variables independientes (indicadores medioambientales) Los factores medioambientales tienen un efecto sobre la distribución de la especie, ya sea de una forma directa o indirecta (Guisan & Zimmermann, 2000). Estas relaciones entre organismos y el medio abiótico son la causa de los patrones espaciales que pueden observarse a diferentes escalas. Por ejemplo, si nuestro objetivo es estudiar la distribución de un organismo en una extensión amplia y con una escala de trabajo grosera, seguramente dicha distribución estará controlada principalmente por factores limitantes, como puede ser algún parámetro climático. Sin embargo, si nuestro objetivo es estudiar una especie que presenta una distribución desigual en un pequeño área de estudio y en una escala de trabajo detallada, lo más probable es que esta distribución sea resultado de una distribución desigual de los recursos debido a una variación micro-topográfica (Guisan &

34

INTRODUCCIÓN

Zimmermann, 2000). Por lo tanto, a la hora de seleccionar las variables con las que vamos a trabajar es muy importante tener en cuenta tanto la escala espacial como la resolución de nuestro análisis. Cada vez tenemos a nuestra disposición un mayor número de posibilidades a la hora de seleccionar las variables potencialmente útiles, de las que las siguientes son un ejemplo. No obstante, cada estudio debe buscar las que sean apropiadas a sus objetivos: -

Variables climáticas desarrolladas a partir de interpolación de datos de estaciones climatológicas utilizando un modelo digital del terreno como covariable.

-

Mapas digitales de suelos, sustratos, geología, vegetación, formaciones forestales, usos del suelo, etc.

-

Modelos digitales del terreno, de los que además puede derivarse otras variables topográficas (p. ej., pendiente, aspecto, orientación, rugosidad, radiación solar, curvatura, etc.).

-

Variables obtenidas mediante teledetección, como índices de vegetación (NDVI), temperatura en superficie, etc. Los datos derivados de satélites han sido muy poco empleados en el modelado ecológico, aunque producen resultados óptimos (Muñoz et al., 2004; Zimmermann et al., 2007).

-

Variables de tipo demográfico y de ocupación del espacio, como índices de población, accesibilidad, vías de comunicación, etc., que pueden ser muy útiles para evaluar el grado de perturbación de un ecosistema. Etcétera.

El área de estudio en este trabajo es relativamente grande, ya que abarca casi 300.000 km2. Por lo tanto, tal y como vimos anteriormente, los patrones espaciales a esta escala estarán regulados principalmente por factores directos, especialmente el clima. En este estudio hemos utilizado las variables bioclimáticas de la base de datos WorldClim 1.3

(http://www.worldclim.org/) (Hijmans

et al., 2005) por los

siguientes motivos: 1) esta base de datos presenta cobertura mundial y permite comparaciones y extrapolaciones con otros trabajos realizados en otros lugares del planeta; 2) es un recurso libre y gratuito; 3) sus 19 variables tienen un sentido biológico como factores limitantes a la hora de explicar los patrones de diversidad de los organismos (Tabla 1.2); 4) su resolución de 30’’ (equivalente a ~1 km2 en el ecuador) es coherente con la escala de nuestro estudio; y 5) son variables que tiene una influencia directa sobre la distribución de plantas (Elith, 2002; Austin, 2007), ya

35

Modelos predictivos de riqueza de diversidad vegetal

que no solo reflejan precipitación y temperatura, si no que también reflejan sus variaciones a lo largo del año (Walter, 1997). VARIABLE

SIGNIFICADO

B1

Temperatura media anual

B2

Rango medio diurno (media mensual (tº máx.- tº min.))

B3

Isotermalidad (B2/B7) (* 100)

B4

Temperatura Estacional (desviación estándar *100)

B5

Temperatura máxima del mes más cálido

B6

Temperatura mínima del mes más frío

B7

Rango de Temperatura Anual (B5 - B6)

B8

Temperatura media del mes más húmedo

B9

Temperatura media del mes más seco

B10

Temperatura media del trimestre más cálido

B11

Temperatura media del trimestre más frío

B12

Precipitación anual

B13

Precipitación del mes más húmedo

B14

Precipitación del mes más seco

B15

Precipitación estacional (Coeficiente de variación)

B16

Precipitación del trimestre más húmedo

B17

Precipitación del trimestre más seco

B18

Precipitación del trimestre más cálido

B19

Precipitación del trimestre más frío

Tabla 1.2. Variables bioclimáticas de WorldClim.

Estas variables bioclimáticas están calculadas mediante la interpolación de los datos de temperatura y precipitación medios mensuales de estaciones climatológicas repartidas a nivel global y un modelo digital terrestre del planeta. Los datos utilizados

corresponden

al

periodo

1960-1990,

ampliándose

en

algunas

circunstancias dicho periodo de 1950 a 2000, como es el caso de la Amazonía. Muchas de las variables bioclimáticas empleadas en este trabajo están fuertemente correlacionadas entre sí. Esta correlación no tiene por que ser necesariamente un problema, aunque si lo fuese podría emplearse una técnica estadística de reducción de variables (Elith, 2002) (véase Tercera Parte).

1.5.2. Modelos de distribución de especies Como vimos anteriormente, un modelo es una idealización de la realidad a la que se llega mediante un proceso. En el caso de los modelos de distribución de especies se siguen los siguientes pasos: 1) partimos de los datos conocidos sobre la

36

INTRODUCCIÓN

distribución del organismo; 2) asociamos matemática o estadísticamente estos datos con diferentes variables independientes que describen las condiciones ambientales (variables explicativas, p. ej.: tipo de suelo, variables climáticas, topografía, etc.); 3) extrapolamos esta relación al resto del área de estudio y obtenemos un mapa de idoneidad o probabilidad de presencia de la especie, es decir, un índice de lo adecuado que es un determinado lugar para el desarrollo de la especie en relación con las condiciones ambientales. Por lo tanto, los modelos son generalizaciones objetivas y repetibles que nos indican lo adecuado que es un determinado área para el desarrollo de una especie. A lo largo de su evolución en la bibliografía científica estos modelos han recibido denominaciones muy diferentes: modelos de nicho (niche models), modelos de idoneidad (suitability models), modelos predictivos del hábitat (predictive habitat distribution models). Últimamente se empiezan a unificar criterios y la mayoría de las publicaciones hacen referencia al término “modelos de distribución de especies” –MDE– (species distribution models –SDM–) y su resultado final recibe el nombre de mapas de idoneidad de hábitat o de hábitat potencial (habitat suitability maps). Este debate en torno a la denominación de los modelos está fundamentado en la interpretación ecológica que reciben por los diferentes autores: -

Algunos autores consideran que estamos trabajando con “modelos de idoneidad”, que representan la distribución potencial de una especie. Entendemos por distribución potencial aquel espacio donde podría estar presente la especie objeto de estudio en función de sus características ambientales. Se trata de modelos cartográficos que nos indican lo adecuado que es cada punto del área estudiada en función de unas determinadas variables de entrada (Lobo, 2000; Felicísimo et al., 2005).

-

Otros autores prefieren emplear el término “modelo del nicho ecológico” (p. ej., Vetaas, 2002; Araújo & Guisan, 2006). El nicho fundamental (Grinnell, 1917) de una especie es la distribución potencial global de la especie. Es decir la combinación de las condiciones ecológicas que la especie puede tolerar, expresada como un espacio multidimensional ambiental. Cuanto este espacio está limitado por las interacciones con otras especies (por ejemplo competencia), hablamos de nicho “realizado” (Hutchinson, 1957). La distribución actual observada de la especie depende de otros factores, como la influencia humana, los factores históricos, las limitaciones en la capacidad de dispersión, etc. Hay que tener en cuenta que la modelización es en la mayoría de los casos del nicho realizado, pero utilizando variables que sólo son oportunas para definir el nicho fundamental.

37

Modelos predictivos de riqueza de diversidad vegetal

-

Por último, otros autores optan por describirlos como “modelos del hábitat potencial”, afirmando que el concepto de hábitat puede ser aplicado a la descripción de la asociación entre los organismos y los factores ambientales. Entienden por tanto que la mayoría de las aproximaciones empleadas en el modelado ecológico son ejercicios descriptivos de modelado del hábitat de una determinada especie (Kearney, 2006).

La discusión anterior no carece de sentido a la hora de interpretar el resultado final y de su aplicación al mundo real. Los MDE son una herramienta con innumerables aplicaciones que pueden variar en función de la interpretación que hagamos de su resultado. Entre sus campos de aplicación podemos destacar el estudio de la riqueza de especies (Cumming, 2000b; Lehmann et al., 2002; Hortal et al., 2004), de la distribución potencial de comunidades (Felicísimo et al., 2002; Felicísimo et al., 2003), de la distribución de especies en el pasado (Benito Garzón et al., 2007), de los patrones de diversidad (Ortega-Huerta & Peterson, 2004; Ferrier et al., 2007), del riesgo asociado a especies invasoras (Kolar & Lodge, 2002; Peterson, 2003; Broennimann et al., 2007; Fitzpatrick et al., 2007; Richardson & Thuiller, 2007), de la protección y conservación de especies amenazadas (Godown & Peterson, 2000; Benito de Pando & Peñas de Giles, 2007), de los posibles efectos del cambio climático (Iverson et al., 1999; Peterson et al., 2002; Iverson, 2004; Araújo et al., 2005a; Araújo et al., 2006; Benito Garzón, 2006; Benito Garzón et al., 2007; Botkin et al., 2007; Pearman et al., 2008), el diseño de reservas (Araújo & Williams, 2000; Margules & Pressey, 2000; Ortega-Huerta & Peterson, 2004; Hannah et al., 2007), los estudios de conservación (Flather et al., 1997; Araújo et al., 2005b; Ceballos et al., 2005; Rissler et al., 2006), la filogeografía (Peterson et al., 1999; Graham et al., 2004b; Weaver et al., 2006), la biogeografía (Lobo et al., 2001; Luoto et al., 2006; Richards et al., 2007), la delimitación de regiones biogeográficas (Peters & Thackway, 1998), la localización de lugares donde pueden existir nuevas especies (Raxworthy et al., 2003), la delimitación de lugares para futuros trabajo de campo (Guisan et al., 2006), la reintroducción de especies amenazadas (Wiser et al., 1998), la conservación de especies raras (Bourg et al., 2005; Sattler et al., 2007), la delimitación de puntos calientes de biodiversidad (Schwartz, 1999; Richardson et al., 2006), el contraste de hipótesis relacionadas con la teoría de la evolución (Peterson et al., 1999), los efectos de las actividades humanas en la distribución de especies (Jarnevich et al., 2006; Seoane et al., 2006), la taxonomía (Gaubert et al., 2006), y un todavía largo etcétera. La naturaleza es compleja y heterogénea, y predecir con precisión cada uno de sus aspectos es algo muy complicado. Los MDE son una aproximación a la realidad

38

INTRODUCCIÓN

que llevan asociados ciertas limitaciones que conviene conocer para una correcta interpretación de los resultados. En este sentido, Lobo (2000) realiza una reflexión muy interesante: “una de las observaciones que alimentan el estudio biogeográfico es que siempre hay un lugar que parece idóneo ambientalmente para una especie, pero que no está habitado por ella (por ejemplo, cada región mediterránea tiene riquezas y especies distintas). Cuanto mayor es la escala espacial de análisis, más frecuente es este fenómeno debido, lógicamente, a la actuación de factores de carácter único e irrepetible que condicionan la distribución. Se trata de la historia evolutiva propia de cada grupo, de la historia y los avatares propios de cada región y de las características geográficas de la misma. Evidentemente, la importancia de los factores ambientales a la hora de restringir la distribución de las especies es limitada, de modo que elaborar funciones predictivas que únicamente tengan en consideración variables ambientales producirá, generalmente, modelos incompletos. Ello será especialmente cierto cuando la escala espacial de análisis sea amplia, como exige el estudio geográfico de la variación del número de especies. Historia y geografía también juegan y es necesario incluirlas.” En la bibliografía podemos encontrar una serie de limitaciones asociadas a los MDE (Guisan & Zimmermann, 2000; Hampe, 2004; Pearson & Dawson, 2004; Guisan & Thuiller, 2005; Soberon & Peterson, 2005; Pearson et al., 2006b). Éstas son las más frecuentes: -

Hipótesis de pseudo-equilibrio (Araújo & Pearson, 2005): los modelos asumen que la población está en equilibrio o, al menos, en pseudo-equilibrio con el medio. Es decir, pequeños cambios en el medio no afectarían a la distribución de la especie. Como vimos anteriormente, en la realidad la distribución de una especie tiene una relación de no-equilibrio con el medio y si consideramos una especie cuya población esté aumentando, por ejemplo recolonizando un medio, los datos de ausencia tomados en el campo pueden situarse dentro del hábitat potencial de esa especie y, por tanto, constituirían falsas ausencias que sesgarían el resultado. Por el contrario, para una especie cuyo área de distribución esté retrayéndose, algunas de las presencias pueden constituir falsas presencias (Elith, 2002). Esta limitación afecta menos a aquellas especies que son relativamente persistentes o que reaccionan lentamente a las condiciones ambientales (elevada resiliencia).

39

Modelos predictivos de riqueza de diversidad vegetal

-

Relaciones bióticas (Davis et al., 1998; Fitzpatrick et al., 2007): la distribución de las especies responde a un proceso complejo, donde las relaciones bióticas tienen un gran significado, por ejemplo la competencia con ciertas especies puede producir que una especie no ocupe su área potencial en su totalidad. Este es un factor que no se toma en consideración en la mayoría de los trabajos realizados con MDE, como tampoco lo son otras interacciones como la facilitación, polinización, herbivoría, depredación, parasitismo o simbiosis. En muchos casos la información disponible es tan escasa que sería imposible desarrollar otro tipo de modelos. Además, algunos autores consideran que estas interacciones sólo tienen un efecto importante a una escala local y a una resolución muy fina (Whittaker et al., 2001; Pearson & Dawson, 2004; Guisan & Thuiller, 2005). Sin embargo, otros trabajos muestran resultados totalmente contrarios (Araújo & Luoto, 2007).

-

Factores

históricos:

la

distribución

actual

de

un

organismo

está

influenciada por diferentes factores históricos. Por ejemplo, puede no estar presente en la actualidad en un lugar propicio para su desarrollo debido a eventos geológicos, antropogénicos o climáticos que han sucedido en el pasado, como glaciaciones o aparición de barreras biogeográficas (Guisan & Zimmermann, 2000). Es un factor importante a lo hora de generar un MDE y que conviene considerar a posteriori si se tiene la suficiente información. -

Limitaciones en la capacidad de dispersión de la especie (Svenning & Skov, 2004; Pearson & Dawson, 2005; Lester et al., 2007): en algunas situaciones una especie puede faltar en zonas dentro de su área potencial de distribución debido a limitaciones en su capacidad dispersiva.

Otro factor importante a tener en cuenta, es como influyen la ecología de la especie en el resultado final del modelo: si se trata de una especie de distribución restringida o amplia, la abundancia de la especie, etc. Por ejemplo, en plantas es de esperar que especies que se encuentran en los pasos finales de la sucesión ecológica sean más fáciles de modelizar que especies pioneras, ya que la distribución geográfica de las primeras será más estable (Guisan et al., 2007b). También se ha demostrado que los modelos realizados con especies de distribución restringida son más fiables que los realizados con especies de amplia distribución (Feria et al., En revisión). Algunas de estas limitaciones pueden considerarse a la hora de realizar un MDE mediante

diferentes

estrategias

como:

1)

añadir

la

presencia

de

especies

competidoras o facilitadoras como una variable más en el análisis; 2) limitar las áreas predichas por el modelo como idóneas teniendo en cuenta el criterio de

40

INTRODUCCIÓN

especialistas (Peters & Thackway, 1998; Loisselle et al., 2003); 3) si existe una barrera dispersiva que hace imposible el establecimiento de una especie en un lugar que el modelo predice como potencial podemos eliminar este área a posteriori (Skov & Borchsenius, 1997); 4) tener en cuenta los sustratos sobre los que no puede desarrollarse una especie (Felicísimo et al., 2005); 5) conocer los factores históricos que han determinado la distribución actual de la especie y aplicarlos al resultado final obtenido en el modelo (Papeş & Gaubert, 2007b); 6) emplear métodos híbridos que combinen MDE con modelos obtenidos con otras aproximaciones (Graham & Hijmans, 2006; Schurr et al., 2007; Allouche et al., 2008; Nogués-Bravo et al., 2008b); 7) restringir los resultados por regiones biogeográficas (Peterson et al., 2002); 8) estudiar e introducir en los resultados interacciones de facilitación

y

competencia (Leathwick, 2002, género Nothofagus); 9) tener en cuenta las relaciones bióticas entre distintas especies (Heikkinen et al., 2007); etcétera. En este sentido, son muy interesantes las consideraciones de Pearson y Dawson (2004) que apuntan que muchas de estas limitaciones son el objetivo de las investigaciones actuales, cuya meta es mejorar los métodos existentes o desarrollar otros nuevos. En trabajos relacionados con la conservación sería deseable que en un futuro estos modelos sean más realistas desde el punto de vista biológico. Sin embargo, la capacidad de construir modelos más realistas está limitada por nuestra comprensión de los sistemas ecológicos complejos y por los datos limitados disponibles. A pesar de estas limitaciones de los MDE, un elevado número de estudios han demostrado su éxito, por ejemplo en la predicción de especies que se desconocían (Raxworthy et al., 2003) y para modelizar la distribución de especies en el pasado (Martínez-Meyer & Peterson, 2006). Por lo tanto, hay que considerar estos modelos como un primer acercamiento útil, por ejemplo para deducir los impactos del cambio climático en la distribución de las especies, aunque se deban aplicar cuidadosamente considerando sus limitaciones. En una de las obras clásicas sobre la relación entre especies vegetales y el clima (Walter, 1985), el autor analiza en detalle algunos patrones que son muy interesantes para poder comprender hasta qué punto son importantes estas limitaciones a la hora de realizar, validar e interpretar los modelos de distribución de especies vegetales y que nos parece apropiado poner de manifiesto en este contexto. Walter asegura que “la actual cobertura vegetal de la Tierra es el resultado de una larga evolución del reino vegetal bajo la influencia de los factores ambientales, tanto en el pasado como en la actualidad”. Así, la vegetación está condicionada en gran parte por el medio ambiente, sobre todo clima y suelo (condiciones térmicas, condiciones hídricas, intensidad lumínica y duración del día, factores químicos y

41

Modelos predictivos de riqueza de diversidad vegetal

factores mecánicos). “Estos factores ecológicos sólo son directamente determinantes en los límites absolutos de la distribución. Si prescindimos de estas excepciones, vemos que las especies vegetales aún pueden crecer muy lejos de su área si se las protege de la competencia de otras especies. Los límites naturales de una especie se producen donde unas condiciones ambientales disminuyen hasta tal punto que su capacidad de competencia se ve desplazada por otras especies.” Walter asegura que la fuerza de competencia es un fenómeno muy complicado y difícil de medir. Esta competencia da lugar a la aparición de combinaciones de especies vegetales, denominadas comunidades vegetales. Algunas de estas comunidades son estables y se encuentran en equilibrio ecológico relativo entre ellas y con su medio ambiente. Son decisivas para mantener este equilibrio: la competencia entre especies, la dependencia de una especie de la existencia de otras, y la presencia de especies complementarias. Otro factor importante a la hora de desarrollar MDE es su fiabilidad final, propiedad que depende de diferentes factores y sobre todo de la calidad de los datos de entrada (variable respuesta e indicadores medioambientales). Los problemas más habituales que pueden afectar a la fiabilidad de los MDE son los siguientes: -

Diseño de muestreo: un muestreo inadecuado puede generar una información insuficiente o irregular (Lobo, 2000; Hirzel & Guisan, 2002).

-

Precisión y exactitud de los datos (Lobo, 2008): inexistencia o poca fiabilidad en los datos de ausencia (pseudo-ausencias) (véase Segunda Parte), errores o poca precisión en la georreferenciación de los datos de presencia, errores en la identificación de los datos de presencia, tamaño mínimo de muestra insuficiente (véase Primera Parte), poder predictivo de las variables independientes, etc.

-

Resolución espacial (Guisan et al., 2007a): debemos emplear la misma resolución en todos los datos empleados en el análisis, que debe ser coherente con los objetivos finales del proyecto y la escala a la que estamos trabajando (mundial, continental, regional, comarcal, etc.).

-

Autocorrelación espacial: si el valor de una determinada variable en una localidad depende de los valores en las localidades adyacentes, se dice que esta variable presenta autocorrelación espacial, violándose la independencia entre las observaciones que requieren la gran mayoría de los estadísticos (Lobo, 2000).

42

INTRODUCCIÓN

-

Métodos de comparación y selección de los métodos de modelado: existe una gran variedad de métodos disponibles para realizar MDE y un paso clave es la selección del método adecuado (véase partes Segunda y Tercera).

Los MDE se pueden generar a partir de métodos que pueden clasificarse de varias maneras. Quizás en el contexto de este trabajo la clasificación más apropiada sea la que se basa en el tipo de datos de partida que utilicen, y que nos permitiría reconocer cinco tipos fundamentales de técnicas. A continuación aparece un listado que incluye las principales opciones existentes en la literatura científica. Cuando comenzamos a desarrollar este trabajo no existían apenas trabajos de comparación de métodos en modelado ecológico y uno de los objetivos más importantes dentro de esta comunidad de científicos era comprobar qué métodos eran los más precisos. La selección del método empleado en un trabajo de modelado ecológico es un proceso fundamental para la fiabilidad final de los resultados. Con este objetivo, nos planteamos realizar una comparación de métodos y ver cuál(es) se ajustaba(n) mejor a nuestros datos de partida y a los objetivos de nuestro proyecto. Una evaluación

de

todos

los

métodos

sería

inviable

y

seleccionamos

los

más

frecuentemente empleados en la bibliografía, aparecen destacados en negrita en el listado: A) Técnicas discriminantes (aquellas que necesitan datos de presencia y ausencia): -

Técnicas de clasificación: classification and regression trees -CART(Breiman et al., 1984a), random forest (Breiman, 2001), boosted regression

trees

-BRT-

(Friedman,

2001),

mixture

discriminant

analysis -MDA- (Hastie & Tibshirani, 1996). -

Técnicas de ordenación: análisis de correspondencia canónica (CCA).

-

Redes neuronales: neural network-assisted (ANN), Plus package NNETW (Venables & Ripley, 2002).

-

Multivariate adaptive regression splines (MARS): con interacciones y sin interacciones (Friedman, 1991).

-

Modelos lineales generalizados (Generalized Linear Models, GLM) (McCullagh & Nelder, 1989): regresión logística múltiple (RLM), support vector machines -SVM- (Vapnik, 1995), generalized regression analysis and spatial prediction -GRASP- (Lehmann et al., 2003).

-

Modelos aditivos generalizados (Generalized Additive Models, GAM) (Hastie & Tibshirani, 1986), BRUTO (Hastie et al., 1994).

43

Modelos predictivos de riqueza de diversidad vegetal

-

Máxima entropía: MAXENT (Phillips et al., 2006; Phillips & Dudík, 2008). Este método genera sus propias pseudo-ausencias.

B) Técnicas descriptivas (sólo necesitan datos de presencia): -

Deductivas: investigación, opinión del experto.

-

Envueltas geográficas: convex hull (Worton, 1995), Kernel density estimators (Silverman, 1986; Seaman & Powell, 1996).

-

Envueltas ambientales: BIOCLIM (Busby, 1986;1991), ANUCLIM (Houlder et al., 1999), BIOMAP (Nix and Switzer 1991), HABITAT (Walker & Cocks, 1991), FLORAMAP (Jones & Gladkov, 1999), PCA.

-

Métodos de distancia: DOMAIN o distancia métrica de Gower (DMG), LIVES, distancia de Mahalanobis -MADIFA- (Calenge et al., 2008).

-

Ecological niche factor analysis (ENFA): Biomapper (Hirzel et al., 2002).

C) Técnicas mixtas (el algoritmo emplea varias reglas algunas de ellas descriptivas y otras discriminantes): -

Algoritmos genéticos: Desktop-GARP (Stockwell & Peters, 1999), OM-GARP (Elith et al., 2006). Este método autogenera sus propias pseudo-ausencias para el conjunto de reglas que necesitan datos de ausencia.

D) Técnicas multirrespuesta (utilizan como ausencias aquellos lugares en donde no se ha encontrado la especie objeto de estudio pero están presentes otras especies relacionadas con la especie objetivo): -

MARS-Multirrespuesta (Elith & Leathwick, 2007).

-

Redes neuronales multirrespuesta.

-

Vector generalized linear (or additive) models.

E) Técnicas de abundancia (utilizan datos de abundancia): -

Modelos de regresión para variables ordinales (Guisan & Harrell, 2000): proportional odds (Guisan et al., 1998), continuation ratio, stereotype models, poisson generalized linear modelling, zero inflated negative binomial regression (Welsh et al., 1996b; Boyce et al., 2001; Pearce & Ferrier, 2001; Barry & Welsh, 2002; Dirnböck & Dullinger, 2004 ).

44

INTRODUCCIÓN

-

Modelos aditivos generalizados (Generalized Additive Models, GAM) (Leathwick, 2001; Cawsey et al., 2002): Poisson GAM (Pearce & Ferrier, 2001).

-

Árboles de regresión (Iverson & Prasad, 1998).

-

Redes neuronales.

A continuación analizamos cada uno de los métodos de modelado ecológico empleados y comparados en este trabajo de investigación: Algoritmos genéticos GARP, acrónimo de genetic algorithm for rule set production (Stockwell & Peters, 1999), se basa en un símil de la evolución por selección natural. GARP puede ejecutarse con datos de presencia/ausencia o de sólo presencia, pero en este caso genera sus propias pseudo-ausencias (‘back-ground’). El primer paso en el proceso es dividir el conjunto de datos en dos subconjuntos, uno de ellos para ejecutar el modelo y otro para evaluarlo. Genera un modelo mediante un conjunto de reglas (atómicas, regresión logística, envueltas ambientales, reglas de rango, etc.) y lo evalúa mediante los errores de omisión y comisión. A continuación realiza otra iteración, para lo que remuestrea de nuevo los datos, hace dos nuevos subconjuntos de datos, genera nuevas reglas para volver a producir otro modelo y evaluarlo. Si este modelo es mejor que el anterior lo almacena, de esta forma genera una gran cantidad de modelos hasta que no mejoran o hasta que se llega a un número de iteraciones establecido por el usuario. El resultado final es un mapa binario de presencia (valor 1) y ausencia (valor 0) de la especie. Se trata de un método muy aleatorio, debido al remuestreo de las presencias y la generación pseudo-ausencias; para solventar esta desventaja el programa ejecuta múltiples mapas finales y selecciona los modelos que presentan mejor consistencia (‘best subset’). Estos modelos pueden ser combinados para generar un único mapa final. La ventaja más destacada de GARP es su implementación en un único software. Sin embargo, es como una “caja negra” ya que sus resultados no se pueden explicar fácilmente, no es interpretable desde el punto de vista ecológico, los resultados varían enormemente con los mismos datos de partida y no se conoce la influencia de las variables independientes en el modelo final.

45

Modelos predictivos de riqueza de diversidad vegetal

Figura 1.3. Ventana de GARP Desktop 1.1.6 donde se pueden contemplar los parámetros con los que ejecutamos este método.

Para realizar los modelos empleamos un software desarrollado por Stockwell y Peters (1999), GARP Desktop 1.1.6. Este algoritmo genera modelos diferentes en cada iteración, ya que se trata de un proceso estocástico donde las ‘mutaciones’ y ‘recombinaciones’ del algoritmo afectan a la predicción final. Esta variación entre predicciones sugiere el empleo de varios mapas con los que se genera un modelo de consenso final (Elith, 2002). En este estudio generamos 100 modelos, de los que se eliminaron los que cometían más de un 10% de error de omisión; de los restantes, se seleccionaron los 10 modelos que estaban alrededor de la mediana del error de comisión. Con estos 10 modelos se generó el modelo de consenso. La figura 1.3 muestra los parámetros con los que fue ejecutado este método. Distancia métrica de Gower (DMG, Domain) Este algoritmo (Walker & Cocks, 1991; Carpenter et al., 1993) utiliza la distancia métrica de Gower, una medida de distancia que estandariza las variables según su rango en todos los puntos de presencia para igualar su contribución al modelo. La distancia entre una presencia A y una celda B para una variable k se calcula como la diferencia absoluta entre A y B dividida por el rango de k para todos los puntos de presencia. La distancia de Gower (G) es la media de las distancias para todas las

46

INTRODUCCIÓN

variables climáticas, y el estadístico de similitud se calcula como 100 (1-G). El valor máximo es 100, que se da en todas las celdas con presencia del organismo.

GAB = 1 – (1/p * ∑ (|A k – B K|/ rango K)) donde p = número de presencias, Ak = valor de la variable k en el píxel A, y Bk = valor de la variable k en el píxel B. El resultado es un valor de similitud entre la celda problema y el punto de presencia más similar conocido. Los modelos realizados con este algoritmo pueden interpretarse como la diferencia entre un sitio de interés y los lugares donde conocemos que la especie está presente. Se pueden generar mapas de presencia/ausencia seleccionando un punto de corte por encima del cual se considera que la especie está presente y por debajo del cual la especie no lo está. En la bibliografía el valor empleado con más frecuencia como punto de corte para este algoritmo es 95 (Carpenter et al., 1993).

Figura 1.4. Ventanas del software DIVA-GIS donde se contemplan las opciones necesarias para poder ejecutar un modelo de distancia métrica de Gower en este programa.

Es un método fácil de ejecutar y de intrepretar. Sin embargo, presenta varias desventajas: 1) es un método poco flexible, ya que no permite interacciones entre variables; 2) da la misma importancia a todas las variables; 3) no tienen ningún procedimiento para seleccionar variables; 4) no se puede conocer la influencia de cada variable en el modelo final; 5) tampoco está muy claro cómo puede afectar el

47

Modelos predictivos de riqueza de diversidad vegetal

empleo de numerosas variables que están altamente correlacionadas en el resultado final de los modelos; 6) es un método que tiende a sobreajustar; y 7) es muy susceptible a la presencia de valores atípicos (outliers). Para generar los MDE de este método, en un primer momento empleamos un software específico (DOMAIN32), pero comprobamos que tenía un error de programación por el que los valores del mapa resultante estaban desplazados una celda; empleamos por tanto DIVA-GIS (Hijmans et al., 2004). En la figura 1.4 se pueden observar las opciones elegidas para generar los modelos. Envuelta medioambiental Este es el título que nos parece más acertado para describir el método BIOCLIM (Busby, 1986;1991) que hemos seleccionado como ejemplo de método de “envuelta” o “entorno” medioambiental. Estos métodos modelizan la distribución de una especie definiendo un espacio multidimensional en el que cada dimensión viene expresada por el rango de una de las variables independientes tras eliminar las observaciones comprendidas en los 5% superior e inferior de dicho rango. El modelo resultante es el que presenta condiciones incluidas dentro de los límites de este espacio multidimensional. Es un método fácil de ejecutar e interpretar. Las desventajas que presenta son las mismas que listamos en el método anterior. Los modelos también fueron realizados con el software DIVA-GIS (Hijmans et al., 2004). Máxima entropía Maxent (maximum entropy) (Phillips et al., 2006; Phillips & Dudík, 2008) es un método de inteligencia artificial que se basa en el principio estadístico de máxima entropía. Los modelos tienen como unicas limitaciones las realmente conocidas, en nuestro caso hablamos de un universo delimitado por los valores de las variables entre las que se desarrolla la especie problema. Así por ejemplo, el valor esperado (valor medio predicho por el modelo) de cada variable independiente debe coincidir con su media empírica (valor medio observado al muestrear las variables independientes con los datos de presencia de partida). MAXENT calcula la probabilidad de distribución de máxima entropía (es decir, la distribución más próxima a la uniforme) sujeta a estas condiciones. El resultado final es una expresión del tipo: P(x) = exp (C1 * F1(x) + C2 * F2(x) + C3 * F3(x) ...) / Z

48

INTRODUCCIÓN

donde C1, C2... son constantes; F1, F2... son las variables, y Z es una constante que asegura que la suma de todos los valores de P para todas las celdas sea 1. Durante el proceso, Maxent genera distintas distribuciones de probabilidad, comenzando por una distribución uniforme, sucesivamente mejora el ajuste a los datos. Esta ganancia se define como la probabilidad media de los datos de presencia, menos una constante que implica que la distribución uniforme tiene una ganancia igual a cero. Al final del proceso, esta ganancia indica el ajuste del modelo a las localidades de presencia. Si esta ganancia tiene un valor de 2 significa que la probabilidad media de las muestras de la presencia es exp(2). Es decir, 7,4 veces mayor que un píxel escogido al azar. Obsérvese que Maxent no está calculando directamente la "probabilidad de ocurrencia". La probabilidad que asigna a cada celda es muy pequeña, pues todos los valores deben sumar 1.

Figura 1.5. Ventana del software MAXENT 2.1 donde se pueden observar los parámetros seleccionados para ejecutar este método.

Maxent tiene tres formatos de salida: “raw”, “cumulative” y “logistic”. El segundo es el empleado en este trabajo. Donde el valor de una celda es la suma de las probabilidades de todas las celdas con una probabilidad más elevada que la celda problema. De esta forma las celdas que el modelo predice que presentan las mejores condiciones para la especie, tendrán valor acumulativo de 100, mientras que los

49

Modelos predictivos de riqueza de diversidad vegetal

valores acumulativos próximos a 0 indican condiciones inadecuadas para el desarrollo de la especie. Este algoritmo puede usar variables cualitativas, dando a cada clase de la variable un peso relativo al número total de puntos de presencia que contiene dicha clase. El programa proporciona curvas de respuesta de la especie ante las diferentes variables independientes y valora la importancia de cada una de ellas en la distribución de la especie. Entre sus ventajas se encuentra una formulación relativamente transparente, que permite interacciones entre variables, se puede investigar el efecto de cada una de las variables, es fácil de ejecutar y funciona relativamente bien con tamaños muestrales pequeños. Sin embargo, no existe un método de selección de variables y es un método poco estudiado. Para ejecutar este método empleamos un software específico: MAXENT 2.1, programado en JAVA, que permite desarrollar modelos de distribución de especie de una forma rápida y sencilla. En la figura 1.5 se pueden observar los distintos parámetros seleccionados para ejecutar este método. Regresión logística múltiple (RLM) La Regresión logística múltiple es una regresión lineal con los valores finales comprendidos entre 0 y 1, por lo tanto resulta adecuado para generar un modelo de probabilidad. Al tratarse de una regresión, asume una relación lineal entre la variable dependiente y las independientes. La variable dependiente adopta la forma de logit: ln (P/1-P), donde P es la probabilidad de presencia; despejando P se obtiene la ecuación:

P (i ) =

1 1+ e

b ( 0 ) + b (1)⋅ x (1) +...+ b ( n )⋅ x ( n )

donde P(i) es la probabilidad de presencia de la especie; x(1)… x(n) representan los valores de las variables ambientales y b(1)… b(n) son los coeficientes correspondientes. Los modelos de distribución de especies realizados con este método no son más que una ecuación que explica la relación entre la variable dependiente y las independientes, y su posterior extrapolación a toda el área de estudio mediante su implementación en un SIG. Las variables independientes que se incluyen en el análisis pueden estar correlacionadas entre sí disminuyendo la fiabilidad final del modelo. Un proceso habitual en la construcción de modelos es seleccionar aquéllas que son significativas,

50

INTRODUCCIÓN

una opción frecuente es eliminar las variables no significativas mediante un proceso hacia delante (forward) o hacia atrás (backward). En el primer caso se realiza una regresión con cada una de las variables, aquella que explica el mayor porcentaje de la varianza total de la variable respuesta se selecciona, se vuelven a realizar regresiones parciales incluyendo la variable seleccionada. El proceso finaliza cuando no se encuentra ninguna variable que contribuya significativamente. El proceso hacia atrás consiste en incluir todas las variables a la vez, eliminando en cada paso las variables menos significativas. Otro método es el análisis de regresión por pasos (stepwise), que combina el proceso de selección forward con una eliminación backward, comprobando la significación de cada de una de las variables incluidas en el modelo. Este último método es el que hemos escogido para llevar a cabo la selección de variables en este trabajo. Algunas de las ventajas más destacables de este método son la fácil interpretación de los modelos generados (tanto desde el punto de vista estadístico como ecológico), que se pueden seleccionar las variables que se incluyen en el análisis, se pueden considerar interacciones entre variables, se puede conocer el efecto de cada una de las variables en el modelo final, que se trata de un método bien conocido y evaluado. Una de sus principales desventajas es el empleo de pseudo-ausencias, ya que se trata de un método muy sensible a los errores en presencias y ausencias. Además, se necesitan varios programas para desarrollarlo. Los modelos fueron realizados en SPSS 12.0 y, posteriormente, mediante una sintaxis en lenguaje AML (Arc Macro Language) ejecutada en ArcInfo Workstation 9.1, el modelo fue implementado en un SIG y convertido en mapa de probabilidad para toda la zona de estudio. Árboles de clasificación y regresión CART (classification and regression trees) es un método desarrollado por Breiman et al. (1984b) que genera árboles binarios (los nodos padres se dividen en dos nodos hijos) mediante particiones iterativas, en un proceso que se puede repetir tratando a su vez a cada nodo hijo como padre. El algoritmo busca los valores óptimos de corte entre todas las variables independientes para obtener una serie óptima de divisiones binarias, de forma que se minimice la varianza dentro de cada nodo y se maximice entre nodos diferentes; es posible por tanto que haya variables que no se utilicen. Una vez obtenido el árbol que mejor clasifica los casos, sin límite de complejidad, el algoritmo lo ‘poda’ o simplifica para evitar el sobreajuste (overfitting) de los datos. El resultado es un árbol por el que se desciende a partir de preguntas de tipo si/no. En función del tipo de variable dependiente se diferencian

51

Modelos predictivos de riqueza de diversidad vegetal

dos tipos de árboles: de regresión (variable dependiente continua) y de clasificación (variable discreta). Las ventajas más destacadas de este método son las siguientes: se trata de un método fácil de interpretar, se pueden desarrollar fácilmente modelos no lineales, se conoce directamente el efecto de cada una de las variables en el modelo final. Las principales desventajas de este método son que los modelos puede ser difíciles de representar como una predicción, se necesitan varios programas para desarrollarlo y su implementación en un SIG puede llegar a ser muy complicada. Para generar estos modelos utilizamos CART 5.0 (www.salford-systems.com), aunque lo complicado de su implementación en un SIG (Muñoz & Felicísimo, 2004; Felicísimo et al., 2005), sumado a que no produjo los mejores resultados, recomendó no generar los mapas finales. MARS (multivariate adaptive regression splines) MARS es un método estadístico desarrollado por Friedman (1991). Se basa en la construcción de modelos flexibles ajustando los datos a regresiones lineales parciales "segmento por segmento" (piecewise). Es decir, los modelos no lineales se aproximan mediante la utilización de regresiones lineales parciales (en distintos intervalos del conjunto de datos), donde la pendiente de la ecuación cambia de un intervalo a otro. Un nodo nos indica el final de una regresión parcial y el principio de otra. Entre dos nodos consecutivos el modelo se define mediante una regresión lineal. Los nodos se seleccionan mediante un procedimiento de búsqueda que emplea un algoritmo paso a paso, similar al proceso que empleamos en la RLM. El modelo generado está sobreajustado y posteriormente se eliminan los nodos con menor relevancia a través de un criterio estadístico (mediante validación cruzada generalizada) y sólo se mantienen los nodos más significativos. Las llamadas funciones básicas (basis functions) representan la información contenida en una o más variables. Actúan como las nuevas variables independientes del modelo y explican el efecto de una o varias variables respuesta sobre la variable independiente en cada intervalo (espacio entre dos nodos). Veamos un ejemplo: suponemos que se ha generado el siguiente modelo: F(x) = β0 + β1 * FB1 + β2 * FB 2 siendo sus funciones básicas las siguientes: FB 1 = max (0, V1 – 10)

52

INTRODUCCIÓN

FB 2 = max (0, V1 – 20) El efecto de la variable independiente V1 en la variable dependiente es 0 para los valores inferiores a 10; para los valores comprendidos entre 10 y 20 la variable V1 tiene un valor sobre la variable dependiente de β1 y para los valores mayores de 20 el efecto de la variable V1 sobre la variable dependiente se obtiene a partir de la suma de los coeficientes β1 y β2. Para generar estos modelos empleamos MARS 2.0 (www.salford-systems.com). Mediante rutinas de este software realizamos un total de 30 modelos diferentes para cada una de las especies, variando la complejidad de los modelos generados. Posteriormente seleccionamos el modelo que presentaba mejor consistencia (mayor valor del estadístico área bajo la curva ROC, calculado en SPSS 12). Este modelo se implementó después en un SIG mediante una sintaxis AML (Arc Macro Language). Los parámetros que se variaron fueron: 1) número máximo de funciones básicas permitidas en el modelo (15, 20, 25, 26, 27, 28, 29, 30, 45); 2) factor de velocidad (1, 2, 3, 4), que se refiere a la esfuerzo en la búsqueda de nodos óptimos en cada iteración; con valores bajos de este parámetro el software analiza cada valor de la variable como posible nodo en cada iteración, independientemente de que en iteraciones anteriores su contribución haya sido baja, mientras que con valores altos la búsqueda no tiene por qué encontrar los nodos óptimos; 3) interacciones (se permitían o no interacciones entre las distintas funciones básicas; 4) variables independientes en el modelo (se incluían todas las variables o bien se eliminaron del análisis las variables B1 –temperatura media anual– y B12 –precipitación media anual–,

de

las

que

se

derivan

las

demás,

con

el

objeto

de

reducir

la

multicolinealidad). MARS genera puntuaciones sin un límite definido, por lo que los modelos finales fueron constreñidos a un valor comprendido entre 0 y 1 mediante la función ‘logit’. Entre las ventajas de este método destacaremos que se trata de un método fácil de interpretar estadística y biológicamente, permite desarrollar fácilmente modelos no lineales, se conoce directamente el efecto de cada una de las variables en el modelo final, tiene un proceso para seleccionar variables y permite interacciones parciales en las variables. Una de las desventajas de este método es que se necesitan varios programas para desarrollarlo. MARS-Multirrespuesta Los modelos Multirrespuesta usan datos procedentes de varias especies, que son a su vez incluidos en el análisis como variables. Se construyen de una forma similar a los modelos de MARS que emplean datos de una sola especie. El modelo

53

Modelos predictivos de riqueza de diversidad vegetal

Multirrespuesta final usa el mismo conjunto de variables para todas las especies, pero estima diferentes coeficientes para cada una. La naturaleza de estos modelos requiere el empleo de un tipo especial de ausencias (inventory pseudo-absences): aquellos lugares donde están presentes otras especies pero no se encuentra la especie problema son considerados ausencias para el análisis (Tabla 1.3) (Elith & Leathwick, 2007). Para ejecutar este modelo se empleó el software libre R (http://www.rproject.org). Los parámetros con los que se ejecuto este algoritmo son los mismos que emplearon Elith y Leathwick (2007). X

Y

SP1

SP2

SP3

V1

V2

78,68

0,99

1

0

0

23

900

76,53

1,50

0

1

0

10

550

77,10

2,39

0

0

1

5

100

Tabla 1.3. Ejemplo de una tabla de entrada de datos en un modelo multirespuesta, donde se incluyen los datos de presencia de cada especie (sp) y los valores de las variables ambientales (V) para esas localizaciones (X , Y). Se consideran ausencias (0) para una especie determinada lugares donde están presentes otras especies pero no se encuentra esta especie.

1.5.3. Evaluación y comparación de métodos Cada uno de los métodos que hemos visto anteriormente ofrece un resultado diferente y la selección del método que vamos a emplear en nuestro análisis es un paso determinante para la fiabilidad final del cualquier trabajo de modelado ecológico. Esta decisión debe estar fundamentada principalmente en una evaluación y control del error adecuado (Fielding & Bell, 1997; Manel et al., 1999). Aunque no debe estar basada exclusivamente en consideraciones estadísticas, sino que además es necesario tener en cuenta los objetivos de nuestro proyecto y las consideraciones teóricas de los diferentes métodos (Guisan & Zimmermann, 2000). Antes de adentrarnos en otras consideraciones vamos a definir algunos conceptos básicos que serán necesarios: -

Bondad del modelo (accuracy): este término se emplea en modelado ecológico para valorar la calidad y la capacidad predictiva del modelo final (Guisan & Thuiller, 2005).

-

Consistencia

del

clasificador

o

consistencia

clasificatoria

(predictive

performance): es la probabilidad de que un caso positivo puntúe por encima de uno negativo.

54

INTRODUCCIÓN

-

Datos de generación (training data set): fracción del total de datos de la variable dependiente que se emplean para generar el modelo pero no para validarlo.

-

Datos de validación (testing data set): fracción del total de datos de la variable dependiente no utilizada para generarlo que se utiliza para evaluar el comportamiento del modelo final, en términos de ajuste y consistencia, ante nuevos datos.

-

Interpretabilidad del modelo (model interpretability): algunos autores utilizan este criterio para seleccionar los métodos o modelos que son más fácilmente comprensibles o interpretables; es decir, aquéllos en los que la relaciones entre las especies y el medio ambiente pueden ser críticamente evaluadas. Existen otros métodos incomprensibles o no interpretables, en los que no se conocen estas relaciones (cajas negras).

-

Error de comisión (commission error): error cometido al predecir el modelo la presencia de una especie cuando realmente no se ha observado, es decir, la proporción de falsos positivos o falsas alarmas.

-

Error de omisión (omission error): error cometido al predecir el modelo la ausencia de una especie cuando en la realidad está presente; es decir, la proporción de falsos negativos.

-

Error estándar (standard error): es una medida de la desviación muestral con respecto al valor real de un estadístico, o lo que es lo mismo, la desviación estándar de un estadístico.

-

Especificidad

(specificity):

proporción

de

ausencias

correctamente

predichas respecto número total de ausencias. -

Fiabilidad del modelo (reliability): la cualidad del modelo de ser verosímil.

-

Generalidad (generality): la habilidad de comparar la consistencia del mismo modelo en diferentes aplicaciones o entre modelos desarrollados para diferentes especies o con diferentes datos de ejecución y evaluación.

-

Generalizable (generalizability): es la capacidad de un modelo de predecir adecuadamente la distribución de una especie con datos nuevos (datos de validación), alcanzando un valor de bondad del modelo similar al alcanzado con los datos de generación.

-

Prevalencia (prevalence): proporción de la clase sujeto (presencia) en el conjunto de datos.

55

Modelos predictivos de riqueza de diversidad vegetal

-

Punto de corte o umbral (threshold): valor que optimiza la proporción de casos positivos y negativos correctamente predichos. Permite convertir un mapa de probabilidades o cualquier otro índice en un mapa binario de presencia/ausencia. Valores más elevados de probabilidad que este umbral suponen que la especie está presente (1), y valores inferiores implican que la especie no está presente (0), generando en el modelo binario (1-0). El punto de corte óptimo es un compromiso entre error de omisión y comisión.

-

Sensibilidad

(sensibility):

proporción

de

presencias

correctamente

predichas respecto al número total de presencias. -

Sobreajuste (overfitting): situación en la que el modelo generado tiene un ajuste alto a los datos de generación, pero bajo cuando se aplica a datos nuevos

(datos

de

validación);

es

decir,

es

un

modelo

que

casi

exclusivamente se ajusta a los datos de partida. -

Validación (validation): valoración de la consistencia del modelo con datos independientes a los de su generación.

-

Verificación (verification): capacidad de un modelo de ajustarse al conjunto de datos con los que se ha ejecutado. Cuando verificamos existe una única colección de datos con la que se ejecuta y se evalúa el modelo.

A la hora de evaluar el resultado final de un modelo de distribución de especies y de realizar comparaciones entre los diferentes métodos de modelado ecológico se emplean estadísticos que miden la consistencia del modelo. En la bibliografía se habla de las propiedades deseables de estos estadísticos, entre las que se suelen destacar dos: 1) la habilidad de describir la consistencia en términos de ajuste del modelo; y 2) la capacidad de medir si un modelo es generalizable (Guisan & Thuiller, 2005). Algunos autores valoran considerablemente la interpretabilidad del modelo a la hora de seleccionar o elegir una determinada técnica (Guisan & Thuiller, 2005). La mayoría de los autores aceptan que es preferible la validación a la verificación, pero en algunas ocasiones la verificación puede ser suficiente, e incluso en algunas situaciones la validación puede resultar imposible, como cuando no hay suficientes datos de partida para dividirlos en dos subconjuntos, algo muy habitual (Araújo & Guisan, 2006). Tenemos que tener muy claro que decir si un modelo es ‘bueno’ o ‘malo’ siempre estará sujeto a críticas, es algo implícito al modelado, la verdad absoluta no puede obtenerse (un modelo por definición es una aproximación de la realidad). Por lo tanto, un modelo sólo debe ser discutido y definido en el contexto de su aplicación (Guisan & Zimmermann, 2000). Es decir, no podemos concluir si un modelo es verdadero o falso, pero podemos ver si

56

INTRODUCCIÓN

producen una solución aceptable a nuestro problema y son una predicción fiable de los patrones biológicos con los que trabajamos (Guisan & Zimmermann, 2000). Existen

diferentes

estadísticos

para

medir

la

consistencia

y

realizar

comparaciones, pero algunos no son apropiados para todas las situaciones. Fielding & Bell (1997) y Johnson & Omland (2004) proporcionan buenas revisiones de las diferentes posibilidades existentes. Para este trabajo hemos seleccionado el estadístico más empleado en la bibliografía: el área bajo la curva ROC (Receiver Operating Characteristics). A continuación analizaremos este estadístico. Curva ROC (Receiver Operating Characteristic) La curva ROC es la representación gráfica de la capacidad discriminativa de un modelo para todos sus posibles puntos de corte. El eje de ordenadas corresponde a la sensibilidad o casos positivos bien clasificados, y el de abscisas a 1– especificidad, o falsos positivos. En esta gráfica un aumento de la sensibilidad implica una disminución de la especificidad y viceversa (Hanley & McNeil, 1982). El estadístico derivado es el área bajo la curva ROC o AUC (area under the ROC curve) en su acrónimo inglés. Es equivalente al estadístico U de Mann-Whittney, ya que en realidad corresponde a la probabilidad de que, tomado al azar un par de casos, uno positivo y otro negativo, el modelo adjudique al positivo un valor mayor. El resultado tiene unos valores comprendidos entre 0,5 y 1; un valor de 0,5 significa que el modelo no tiene un valor discriminante, ya que equivaldría a que clasificara los casos al azar. Un valor de AUC igual a 1 significa que el ajuste del modelo es perfecto.

PRESENCIA AUSENCIA

PREDICCIÓN

REALIDAD PRESENCIA

AUSENCIA

Verdadero positivo

Falso positivo

(VP)

(FP)

Falso negativo

Verdadero negativo

(FN)

(VN)

Tabla 1.4. Tabla de contingencia para un punto de corte determinado.

57

Modelos predictivos de riqueza de diversidad vegetal

Para la representación gráfica de la curva se elabora una tabla de contingencia (Tabla 1.4) para cada uno de los posibles puntos de corte, con los valores de sensibilidad y especificidad. La sensibilidad y especificidad se calculan a partir de las expresiones siguientes:

SENSIBILID AD =

número predicho de casos verdadero s positivos VP = número real de casos positivos VP + FP

ESPECIFICIDAD =

número predicho de casos falsos negativos FN = número real de casos negativos FN + VN

Las mayores ventajas de este estadístico son las siguientes: 1) la posibilidad de comparar cualquier método, ya que no dependen de presupuestos paramétricos; 2) sus resultados son independientes de la prevalencia; y 3) es una medida independiente del punto de corte. En este trabajo el estadístico AUC fue calculado mediante rutinas de SPSS 12.0. Los resultados se presentan en esta tesis con los intervalos de confianza. También hay que valorar las limitaciones del estadístico AUC recientemente expuestas (Lobo et al., 2008; Peterson et al., 2008a): 1) no evalúa la bondad de ajuste del modelo; 2) suma la consistencia para todas las regiones de la curva ROC y debe tenerse en cuenta que algunas de estas regiones raramente son operativas; 3) da igual valor al error de comisión que al error de omisión; 4) no obtenemos información espacial del error; y 5) la extensión del análisis influye de una forma importante en este estadístico.

1.6. Objetivos y estructura de la tesis De lo tratado hasta el momento es evidente que los modelos de distribución de especies constituyen una herramienta fundamental en un gran número de estudios, pero también que su uso no está exento de problemas y dudas. Teniendo en cuenta que uno de los objetivos generales del proyecto de investigación en el que se enmarca esta Tesis Doctoral era utilizar combinaciones de MDE para construir modelos de diversidad vegetal que identificaran y delimitaran áreas de alta diversidad de una forma fiable y objetiva, este trabajo afronta los siguientes objetivos específicos:

58

INTRODUCCIÓN

1.- Analizar los efectos del tamaño de muestra en los modelos de distribución de especies. Este objetivo se aborda en la Primera Parte (Estudiando los efectos del tamaño de muestra en los modelos de distribución de especies). Uno de los factores que pueden tener mayor impacto en la fiabilidad final del modelo es el tamaño de muestra. En este capítulo estudiamos cómo afecta este tamaño muestral de la variable dependiente sobre la fiabilidad de los MDE. 2.- Evaluar varios métodos de generación de pseudo-ausencias y ausencias de grupo fiables. Otro factor de gran importancia para generar buenos MDE es la calidad de los datos de ausencia. Este objetivo se aborda en la Segunda Parte (Generando pseudo-ausencias y ausencias de grupo fiables. Comparación de técnicas descriptivas y discriminantes). Para su consecución planteamos la generación de ausencias de grupo a partir de datos procedentes de colecciones de historia natural, en principio más fiables que las pseudoausencias puramente aleatorias, y posteriormente analizamos si los modelos así obtenidos son robustos y consistentes. 3.- Comparar el rendimiento de los modelos a nivel de especie generados por varios métodos. Este objetivo, tratado en la Segunda y Tercera Parte, evalúa el rendimiento de seis métodos empleados en modelado ecológico a nivel de especie y contrasta

qué

técnicas

son

más

consistentes,

si

las

discriminantes

(necesitan datos de presencia y ausencia) o las descriptivas (sólo emplean datos de ausencia). 4.- Comparar el resultado de diferentes estrategias de modelado a nivel de comunidad, con los que generar mapas fiables indicadores de la diversidad. Este objetivo se trata en detalle en la Tercera Parte (Modelando patrones de diversidad). Donde se comparan diferentes estrategias, aproximaciones y corrientes de modelado a nivel de comunidad, evaluando sus ventajas y desventajas.

59

PRIMERA PARTE: Estudiando los efectos del tamaño de muestra en los modelos de distribución de especies.

TAMAÑO MUESTRAL

2. Estudiando los efectos del tamaño de muestra en los modelos de distribución de especies 2.1. Resumen El modelado ecológico se emplea cada vez más en investigaciones relacionadas con la distribución potencial de las especies. La mayoría de los trabajos llevados a cabo no realizan un análisis del tamaño de muestra mínimo necesario, a pesar de su influencia potencial en la consistencia y fiabilidad de los modelos de distribución de especies (MDE). MARS (multivariate adaptive regression splines) es uno de los métodos con más potencial dentro del modelado ecológico, pero los efectos del tamaño de muestra no han sido analizados para este método. Nuestro objetivo es por tanto analizar los efectos del tamaño muestral en MDE generados con MARS. Para realizar este análisis empleamos dos conjuntos de datos, cada uno de ellos con dos especies: 1) dos especies arbóreas en España, el roble melojo o rebollo (Quercus pyrenaica Willd.) y el haya (Fagus sylvatica L.). Estas especies representan juegos de datos con un elevado número de presencias (14.661 y 3.734, respectivamente), con ausencias verdaderas y prevalencia desequilibrada; 2) dos especies herbáceas endémicas de Ecuador, Anthurium dolichostachyum Sodiro y A. mindense Sodiro. Estas especies representan juegos de datos con un número bajo de presencias (ambas 72), sin ausencias verdaderas y prevalencia equilibrada. Se

generaron

MDE

con

tamaños

muestrales

progresivamente

menores

seleccionando al azar presencias del juego de datos. Para cada tamaño muestral se realizaron 10 réplicas en el caso del género Anthurium y 20 en el de los árboles. Todos los modelos fueron generados con MARS. El modelo de referencia – considerado como la representación más fiable de la realidad con los datos disponibles– se comparó con las diferentes réplicas mediante el coeficiente de correlación de Pearson. También se utilizó el coeficiente de correlación de Pearson para medir la estabilidad de los modelos, comparando todas las réplicas entre sí dentro de cada tamaño muestral. Se encontró que el coeficiente de correlación entre los modelos degradados y el modelo de referencia está relacionado directamente con el tamaño muestral, y que la estabilidad de los modelos (estimada como la desviación típica de la correlación entre réplicas) está inversamente relacionada con el tamaño muestral. Por tanto se demuestra que el tamaño de muestra mínimo es un factor de vital importancia para generar MDE fiables y estables empleando MARS, tal y como ha sido demostrado para otros métodos. En este trabajo ponemos de manifiesto la gran

63

Modelos predictivos de riqueza de diversidad vegetal

cantidad de elementos que condicionan un tamaño de muestra mínimo y por lo tanto sugerimos un análisis previo de los datos en los proyectos de investigación llevados a cabo en modelado ecológico. Generar un modelo de consenso con varias réplicas variando al azar los datos de partida puede mejorar la fiabilidad.

2.2. Introducción El modelado es una herramienta de gran importancia en muchos campos de investigación donde no es fácil la observación directa o la experimentación. En el contexto de los modelos de distribución de especies (MDE), y dependiendo del objetivo perseguido, los datos de partida pueden ser muy limitados, como por ejemplo las especies de distribución restringida (Pearson et al., 2006a) o en peligro de extinción (Beguería, 2006), llegando incluso en algunas ocasiones a disponer de una única presencia. Sólo en raras ocasiones se dispone de una gran cantidad de información de partida (Zaniewski et al., 2002). La cantidad total de información disponible en las colecciones de historia natural es enorme, pero muy pocos organismos están bien representados en dichas colecciones (Loiselle et al., 2008), y sus áreas de distribución completas son en gran medida hipotéticas, por lo que son estas especies los principales objetivos del modelado ecológico, lo que cierra un círculo vicioso de difícil solución. Son muchos los factores que pueden afectar a la fiabilidad final de los modelos. Algunos trabajos han revisado los efectos de la parametrización y el funcionamiento comparativo de los métodos disponibles (Guisan & Zimmermann, 2000; Guisan & Thuiller, 2005; Araújo & Guisan, 2006; Elith et al., 2006) (véase Tercera Parte); otros se han centrado en la falta de datos de ausencia (Zaniewski et al., 2002; Brotons et al., 2004; Pearce & Boyce, 2006; véase Segunda Parte); y otros han estudiado como afecta la ecología de la especie (Manel et al., 2001; Luoto et al., 2005; Elith et al., 2006). Sin embargo, todavía existen algunos factores del proceso en los que queda mucho trabajo por hacer, como la influencia del tamaño mínimo de muestra y la prevalencia (proporción de la clase sujeto) en los modelos generados. El tamaño de muestra tiene una influencia potencial en la consistencia y fiabilidad de los modelos. Este efecto, combinado con las diferencias, a veces extremas, en los resultados de las diferentes técnicas (Loisselle et al., 2003; Elith et al., 2006; Sérgio et al., 2007), se convierte en un interesante campo de investigación. En teoría, la estabilidad y la consistencia de los modelos disminuye según disminuye el tamaño muestral, mientras que la fiabilidad final de los modelos debe aumentar con tamaños de muestra mayores (Stockwell & Peterson, 2002; McPherson et al., 2004; Hernandez et al., 2006; Wisz et al., 2008). Por lo tanto,

64

TAMAÑO MUESTRAL

para poder generar modelos fiables necesitamos un número mínimo de presencias. Por otra parte, la obtención de datos sobre la distribución de especies puede ser extremadamente complicada, especialmente en áreas tropicales (Raven & Wilson, 1992), por lo que limitar el esfuerzo de muestreo al tamaño mínimo apropiado permitiría generar MDE fiables sin malgastar recursos valiosos. Varios trabajos han investigado el efecto de la prevalencia (proporción de presencias en el juegos de datos para ejecutar el modelo) sobre la fiabilidad final de los modelos, con resultados muy diferentes (Tsoar et al., 2007). Algunos estudios documentan un efecto positivo de la prevalencia sobre la fiabilidad final de los MDE (Manel et al., 2001; Kadmon et al., 2003), otros uno negativo (Stockwell & Peterson, 2002; Segurado & Araújo, 2004), otros no encuentran ninguna relación (Brotons et al., 2004; Jiménez-Valverde & Lobo, 2006), y otros finalmente, documentan una variación en función del grupo biológico (Pearce & Ferrier, 2000). Sin embargo, no se puede olvidar su efecto negativo a la hora de emplear estadísticos, como la Kappa de Cohen, que dependen de la prevalencia en su cálculo (McPherson et al., 2004). Aunque existe un consenso sobre el efecto del tamaño muestral en la fiabilidad de los MDE, muchos autores no lo tienen en cuenta, e incluso generan modelos empleando un número extremadamente bajo de presencias sin considerar las consecuencias potenciales. Como ejemplo podemos citar las 2 presencias utilizadas por Ortega-Huerta & Peterson (2004) o McClean et al. (2005), las 4 de Loisselle et al. (2003) o Cuesta-Camacho et al. (2006a), o las entre 7 y 12 presencias de Anderson & Martinez-Meyer (2004). Otros autores mencionan las desventajas potenciales de los tamaños muestrales pequeños (p. ej., Stockwell & Peters, 1999; Reese et al., 2005). Otros, cuyo objetivo de investigación era diferente al efecto del tamaño muestral, expresan su preocupación por el tamaño de muestra mínimo (Cumming, 2000a; Pearce & Ferrier, 2000; Drake et al., 2006; Loiselle et al., 2008). Finalmente, algunos trabajos han tratado en profundidad aspectos relativos a los efectos del tamaño muestral sobre los modelos obtenidos con RLM, GARP y BIOCLIM en general (Stockwell & Peterson, 2002), sobre los modelos de especies de distribución restringida empleando BIOCLIM, DOMAIN, GARP y MAXENT (Hernandez et al., 2006), sobre los efectos de la prevalencia en los MDE (McPherson et al., 2004), o sobre el comportamiento comparado de métodos como GARP y MAXENT (Pearson et al., 2006a; Papeş & Gaubert, 2007a), o una comparación de 12 métodos (Wisz et al., 2008). Enmarcado dentro de esta línea de investigación, el objetivo de este capítulo es determinar el efecto del tamaño de muestra sobre la fiabilidad y la estabilidad de los MDE generados mediante MARS, algo que no se ha hecho previamente. Con el ánimo

65

Modelos predictivos de riqueza de diversidad vegetal

de presentar resultados lo más generalizables posible, hemos escogido dos juegos de datos con la intención de abarcar las diferentes posibilidades existentes dentro del modelo ecológico: 1) datos de sólo presencia y pseudo-ausencias, frente a datos de presencias y ausencias reales; 2) conjunto de datos equilibrado (prevalencia del 50%) frente a desequilibrado; 3) pocas presencias frente a un elevado número de presencias.

2.3. Material y métodos 2.3.1. Variables dependientes Las variables dependientes seleccionadas fueron cuatro especies de plantas, agrupadas en dos tipos de conjuntos de datos que tratan de cubrir las diferentes dificultades que afectan a los métodos de modelado ecológico. También representan dos áreas biogeográficas y climáticas muy diferentes: Ecuador (tropical) y España (eurosiberiana-mediterránea) con esfuerzos de muestreo muy diferentes. Para todas las variables el tamaño de celda se estableció en 0,00833 grados (~1 km en el ecuador).

Datos con elevado número de presencias, ausencias verdaderas y prevalencia desequilibrada. Utilizamos datos de presencia/ausencia del haya europea (Fagus sylvatica L.) y del roble melojo (Quercus pyrenaica Willd.) tomados de una versión digital del "Mapa Forestal de España" (Ceballos, 1966) (Fig. 2.1). La primera especie crece en las montañas del Norte de la Península Ibérica y en el Sistema Central (Fig. 2.1.a). Su distribución general abarca Europa central y occidental, desde la Península Ibérica hasta Polonia y desde Escandinavia hasta Sicilia. La segunda crece en el centro y Norte de España (Fig. 2.1.b). Su distribución general abarca Francia, la Península Ibérica y el Norte de Marruecos. En la tabla 2.1 aparecen representados los detalles del muestreo estratificado realizado. Hay seis tamaños muestrales diferentes (25%, 15%, 5%, 1%, 0,1% y 0,05% del total de datos). Consideramos el 25% de los datos de partida (3.734 presencias para F. sylvatica y 14.661 para Q.pyrenaica) como un tamaño de muestra suficiente para representar la realidad fiablemente. Es el máximo tamaño de muestra que permitía el software utilizado y, en cualquier caso, es un número mucho mayor de lo que habitualmente se consigue tener en condiciones normales. El resto de modelos generados se compararon con este modelo de referencia (Hernandez et al., 2006) (Véase apartado 1.3.5). Para cada tamaño muestral, excepto para el 25%, los

66

TAMAÑO MUESTRAL

dos juegos de datos fueron remuestreados al azar para generar 20 réplicas diferentes. Los datos de ausencias fueron extraídos de bosques maduros diferentes al de la especie objeto de estudio, F. sylvatica o Q. pyrenaica, respectivamente. No se muestrearon zonas de cultivo o áreas desforestadas, que pudieran representar áreas potenciales para estas especies, con el objeto de minimizar los falsos negativos. Estos datos son un ejemplo de juego de datos con un elevado número de presencias, ausencias verdaderas y prevalencia desequilibrada.

Figura 2.1.a: distribución del haya (color morado) en España. Modificado de Ceballos (1966).

Figura 2.1.b: distribución del roble melojo (color rojo) en España. Modificado de Ceballos (1966).

67

Modelos predictivos de riqueza de diversidad vegetal

Fagus sylvatica

Presencias

Media de ausencias por réplica

Réplicas

25%

3.734

106.330

1

15%

2.240

63.780

20

5%

744

21.275

20

1%

149

4.250

20

0,1%

15

430

20

0,05%

8

215

20

Quercus pyrenaica

Presencias

Media de ausencias por réplica

Réplicas

25%

14.661

132.000

1

15%

8.800

79.200

20

5%

3.090

27.800

20

1%

590

5.300

20

0,1%

84

770

20

0,05%

29

260

20

Tabla 2.1. Número de presencias, número medio de ausencias por réplica y número de réplicas empleado en cada uno de los tamaños muestrales (25%, 15%, 5%, 1%, 0,1% y 0,05% del tamaño original) para las especies de árboles. El 25% se considera el modelo de referencia.

Datos con pocas presencias, sin datos de ausencias y prevalencia equilibrada. Empleamos datos de sólo presencia de la base de datos TROPICOS del Missouri Botanical Garden (http://mobot.mobot.org/W3T/Search/vast.htlm) para dos especies endémicas de Ecuador: Anthurium dolichostachyum y A. mindense. La primera tiene un área de distribución occidental (Fig. 2.2), mientras que la segunda crece en ambas vertientes de los Andes (Fig. 2.2). En esta ocasión no disponemos de datos sobre ausencias, por lo que recurrimos a la generación de pseudo-ausencias en aproximadamente igual número al de presencias. Para reducir el riesgo de generar falsas ausencias en áreas de alta probabilidad de presencia, delimitamos un área tampón de 30 kilómetros alrededor de cada presencia en la que no se generaron pseudo-ausencias (véase Segunda Parte). Para las dos especies de Anthurium disponemos originalmente de 72 presencias. Los dos juegos de datos fueron remuestreados al azar para generar 10 réplicas para cada uno de los siguientes tamaños muestrales: 60, 50, 40, 30, 25, 18 y 9. El modelo de referencia para las dos especies de Anthurium será el modelo

68

TAMAÑO MUESTRAL

generado con todas las presencias disponibles (Hernandez et al., 2006). Con este modelo se comparan el resto de modelos generados. El estudio con estas especies se puede considerar como un ejemplo de datos con un bajo número de presencias, sin datos de ausencias y con una prevalencia equilibrada entre los datos de ausencia y presencia.

Figura 2.2. Datos de presencia originales de Anthurium dolichostachyum (puntos rojos en la imagen izquierda) y A. mindense (puntos morados en la imagen derecha).

2.3.2. Variables independientes Para construir los MDE empleamos las 19 variables bioclimáticas del proyecto WorldClim 1.3 (www.worldclim.org), descritas en detalle en Hijmans et al. (2005) (Véase Introducción General).

2.3.3. Método de modelado ecológico: MARS MARS (multivariate adaptive regression splines) fue propuesto originalmente por Friedman (1991), es un método que ha demostrado ser fiable en modelado ecológico (Moisen & Frescino, 2002; Muñoz & Felicísimo, 2004; Leathwick et al., 2006b; Elith & Leathwick, 2007). Este método combina regresión lineal convencional y “binary recursive partitioning” para producir un modelo donde la relación entre las variables dependientes e independientes puede ser lineal o no. MARS aproxima la función final a través de un sistema de regresiones lineales parciales denominadas funciones básicas. La pendiente de las regresiones cambia en unos puntos denominados nodos, que marcan el final de una región de datos y del principio de otra. El modelo generado en primer lugar está claramente sobreajustado a los datos, con un gran

69

Modelos predictivos de riqueza de diversidad vegetal

número de nodos, y que posteriormente se simplifica eliminando los nodos que menos contribuyen a la eficiencia del modelo mediante validación cruzada.

2.3.4. Comparación entre MDE En total se realizaron 101 modelos para cada uno de los árboles (1 modelo con el 25% de los datos, más 20 réplicas por cada uno de los 5 tamaños muestrales), y 71 modelos para cada especie de Anthurium (1 modelo con todas las presencias originales, más 10 réplicas por cada uno de los 7 tamaños muestrales). Para analizar si los modelos generados con pocas presencias eran estables y fiables se compararon, mediante el coeficiente de correlación de Pearson, con el modelo de referencia (generado con todas las presencias disponibles en el caso del género Anthurium y con el 25% de los datos en el caso de las dos especies de árboles). Esta comparación se realizó de dos formas diferentes: 1) para cada tamaño muestral se comparó el modelo de referencia con cada réplica y, posteriormente, se calculó el coeficiente de correlación medio para cada tamaño muestral; 2) para cada tamaño muestral se generó un modelo de consenso de las réplicas, que posteriormente se comparó con el modelo de referencia. Siguiendo a Hernández et al. (2006), consideramos al modelo de referencia como el más cercano a la distribución potencial de una especie, para el método y variables con las que estamos trabajando. Además, se analizó la evolución de la estabilidad de los modelos al disminuir el tamaño muestral. Para ello calculamos la correlación entre todos los pares de réplicas posibles dentro de cada tamaño muestral. Utilizamos la desviación estándar de la media de r como indicador de estabilidad.

2.4. Resultados Al comparar mediante el coeficiente de correlación de Pearson los MDE realizados con tamaños muestrales menores con el modelo de referencia se obtuvieron los siguientes resultados (Fig. 2.3): 1) los valores de r disminuyen con el tamaño muestral, independientemente de la especie considerada; 2) para las cuatro especies analizadas, el coeficiente de correlación del modelo de consenso (media de todos los modelos para un tamaño muestral dado) es mayor que la media de los coeficientes de correlación de las réplicas de ese tamaño; y 3) el coeficiente de correlación del modelo de consenso se comporta de una forma más estable en las dos especies con mayor número de presencias que en las dos especies con pocas presencias.

70

TAMAÑO MUESTRAL

En las dos especies de árboles (haya y melojo) se observa una tendencia a la disminución del coeficiente de correlación medio de las réplicas al disminuir el tamaño muestral (Fig. 2.3). La pendiente de la gráfica se mantiene relativamente constante hasta alcanzar el mínimo tamaño muestral (0,01%), donde se produce un descenso muy importante del coeficiente de correlación. Este valor es mucho menor (0,34) en el caso del haya, donde el número de presencias es menor (8 presencias). Para el melojo, con un el tamaño muestral de 29 presencias (0,01%) se obtiene un coeficiente de correlación de 0,62. En el caso del haya, 15 presencias parecen suficientes para obtener un modelo comparable con el modelo de referencia, ya que se obtiene un coeficiente de correlación de 0,70. En el caso del melojo, con 29 presencias (0,01% de la muestra original) se obtiene un coeficiente de correlación medio similar (0,62). Desconocemos qué sucede con esta especie con tamaños muestrales menores, pero es lógico esperar una disminución más drástica del valor del coeficiente de correlación, como sucede con las otras tres especies. Por otro lado, en las dos especies del género Anthurium (Fig. 2.3), el efecto del tamaño de muestra es mucho más dramático. En todos los casos los valores del coeficiente de correlación medio es inferior si lo comparamos con las dos especies de árboles ibéricos, incluso para tamaños muestrales similares. A modo de ejemplo, para el melojo se obtiene un valor de 0,62 con un tamaño muestral de 29 presencias (0,01%), mientras que para las especies de Anthurium se obtienen valores de 0,34 y 0,27 para 30 presencias. Para el haya se obtiene un valor de 0,70 con 15 presencias (0,05%), pero para las especies de Anthurium valores de 0,31 y 0,22 con 18 presencias. Si comparamos entre sí las réplicas generadas dentro de cada tamaño muestral, vemos como la desviación estándar del coeficiente de correlación aumenta al disminuir el tamaño muestral (Tabla 2.4), y que en las dos especies de Anthurim presenta un comportamiento más errático que las dos especies de árboles. Este aumento de la desviación nos indica que la estabilidad de los MDE está inversamente relacionada con el tamaño muestral.

71

Modelos predictivos de riqueza de diversidad vegetal

Fagus sylvatica

Tamaño muestral (20 réplicas) 2240

744

150

15

8

(15%)

(5%)

(1%)

(0,1%)

(0,05%)

Media de r

0,821

0,825

0,674

0,588

0,145

Desviación estándar

0,105

0,072

0,122

0,153

0,255

Quercus pyrenaica

Tamaño muestral (20 réplicas) 8800

3090

590

85

30

(15%)

(5%)

(1%)

(0,1%)

(0,05%)

Media de r

0,917

0,811

0,714

0,664

0,413

Desviación estándar

0,043

0,114

0,162

0,219

0,205

Tamaño muestral (10 réplicas)

Anthurium mindense

60

50

40

30

25

18

9

Media de r

0,441

0,426

0,667

0,457

0,706

0,706

0,192

Desviación estándar

0,190

0,233

0,156

0,269

0,131

0,125

0,340

Tamaño muestral (10 réplicas)

Anthurium dolichostachyum

60

50

40

30

25

18

9

Media de r

0,463

0,394

0,270

0,271

0,304

0,251

0,209

Desviación estándar

0,191

0,255

0,233

0,228

0,203

0,237

0,311

Tabla 2.4. Comparación entre las réplicas generadas para cada tamaño muestral. Media de r = media del coeficiente de correlación entre todos los pares de réplicas posibles dentro de cada tamaño muestral. Desviación estándar = desviación estándar del coeficiente de correlación entre todos los pares de réplicas posibles dentro de cada tamaño muestral.

72

TAMAÑO MUESTRAL

Fagus sylvatica

Quercus pyreanica

Anthurium dolichostachyum

Anthurium mindense

Figura 2.3. Correlación media resultante de la comparación de cada una de las réplicas con el modelo de referencia (línea discontinua y circunferencias) y correlación de la comparación del modelo de consenso de cada tamaño muestral con el modelo de referencia (línea continua y cuadrados negros).

73

Modelos predictivos de riqueza de diversidad vegetal

2.5. Discusión La generación de modelos de distribución de especies precisos, fiables y estables depende de muchos factores, algunos de ellos conocidos. El tamaño de muestra es uno de los elementos que puede afectar de una forma más drástica al resultado de cualquier trabajo de modelado ecológico, como ya se ha puesto de manifiesto para otros métodos de modelado ecológico (p. ej., Wisz et al., 2008). Estos trabajos discrepan en cuanto al número de presencias mínimo para generar MDE fiables: 5 para MAXENT (Hernandez et al., 2006; Pearson et al., 2006a), 10 para GARP (Stockwell & Peterson, 2002), 15 para GARP y MAXENT (Papeş & Gaubert, 2007b), 20 para RLM (Stockwell & Peterson, 2002), 40 para support vector machines (Drake et al., 2006), más de 30 para 12 métodos diferentes, incluidos GARP y MAXENT (Wisz et al., 2008), 300 para RLM (Cumming, 2000a). Se observan resultados muy variables incluso para el mismo método. De acuerdo con los resultados obtenidos en este capítulo pensamos que no se puede proporcionar una regla general con respecto al número mínimo de presencias “correcto”. Este número mínimo de muestra puede variar en función de múltiples factores, como por ejemplo la calidad de los datos originales, el método de modelado ecológico, las variables independientes, el tamaño de celda, el área de estudio, la ecología de la especie (distribución amplia o restringida), etc. Además, el número apropiado depende del objetivo de cada proyecto. Por ejemplo, en trabajos con especies muy raras no existe otra opción que realizar los MDE con muy pocos datos de presencia. En estas situaciones en las que una especie esta íntimamente asociada con un hábitat particular o un espacio geográfico, los MDE pueden ser muy precisos incluso con un número muy bajo de presencias, ya que estas pocas presencias representan de forma fiable la variabilidad ecológica en la que se desarrolla la especie, y generan por tanto MDE fiables (Hernandez et al., 2006; Pearson et al., 2006a). Estos MDE han demostrado su utilidad para descubrir nuevas poblaciones, incluso especies, o estrategias de conservación, (Godown & Peterson, 2000; Raxworthy et al., 2003; Bourg et al., 2005; Guisan et al., 2006; Sattler et al., 2007). Pero esto no se puede convertir en una regla general, y no podemos aplicar este número mínimo de presencias a especies con una valencia ecológica más amplia. En este capítulo, las cuatro especies analizadas presentan una valencia ecológica relativamente amplia y una distribución extensa, y puede considerarse por tanto como un estudio de aplicación más general. Aunque, como hemos dicho, no podemos hablar de un tamaño de muestra mínimo valido para todas las opciones, sí podemos analizar las tendencias generales y extraer conclusiones aplicables a casos concretos. En primer lugar, podemos confirmar que el tamaño muestral empleado para generar MDE con MARS afecta

74

TAMAÑO MUESTRAL

drásticamente a su fiabilidad y estabilidad, algo ya demostrado para otros métodos. Observamos una tendencia similar para las cuatro especies, pero el efecto es mucho más drástico en el caso del género Anthurium. Más adelante lo analizaremos más detalladamente, pero parece deberse a la calidad de los datos de partida y la ecología de las especies analizadas. Las dos especies de árboles, con un tamaño muestral de partida alto, muestran un comportamiento similar, aunque es destacable que en el caso del haya se obtiene un modelo relativamente fiable y comparable con el modelo de referencia con un menor número de presencias que en el caso del melojo. Esto se debe con toda seguridad a los requerimientos ecológicos de esta especie que, aunque de distribución amplia, se caracteriza por un rango ecológico más limitado, lo que hace que sea más fácil de modelizar con un menor número de puntos de presencia. Por otro lado, en las dos especies del género Anthurium (Fig. 2.3), en las que el tamaño original de datos es muy reducido con respecto al de los árboles, el efecto del tamaño de muestra es mucho más dramático. En todos los casos los valores del coeficiente de correlación medio es inferior. En principio era de esperar un efecto contrario y que el coeficiete de correlación de los modelos realizados con las especies de árboles fuera menor que en en las dos especies de Anthurium, ya que los modelos de referencia en el caso de los árboles están realizados con un mayor número de datos, y por tanto la diferencia entre el modelo de referencia y el resto de modelos debería ser mayor. Esto se debe en gran medida a la menor fiabilidad de los datos almacenados en las colecciones de historia natural (Margules & Pressey, 2000; Soberon & Peterson, 2004; Rowe, 2005; Edwards et al., 2006; Papeş & Gaubert, 2007b), incluso de las pseudo-ausencias (Véase Segunda Parte), lo que se traduce en casos atípicos, falsas ausencias y falsas presencias, que tienen un efecto negativo sobre la fiabilidad de los modelos, este efecto es aún mayor según disminuye el tamaño de muestra (Carroll & Pearson, 1998). En las dos especies de Anthurium también se aprecia un descenso del coeficiente de correlación medio, pero con un patrón diferente al que se observa en los dos árboles ibéricos. Para los modelos realizados con 60, 50 y 40 presencias se aprecia un

descenso

importante

del

coeficiente

de

correlación,

se

mantiene

luego

relativamente estable con los modelos realizados con 30, 25 y 18 presencias, y se produce por último una caída importante para los modelos realizados con 9 presencias. Para ambas especies se obtienen valores análogos del coeficiente de correlación para todos los tamaños muestrales. Los valores similares de coeficiente de correlación indican que prácticamente no existe ninguna diferencia entre emplear 40

y

18

presencias,

pero



que

parece

desatinado

emplear

menos

de

75

Modelos predictivos de riqueza de diversidad vegetal

aproximadamente 18 presencias para realizar un MDE, ya que alrededor de este valor el coeficiente de correlación disminuye drásticamente indicando que la fiabilidad de los modelos generados disminuye muy rápidamente. Por lo tanto, debemos interpretar los modelos generados con 18 presencias en el caso de genero Anthurium con bastante precaución. Los datos de presencia son una representación de las condiciones ecológicas sobre las que se desarrolla la especie, por lo que nuestra interpretación de estos resultados es que si empleamos pocos datos estamos muestreando estas condiciones parcialmente, y por tanto el modelo sería la representación de una parte de la distribución posible de la especie. Al disminuir el número de datos de partida también disminuimos el universo ambiental muestreado, por lo que la posibilidad de no reflejar la distribución total de la especie aumenta y la estabilidad de los modelos disminuye. Este problema parece solucionarse con la generación de un modelo de consenso (Araújo & New, 2007; Marmion et al., 2008) entre las diferentes réplicas de un mismo tamaño muestral, que combina la información de los diferentes modelos parciales. Si

analizamos

la

estabilidad

de

los

MDE

generados,

observamos

dos

comportamientos muy diferenciados para los dos grupos de datos. En las dos especies de árboles se observa un patrón muy claro: al disminuir el tamaño muestral disminuye el coeficiente de correlación medio (comparando todas las réplicas entre sí dentro de un mismo tamaño muestral) y aumenta la desviación estándar (Tabla 2.4); es decir, la estabilidad de los modelos disminuye al disminuir el tamaño muestral. El modelo de consenso se manifiesta más fiable en las dos especies de árboles, donde disponemos de datos sobre la distribución real de la especie y además generemos un mayor número de réplicas para cada tamaño muestral que para los Anthurium, con menor número de presencias y menor número de réplicas por tamaño muestral. En el caso de las dos especies del género Anthurium, esta relación no es tan evidente para el coeficiente de correlación medio, se comporta de una forma mucho más errática (Tabla 2.4). Los valores de desviación estándar son relativamente altos para todos los tamaños muestrales y para las dos especies son mayores (máxima variabilidad) cuanto menor es el tamaño muestral. Como en el caso de las dos especies de árboles, con las dos especies de Anthurium el modelo de consenso muestra siempre una mayor correlación con el modelo de referencia, pero a diferencia de los árboles, es muy inestable. Parece evidente que en especies con pocas presencias de partida, estos datos representan una información muy sesgada de la distribución real, realidad que los modelos de consenso no pueden recuperar

76

TAMAÑO MUESTRAL

como sucede en el caso de las dos especies de árboles. Esto es especialmente claro con una inspección visual de los mapas, que nos permite extraer una conclusión importante: la inclusión o no de unas determinadas localidades tienen un efecto dramático en el resultado final de los MDE. Seleccionando al azar las presencias con las que realizamos los MDE el resultado final del modelo varía enormemente (Pearson et al., 2006a), con efectos más drásticos según disminuimos el número de presencias. Parte de este efecto puede deberse al efecto de los casos atípicos, que aumenta su efecto negativo sobre el modelo según disminuye el tamaño de muestra. Como hemos visto, los modelos generados con los datos del género Anthurium son menos fiables y estables que los modelos generados con las datos del haya y del melojo. Este efecto se debe principalmente a cinco factores: 1) la cantidad y calidad de los datos de presencia de partida; 2) la menor fiabilidad de la pseudo-ausencias frente a las ausencias reales empleadas en el caso de las dos especies de árboles; 3) el conocimiento preciso de la distribución de las especies en el caso de las dos especies de árboles; 4) el mayor número de ausencias precisas empleado en las especies de árboles aportan una información extra a los modelos que ayuda a delimitar las áreas poco idóneas para el desarrollo de las especies; y 5) la ecología de las especies. Por lo tanto, una conclusión importante que podemos extraer de este análisis es que el tamaño muestra mínimo está estrechamente vinculado con la ecología y distribución de la especie, así como con la calidad de los datos de partida, tanto de presencias como de ausencias. MARS, como otros métodos que modelizan relaciones complejas e interacciones entre varibles, se comporta como un método que necesita muchos datos de presencia para producir buenos resultados (Guisan & Thuiller, 2005; Wisz et al., 2008), como se pone de manifiesto en este trabajo. Por tanto, para trabajar con especies que presentan un bajo número de presencias se sugiere trabajar con métodos más eficientes a tamaños muestrales bajos como por ejemplo MAXENT (Hernandez et al., 2006; Pearson et al., 2006a; Phillips et al., 2006; Papeş & Gaubert, 2007b; Wisz et al., 2008). Los resultados obtenidos en este trabajo sugieren trabajar con un mínimo de 15 presencias, auque los resultados no son igual de fiables en todos los casos. Por ejemplo los modelos del haya realizados con 15 presencias se muestran mucho más estables y fiables que los modelos del género Anthurium para 18 presencias. Por lo tanto no podemos establecer un criterio válido para todas las opciones; éste dependerá de nuestros datos de partida y los objetivos de nuestro proyecto. Esto es extrapolable a todos los métodos de modelado ecológico, lo que hace necesario un

77

Modelos predictivos de riqueza de diversidad vegetal

análisis en detalle con varios tamaños muestrales y diferentes conjuntos de datos para obtener conclusiones robustas para un método. Gran parte de los trabajos metodológicos se llevan a cabo con datos colectados en zonas templadas, donde están disponibles datos de buena calidad. Mientras que la mayoría de los trabajos sobre priorización de zonas de conservación y estudio de patrones de biodiversidad se llevan a cabo en zonas tropicales, donde generalmente los datos son más problemáticos. Como hemos visto en este trabajo, no se pueden extrapolar las conclusiones de un trabajo metodológico desarrollado en zonas templadas a zonas tropicales; la calidad de los datos es inferior y esto puede conllevar graves riesgos para el resultado final del proyecto. Wisz & al. (2008) analizan MARS ejecutado en el software R, donde el código de programación no es el original de Friedman (1991). En ese trabajo sólo se analizan tres tamaños muestrales (100, 30 y 10), cuando la mayoría de los datos almacenados en las colecciones de historia natural presenta entre 30 y 10 presencias (Loiselle et al., 2008). De nuestros resultados también se pone de manifiesto la necesidad de seguir colectado datos, ya que la cantidad de datos almacenados en las colecciones de historia de natural no es suficiente para realizar modelos de distribución de especies fiables desde el punto de vista estadístico, sobre todo en zonas tropicales, que son zonas prioritarias para la conservación de la biodiversidad (Myers et al., 2000; Deutsch et al., 2008). Por lo tanto, es necesario invertir la tendencia a disminuir el número de expediciones que se realizan y seguir aumentando las esfuerzos en los sistemas de información sobre la biodiversidad (Bisby, 2000; Soberon & Peterson, 2004; Guralnick et al., 2007). Un mayor trabajo centrado en la colección de nuevos datos puede producir más beneficios que emplear esfuerzos en desarrollar aproximaciones más complejas a la hora de modelizar (Lobo, 2008). En

los

trabajos

publicados

en

la

actualidad

se

proponen

medidas

de

conservación, diseño de reservas, efectos del cambio climático, etc. Sin embargo, en algunos de estos trabajos no se considera un tamaño de muestra mínimo para generar modelos estables y fiables; procedimiento que lleva asociado un grave riesgo de que los resultados obtenidos en estos trabajos puedan no ser fiables. Debido a la gran cantidad de factores que afectan al tamaño mínimo de muestra para poder realizar modelos fiables y estables, sugerimos valorar y analizar el tamaño de muestra mínimo debido al efecto drástico que tiene sobre la fiabilidad y estabilidad final de los MDE. Una buena práctica es emplear los MDE realizados con un bajo número de presencias para diseñar trabajos de campo orientados a recolectar más datos, y con estos datos realizar MDE fiables y estables (Pearson et al., 2006a). Esta

78

TAMAÑO MUESTRAL

estrategia no es posible en todas las situaciones, debido al elevado coste en tiempo y dinero para recolectar nuevos datos, especialmente en zonas tropicales. En estas situaciones sugerimos no emplear datos que presenten un número insuficiente tamaño de muestra en función del análisis de tamaño mínimo realizado.

79

SEGUNDA PARTE: Generando pseudo-ausencias y ausencias de grupo fiables. Comparación de técnicas descriptivas y discriminantes.

PSEUDO-AUSENCIAS. VALIDACIÓN

3. Generando pseudo-ausencias y ausencias de grupo fiables. Comparación de técnicas descriptivas y discriminantes 3.1. Resumen Los datos de presencia almacenados en las colecciones de historia natural son la fuente de información disponible más importante sobre la distribución de los organismos. Para generar modelos de distribución de especies (MDE) podemos emplear estos datos y técnicas descriptivas, pero si queremos emplear técnicas discriminantes, necesitaremos generar ausencias no reales (pseudo-ausencias). En este capítulo comprobamos si los MDE generados con pseudo-ausencias son estadísticamente fiables y también si hay diferencias significativas entre los resultados obtenidos con técnicas descriptivas y discriminantes. Los MDE se generaron mediante un conjunto de datos de 5 especies del género Anthurium en Ecuador y 6 métodos diferentes: 2 descriptivos (BIOCLIM y DMG), 3 discriminativos (MARS, Maxent y RLM) y uno mixto (GARP). GARP y Maxent generan sus propias pseudo-ausencias, mientras que para MARS y RLM se generaron dos tipos de ausencias: 1) pseudo-ausencias al azar evitando una zona tampón alrededor de los datos de presencia; y 2) ‘ausencias de grupo’, una forma de generar datos de ausencia que consideramos en principio más fiable que las pseudo-ausencias. Se trata de utilizar como ausencias localidades en las que se han colectado otras especies del grupo pero no la que se está modelizando. Para comparar los resultados y la consistencia de los MDE se calculó el estadístico AUC con un juego de datos independiente. Las principales conclusiones que podemos extraer de este estudio son: 1) las pseudo-ausencias generadas ayudaron a evitar falsas ausencias; 2) los MDE realizados con pseudo-ausencias son fiables; 3) los modelos realizados con ‘ausencias de grupo’ se mostraron más consistentes en líneas generales que los realizados con pseudo-ausencias; y 4) si trabajamos con datos almacenados en colecciones de historia natural, métodos como MARS, Maxent y RLM producen mejores resultados que las técnicas descriptivas, posiblemente porque la información recogida en las pseudo-ausencias o ‘ausencias de grupo’ permite describir el entorno en el que no se desarrolla la especie.

83

Modelos predictivos de riqueza de diversidad vegetal

3.2. Introducción El área de distribución de los organismos constituye la base fundamental para estudios de biogeografía, evolución, conservación, especies invasoras, diseño de reservas, patrones de biodiversidad, efectos del cambio climático, etc. (véase Introducción General); pero la distribución de las especies se conoce de forma poco precisa, especialmente en las zonas tropicales (Raven & Wilson, 1992). El modelado ecológico se ha convertido en una herramienta muy potente que nos permite generar modelos de distribución de especies (MDE) que nos informan sobre la idoneidad de presencia de una especie en áreas donde no disponemos de datos. Estos MDE se obtienen mediante una serie de métodos que relacionan diferentes variables medioambientales y los datos disponibles de la distribución de un organismo. En la mayoría de los casos esta información solo está disponible en las colecciones de historia natural (CHN) (Araújo & Williams, 2000; Barry & Elith, 2006). Estas colecciones registran datos de sólo presencia y no disponemos de información sobre los lugares donde la especie no está presente (ausencias). Algunos de los métodos empleados en modelado ecológico necesitan datos de ausencia para generar MDE (técnicas discriminantes), mientras que otros se sirven exclusivamente de los datos de presencia (técnicas descriptivas), también existen métodos que emplean las dos estrategias (técnicas mixtas). Los modelos generados con cada uno de estos métodos pueden –y de hecho suelen– ser muy diferentes incluso partiendo de los mismos datos (Loisselle et al., 2003; Elith et al., 2006). Por todo esto, debemos ser rigurosos a la hora de aplicar estos resultados y comprobar la fiabilidad de las distintas opciones. Aunque dispongamos de datos de ausencia tomados en el campo es muy complicado comprobar que realmente estamos trabajando con ‘ausencias reales’. “No detectar una especie en un determinado lugar no es equivalente a su ausencia” (MacKenzie et al., 2002; Graham et al., 2004a). Contrastar la presencia de una especie en un lugar es factible y objetivo, pero contrastar su ausencia es más complicado y subjetivo. En trabajos de modelado ecológico el dato de ausencia de una especie sólo es útil cuando refleja condiciones ambientales que no permiten el desarrollo de esa especie (Lütolf et al., 2006). Los errores a la hora de considerar la ausencia de una determinada especie en un área pueden deberse a varios factores (Lütolf et al., 2006), entre los que queremos destacar que no haya sido detectada en el lugar visitado, ya sea por no avistarla, por insuficiente trabajo de campo (tiempo y/o superficie), errores en la identificación, falta de experiencia, insuficiente conocimiento de la fenología o el ciclo biológico de la especie, etc. Estos factores,

84

PSEUDO-AUSENCIAS. VALIDACIÓN

entre otros, han llevado a algunos autores a considerar los datos de ausencia como una función que expresa zonas donde la abundancia de la especie es menor (Brotons et al., 2004) o incluso “datos ambiguos” (Rotenberry et al., 2002) y no verdaderos datos de ausencia. Existen pocos estudios en los que se haya hecho un muestreo concreto para la obtención específica de ausencias reales con el objeto de usarlas en trabajos de modelado ecológico (Elith, 2002; Elith et al., 2006; Feria et al., Under evaluation). Colectar datos de ausencia es una técnica muy costosa en tiempo y dinero, sobre todo si trabajamos en áreas tropicales. Por lo tanto, para poder generar MDE mediante técnicas discriminantes (TDIS) tenemos que recurrir a ausencias no reales (Ponder et al., 2001), generadas al azar dentro del área de estudio, y denominadas generalmente pseudo-ausencias (Zaniewski et al., 2002). La forma en que generamos estas pseudo-ausencias es muy importante, ya que tienen una influencia muy significativa en el resultado final el modelo (Zaniewski et al., 2002; Barry & Elith, 2006). Se han propuesto diferentes formas de generar pseudo-ausencias: 1) al azar y estableciendo una zona tampón alrededor de las presencias donde no se generan pseudo-ausencias (Hirzel et al., 2001); 2) en dos pasos, generando un MDE con una técnica discriminativa y pseudo-ausencias generadas al azar para después generar pseudo-ausencias sólo en las áreas que en el primer paso han dado valores menores de idoneidad (Zaniewski et al., 2002); 3) también en dos pasos, pero utilizando una técnica descriptiva, ENFA, en el primer paso (Engler et al., 2004; Chefaouia & Lobo, 2008); y 4) utilizando datos de distribución de especies con requerimientos ambientales similares –denominadas ‘especies auxiliares’– a las especies objeto de estudio (Lütolf et al., 2006). En todos los casos el peso individual de cada pseudo-ausencia puede ponderarse para alcanzar valores de prevalencia de 0,5, o no (p. ej., Ferrier et al., 2002). Se asume que estas pseudo-ausencias representan verdaderas ausencias. Pero, al igual que sucede con las datos de ausencia tomados en el campo, pueden representar puntos de presencia (falsas ausencias), sobre todo si hablamos de pseudo-ausencias generadas totalmente al azar (Engler et al., 2004). Por lo tanto las pseudo-ausencias pueden ser criticadas como datos arbitrarios y los MDE generados pueden no ser fiables. Existen algunos trabajos que valoran los resultados de los MDE obtenidos con pseudo-ausencias (Hirzel et al., 2001; Zaniewski et al., 2002; Brotons et al., 2004; Engler et al., 2004; Pearce & Boyce, 2006; Chefaouia & Lobo, 2008). Pero no se llega a una conclusión definitiva sobre la utilización de pseudoausencias, aunque se sugiere el empleo de alguna técnica discriminativa frente a alguna descriptiva. Incluso alguno de estos trabajos sugiere continuar investigando

85

Modelos predictivos de riqueza de diversidad vegetal

sobre la consistencia de los modelos realizados con datos de sólo presencia (Pearce & Boyce, 2006). Además de las anteriores, hay otras maneras de generar pseudo-ausencias más reales que las generadas al azar, las aquí denominadas ‘ausencias de grupo’. Para generarlas recurrimos a la única información disponible en la mayoría de las ocasiones: las colecciones de historia natural, que sólo recogen presencias. Estas ausencias de grupo son similares a las ‘inventory pseudo-absences’ empleadas en los métodos multirrespuesta, como por ejemplo MARS-Multirrespuesta (Elith et al., 2006; Elith & Leathwick, 2007). Estos modelos consideran que si un lugar ha sido visitado y una especie no ha sido recolectada en ese lugar se trata como una ‘inventory pseudo-absence’. Esta aproximación ha sido muy poco empleada dentro de los trabajos de modelado ecológico (Lütolf et al., 2006; Ferrier et al., 2007)”. Teóricamente, es lógico pensar que aquellas localidades donde el especialista en un grupo taxómico (familia, género, etc.) ha colectado sin encontrar la especie diana puede ser con cierta probabilidad una localidad en la que no se encuentre dicha especie. Podemos considerar estas localidades como áreas donde la probabilidad de encontrar la especie es baja y, por tanto, una ausencia, que hemos denominado ausencias de grupo (véase 3.3.5 Diseño Experimental). Es también lógico pensar que estas ausencias de grupo tengan un poder de discriminación mayor que las pseudoausencias (Lütolf et al., 2006), lo que resultaría en modelos más fiables. Los objetivos de este capítulo son, por tanto: 1) desarrollar una nueva forma de generar ausencias basada en colecciones de historia natural (sólo presencias); 2) evaluar su consistencia; 3) evaluar la consistencia de modelos obtenidos utilizando pseudo-ausencias generadas al azar; 4) comparar ambas consistencias para decidir si el uso de pseudo-ausencias aleatorias es o no rechazable; 5) comparar los resultados obtenidos con 6 métodos empleados en modelado ecológico para contrastar que técnicas son más consistentes, las discriminantes o las descriptivas; y 6) evaluar las ventajas y desventajas de las diferencias opciones.

3.3. Material y métodos 3.3.1. Área de estudio El área de estudio es el país de Ecuador (Véase Introducción General). Se seleccionó este país principalmente por encontrarse en zonas tropicales, donde los trabajos de recolección de datos son menos frecuentes y los datos de ausencia no son nada habituales.

86

PSEUDO-AUSENCIAS. VALIDACIÓN

3.3.2. Variable dependiente Los datos de sólo presencia empleados en este trabajo provienen de la base de datos TROPICOS (Missouri Botanical Garden; http://mobot.mobot.org/W3T/Search/ vast.htlm). Usamos todos los datos disponibles para el género Anthurium (Araceae) en Ecuador. Al comienzo de este estudio no disponíamos de ausencias documentadas de ninguna de las especies del género. Estas colecciones se convirtieron en archivos ráster con tamaño de píxel de 0,0083º (~1 km). En esta transformación algunas colecciones coinciden en el mismo píxel, por lo que pasan a ser una única presencia (Tabla 3.1). Este género ha sido intensamente estudiado y colectado en Ecuador por su especialista, Thomas B. Croat (783 colecciones y 236 localidades en TROPICOS; Croat, 1979;1983;1992;1995;1999) (Fig. 3.1). Del conjunto de especies del género Anthurium seleccionamos aquéllas para cuales había un mínimo de 18 presencias (véase Primera Parte) colectadas por T. B. Croat, lo que resultó en un total de cinco: A. dolischostachium Sodiro, A. harlingianum Croat, A. propinquum Sodiro, A. truncicolum Engl. y A. versicolor Sodiro. EJECUCIÓN

VALIDACIÓN

ESPECIES

C

P

PC

PS-A

AG

P-V

AG-V

A. dolichostachyum

106

79

47

37

42

32

20

A. harlingianum

39

32

18

19

15

14

22

A. propinquum

39

34

22

26

22

12

21

A. truncicolum

66

52

23

29

23

29

18

126

97

44

37

43

53

29

A. versicolor

Tabla 3.1. Datos de presencia y ausencia de cada una de las especies incluidas en este trabajo. C = colecciones en TROPICOS; P = presencias únicas; PC = presencias únicas de T. B. Croat (presencias para generar el modelo); PS-A = pseudo-ausencias (ausencias para generar los modelos); AG = Ausencias de grupo (ausencias para generar los modelos); P-V = presencias de otros autores (presencias para validar el modelo); AG-V = ausencias de grupo para validar el modelo.

Anthurium es un género de distribución neotropical, el más abundante de su familia (Araceae). En Ecuador habitan 227 táxones, de los cuales 145 son endémicos de este país (Croat, 1999). Las cinco especies seleccionadas para este capítulo presentan distribuciones geográficas, y por tanto apetencias ecológicas, diferentes: 1) A. dolischostachium (0-2000 m) es una especie endémica de la costa y del área

87

Modelos predictivos de riqueza de diversidad vegetal

occidental de los Andes; 2) A. harlingianum (0-2000) crece en la Amazonía y en el piedemonte los Andes orientales; 3) A. propinquum (0-2000 m) es típico de la costa y zona basal de los Andes occidentales. 4) A. truncicolum (0-2500 m) crece en la base de las dos vertientes de los Andes y menos frecuentemente en la costa y la Amazonía; y 5) A. versicolor (0-2500 m) que crece en la base de los Andes, tanto orientales como occidentales, es frecuente en la costa septentrional (Esmeraldas) y esporádico en la Amazonía (Croat, 1999).

Figura 3.1. Puntos de muestreo de Thomas B. Croat en Ecuador incluidos en TROPICOS.

3.3.3. Variables independientes Las variables independientes son las 19 variables bioclimáticas (Hijmans et al., 2005) de WorldClim 1.3 (http://www.worldclim.org), derivadas de la temperatura y la precipitación media mensual y un modelo digital del terreno (Véase Introducción General).

3.3.4. Métodos de modelado ecológico Los MDE se generaron mediante seis métodos diferentes (Véase Introducción General para una descripción detallada de los métodos y la parametrización empleada), que podemos agrupar en:

Técnicas discriminantes (TDIS) Son aquellos métodos que necesitan ausencias para generar MDE. En este caso hemos empleado tres: RLM (regresión logística múltiple), MARS (multivariate adaptive regression splines) (Friedman, 1991) y MAXENT (maximum entropy) (Phillips et al., 2006). El primero de ellos se ha empleando de forma constante en

88

PSEUDO-AUSENCIAS. VALIDACIÓN

modelado ecológico (Augustin et al., 1996; Narumalani et al., 1997; Guisan et al., 1998; Felicísimo et al., 2002). MARS es un método más reciente, pero ha demostrado presentar resultado óptimos (Muñoz & Felicísimo, 2004; Elith et al., 2006; Leathwick et al., 2006b). Para estos dos métodos generamos los MDE empleando dos tipos de ausencias: pseudo-ausencias y ausencias de grupo. MAXENT también se trata de un método recientemente empleado que ha demostrado buenos resultado (Elith et al., 2006; Feria et al., Under evaluation), este método genera sus propias pseudo-ausencias (‘background’), aunque se le puede forzar a utilizar pseudo-ausencias definidas por el investigador.

Técnicas descriptivas (TDES) Sólo emplean la información disponible en las presencias para generar MDE. Empleamos dos métodos: un método de envuelta ambiental, BIOCLIM (Busby, 1986;1991) y un índice de distancia de Gower (Carpenter et al., 1993). Son dos métodos empleados de forma frecuente en modelado ecológico (Carpenter et al., 1993; Kirilenko & Solomon, 1998; Pearson & Dawson, 2003; Vargas et al., 2004; Luoto et al., 2005; Heikkinen et al., 2006a; Heikkinen et al., 2006b; Rahbek et al., 2006; Yesson & Culham, 2006; Luoto et al., 2007).

Técnicas mixtas En este caso empleamos GARP (genetic algorithm for rule-set production) (Stockwell & Peters, 1999) uno de los métodos más empleados en modelado ecológico. Genera un modelo mediante un conjunto de reglas (atómicas, regresión logística, envueltas ambientales, reglas de rango, etc.), empleando algunas de ellas datos de sólo presencia, mientras que otras necesitan datos de presencia/ausencia para los que el programa genera sus propias pseudo-ausencias (‘background’).

3.3.5. Validación de los métodos Para evaluar la consistencia y la fiabilidad de los 8 MDE generados para cada una de las cinco especies calculamos el estadístico AUC (area under the curve ROC) para un juego de datos independientes (véase diseño experimental).

3.3.6. Diseño experimental Para el juego de datos de generación se utilizaron como presencias las colecciones realizadas por T. B. Croat (PC) para cada una de las especies, y como ausencias, para las técnicas que las necesitan, se tomaron al azar entre las ausencias de grupo (AG) generadas o bien se crearon pseudo-ausencias al azar (PSA) (Fig. 3.2).

89

Modelos predictivos de riqueza de diversidad vegetal

Para generar ausencias de grupo (AG) empleamos los registros del género Anthurium en la base de datos TROPICOS, y consideramos AG aquellas localidades donde el especialista del grupo recolectó especies del género Anthurium pero no encontró la especie que estamos modelizando en este momento. Se puede suponer que un especialista colectará todas las especies de su grupo en las localidades que visita. Por lo tanto, podemos considerar aquellas localidades donde no encontró una especie como áreas donde la probabilidad de encontrar esta especie es muy baja y por tanto “ausencias” en el sentido que expresan Brotons et al. (2004) (Tabla 3.1) (Fig. 3.2). En realidad, cuando se realizan campañas de campo con el objetivo de colectar datos de ausencia se procede de una forma similar (Feria et al., En revisión). Por otro lado, generamos pseudo-ausencias al azar (PS-A) mediante la extensión Ramdom Point Generador 1.28 en ArcView 3.2, teniendo en cuenta las siguientes condiciones: 1) para dar la misma importancia en el análisis a las presencias y pseudo-ausencias generamos, aproximadamente, el mismo número de pseudoausencias que de presencias para ejecutar el modelo (Titeux, 2006); 2) para evitar problemas de autocorrelación espacial y cubrir la máxima superficie posible, recogiendo información de las diferentes condiciones ecológicas (Pearson et al., 2006a; Elith & Leathwick, 2007), impusimos una distancia mínima de 30 km entre cada una de las pseudo-ausencias generadas; y 3) con el objetivo de reducir la posibilidad de falsas ausencias, que puedan disminuir la fiabilidad de los MDE (Anderson, 2003; Loisselle et al., 2003), se generó un zona tampón de 30 kilómetros alrededor de cada una de las presencias donde no se permitió que se situaran pseudo-ausencias (Fig. 3.3). En principio, el tamaño de la zona tampón podría ser una medida aleatoria o establecida en función de alguna característica de la especie, como la capacidad de dispersión (Graham & Hijmans, 2006). En nuestro caso, la distancia de 30 kilómetros fue calculada a partir de la información contenida en los mapas en función del tamaño de celda. Se duplicó consecutivamente el tamaño de celda de una serie de MDE obtenidos para esta tesis y se calculó la información contenida en cada uno de los mapas reescalados mediante la fórmula de entropía de Shannon: n

H = ∑ p (i ) ⋅ log p(i ) i =1

Los resultados (Fig. 3.4) muestran que la información contenida en los mapas reescalados se mantiene constante hasta alcanzar un tamaño de píxel de 0,256º (~32 km en el Ecuador), por lo que este valor fue seleccionado como radio del tampón alrededor de cada presencia.

90

PSEUDO-AUSENCIAS. VALIDACIÓN

DATOS PARA LA EJECUCIÓN DEL MDE

PS-A

AG (ausencias)

BIOCLIM & DMG

(pseudo-ausencias)

GARP & MAXENT

MARS & RLM

8 MDE por cada una de las especies DATOS PAR LA VALIDACIÓN

Datos de sólo presencia del género Anthurium

PC (Presencias de T. Croat para una especie)

Validación (AUC)

AG-V (ausencias)

P-V (presencias de otros colectores para una especie) Figura 3.2. Esquema que representa el diseño experimental de este trabajo.

Una vez generados todos los MDE (8 para cada una de las especies) los validamos mediante el estadístico AUC y un juego de datos independiente. Para este conjunto de datos empleamos como presencias las localidades donde autores diferentes al especialista habían colectado la misma especie (P-V), y como ausencias se seleccionaron al azar ausencias de grupo (AG) diferentes a las empleadas para generar el modelo (AG-V) (Tabla 3.1). Para evitar sesgos en la identificación, todas las colecciones de otros autores utilizadas en esta fase del trabajo habían sido revisadas o identificadas por T. B. Croat (Croat, 1999).

91

Modelos predictivos de riqueza de diversidad vegetal

-3.00

Entropía

-3.50 -4.00

1.024

0.512

0.256

0.128

0.064

0.032

0.016

0.008

Figura 3.3. Presencias de Anthurium dolischostachium (puntos amarillos), área tampón de 30 kilómetros (círculos grises) y pseudo-ausencias (interrogaciones blancas) generados para esta especie.

Figura 3.4. Relación entre la información contenida en un mapa y el tamaño de celda. Hasta un tamano de píxel de 0.256º (~32 km) no se produce una disminución de dicha información.

-4.50



=

Anthurium mindese; ◊ = Anthurium dolichostachyum; ∆ =

-5.00

Quercus pyrenaica.; sylvatica

-5.50 -6.00

○ = Fagus

Tamaño de celda

3.4. Resultados 3.4.1. Comparación de los resultados de métodos y técnicas En las figuras 3.5 y 3.6 representamos como ejemplo los MDE obtenidos para la especie con más datos de presencia (Anthurium dolischostachium), en donde se aprecian diferencias importantes entre los diferentes modelos. La Tabla 3.2 muestra los valores de AUC para cada modelo. Los valores medios de AUC más altos se obtienen cuando empleamos RLM, MARS y MAXENT, frente a técnicas que utilizan sólo presencias o GARP. Si analizamos cada una de las especies por separado los resultados son similares.

92

PSEUDO-AUSENCIAS. VALIDACIÓN

Figura 3.5. Mapas de riqueza potencial obtenidos mediante BIOCLIM, DMG, GARP y MAXENT. Los dos primeros solo necesitan presencias, mientras que los dos últimos generan internamente sus propias pseudo-ausencias, denominadas en ambos casos “background points”.

93

Modelos predictivos de riqueza de diversidad vegetal

Figura 3.6. Mapas de diversidad potencial obtenidos utilizando RLM y MARS. Las pseudoausencias son ausencias generadas al azar, mientras que las ausencias de grupo son localidades en las que el especialista del grupo ha colectado otras especies del género pero no la que modeliza en ese momento.

94

PSEUDO-AUSENCIAS. VALIDACIÓN

ESPECIES

BIOCLIM

DMG

GARP

MAXENT

MARS AG

MARS PS-A

RLM AG

RLM PS-A

A. dolichostachyum

0,770

0,804

0,816

0,880

0,909

0,873

0,961

0,853

A. harlingianum

0,786

0,932

0,813

0,951

0,968

0,877

0,929

0,864

A. propinquum

0,750

0,800

0,810

0,988

0,972

0,984

0,851

0,873

A. truncicolum

0,708

0,759

0,602

0,791

0,667

0,655

0,812

0,828

A. versicolor

0,570

0,694

0,609

0,705

0,862

0,635

0,692

0,772

MEDIA

0,716

0,797

0,730

0,855

0,875

0,804

0,849

0,838

Tabla 3.2. Valores del estadístico AUC para las diferentes especies y métodos. En negrita aparecen destacados los dos mejores valores para cada especie. AG = Ausencias de grupo; PS-A = Pseudo-ausencias.

3.4.2. Comparación entre ausencias de grupo y pseudo-ausencias Con MARS, cuatro de los cinco MDE generados con ausencias de grupo producen modelos más consistentes (mayor valor de AUC), que los generados con pseudoausencias. Mientras que con RLM, tres de los cinco modelos presentan mayor consistencia utilizando pseudo-ausencias (Tabla 3.2). Con ambos métodos el valor medio de AUC es mayor para los modelos generados con ausencias de grupo (Tabla 3.2).

3.5. Discusión 3.5.1. Comparación de los resultados de métodos y técnicas Los mayores valores de AUC, que reflejan modelos más consistentes y fiables, se obtienen con los métodos que emplean presencias y ausencias (MARS, RLM y MAXENT), algo ya documentado por otros autores (Guisan et al., 2002; Brotons et al., 2004; Segurado & Araújo, 2004). En estos métodos las ausencias ayudan a definir las áreas donde no se desarrolla la especie (Brotons et al., 2004), especialmente si el área de trabajo es pequeña (Lobo, 2008). Si las ausencias (pseudo-ausencias, ausencias de grupo, etc.) que empleamos reflejan áreas poco favorables para el desarrollo de la especie, los métodos pueden obtener información extra, mejorando sus resultados (Hirzel et al., 2001). Pero cuando se trata de falsas ausencias pueden inducir a errores y disminuir el poder predictivo de los modelos (Solow, 1993; Welsh et al., 1996a). Además, las técnicas descriptivas se ven más afectadas por los posibles errores de los datos de partida (Guisan et al., 2007b). Los métodos que ofrecen peores resultados son algunos de los más utilizados en el pasado: GARP, DMG y BIOCLIM. Estos resultados están en consonancia con los obtenidos por Elith et al. (2006), quienes ponen de manifiesto que los algoritmos de nueva generación, como MARS o MAXENT ofrecen mejores resultados.

95

Modelos predictivos de riqueza de diversidad vegetal

Si analizamos los mapas de hábitat potencial que hemos generado para Anthurium dolischostachium (Fig. 3.5 y 3.6), y tenemos en cuenta que en este caso los algoritmos que ofrecen mayores valores de AUC son RLM, MARS y MAXENT, parece evidente que los menores valores de AUC obtenidos con DMG y BIOCLIM se deben a un problema de sobreajuste (Engler et al., 2004; Chefaouia & Lobo, 2008), provocado por un incremento en el error de omisión. Sin embargo, con GARP sucede todo lo contrario, ya que esta técnica sobrepredice la distribución de esta especie al producirse un incremento del error de comisión (Hernandez et al., 2006). En el caso de DMG y BIOCLIM, este efecto parece deberse a la no utilización de ausencias y, por tanto, de información climática de los lugares desfavorables (Pearson et al., 2006b; Chefaouia & Lobo, 2008). DMG es el método descriptivo que obtiene los valores de AUC más cercanos a los valores obtenidos con las técnicas discriminantes (Tabla 3.2). No obtiene mejores resultados que los MDE generados con MAXENT o con MARS y RLM mediante ausencias de grupo, pero para algunas especies sí obtiene mejores resultados para los MDE generados mediante pseudo-ausencias con MARS (A. harlingianum, A. truncicolum y A. versicolor) y RLM (A. harlingianum). La utilización de este método puede ser adecuada cuando dispongamos de pocas presencias para una determinada especie, de esta forma se puede dirigir una nueva campaña de colección con la que realizar modelos más fiables. MARS obtiene los mejores resultados si empleamos ausencias de grupo (valor medio de AUC = 0,875), sin embargo la consistencia de los MDE generados con pseudo-ausencias disminuye considerablemente (0,804). La RLM se comporta de una forma más estable, y prácticamente no existen diferencias en el valor de medio AUC entre los modelos generados con ausencias de grupo (0,849) y pseudo-ausencias (0,838). Los modelos más consistentes se obtienen con MARS, RLM y MAXENT, por lo que la utilización de cualquiera de estos métodos estaría justificada cuando trabajamos con datos almacenados en colecciones de historia natural. MARS, en nuestra opinión, tiene como ventaja que los modelos son fácilmente interpretables, tanto desde el punto de vista estadístico como ecológico (Muñoz & Felicísimo, 2004; Austin, 2007; Elith & Leathwick, 2007), mientras que los generados con MAXENT no lo son tanto. Como contrapartida, en MAXENT no es necesario generar pseudo-ausencias, se ejecuta con un solo software, sus resultados son más estables, y además parece tener muy buenos resultados para tamaños de muestra pequeños (Hernandez et al., 2006; Pearson et al., 2006a; Phillips et al., 2006; Papeş & Gaubert, 2007b; Wisz et al., 2008). Se puede concluir que el empleo de MARS está indicado cuando queremos

96

PSEUDO-AUSENCIAS. VALIDACIÓN

realizar un análisis en detalle y tenemos datos para generar ausencias de grupo, y el de MAXENT cuando queremos modelizar gran cantidad de especies y no necesitamos un análisis detallado, o para aquellas especies que tienen pocas presencias, como una base para realizar nuevas campañas de colección (Pearson et al., 2006a). La regresión logística es un método que asume una relación lineal entre la variable dependiente y las independientes, algo que no siempre es cierto en la naturaleza, por lo que parece más adecuado el uso de MARS o Maxent.

3.5.2. Comparación entre ausencias de grupo y pseudo-ausencias Nuestros resultados indican que los MDE generados con pseudo-ausencias son lo suficientemente fiables para ser empleados en trabajos de modelado ecológico. Se obtienen unos valores de AUC elevados, similares a los obtenidos con modelos realizados con ausencias de grupo. Además, en ambas situaciones (MDE generados con pseudo-ausencias o ausencias de grupo) 8 de los 10 MDE generados tienen un AUC por encima de 0,7, un valor considerado en la bibliografía como suficiente para emplear MDE en trabajos de conservación (Pearce & Ferrier, 2000; Elith & Leathwick, 2007), aunque debe tomarse en consideración lo expuesto por Lobo et al. (2007) y Peterson et al. (2008b). Estos valores elevados de AUC pueden ser debidos a que se han minimizado las falsas ausencias al excluirse zonas tampón próximas a las presencias conocidas, que en principio son áreas propicias para el desarrollo de la especie. Se consigue así incluir también en el modelo la información sobre las áreas no favorables, que permiten generar modelos más reales. Por otro lado, hemos comprobado que una forma fiable de generar ausencias si partimos de datos de sólo presencia es elegir aquellas localidades visitadas por el especialista del grupo en las que la especie diana no fue colectada (ausencias de grupo). Hemos comprobado como los MDE generados con estas ausencias, en líneas generales, tienen mayor consistencia que los MDE generados con pseudo-ausencias. Lamentablemente,

este

tipo

de

análisis

sólo

lo

podremos

realizar

cuando

dispongamos de datos suficientes. En los casos en los que sólo disponemos de información de una especie, o de pocas presencias, recurrir a pseudo-ausencias generadas al azar delimitando una zona tampón parece una buena solución. Una ventaja adicional de los modelos generados con pseudo-ausencias es que con ellas se puede muestrear toda el área de estudio, lo que aporta información muy útil a la hora de construir el modelo. Esta puede ser la razón por la que los MDE generados con pseudo-ausencias pueden presentan mejores resultados que los MDE generados con AG en algunas ocasiones (Elith & Leathwick, 2007; Chefaouia & Lobo, 2008). También es importante tener en cuenta que la posibilidad de crear falsas ausencias

97

Modelos predictivos de riqueza de diversidad vegetal

disminuye según aumenta la extensión del área de estudio (Lobo, 2008). La conclusión es que es preferible emplear pseudo-ausencias si el número de AG que podemos generar es escaso. En este estudio hemos utilizado el género Anthurium como caso problema. Existen pocos juegos de datos tan completos como éste y con un trabajo de campo tan exhaustivo por el especialista del género. Pero podemos generar AG empleando otros juegos de datos más sencillos y comunes en las colecciones de historia natural: 1) seleccionar grupos más amplios (por ejemplo familias); ó 2) considerar ausencias aquellas localidades que han sido visitadas por cualquier colector y donde no se ha colectado la especie diana, paralelamente a las ‘inventory pseudo-absence’ de los métodos multirrespuesta (Elith & Leathwick, 2007).

3.5.3. Delimitación de áreas tampón al generar pseudo-ausencias al azar En este trabajo proponemos crear una zona tampón alrededor de los datos de presencias reales en donde no permitimos que se generen pseudo-ausencias. Se plantea como una forma rápida de disminuir la posibilidad de falsas ausencias, ideal en proyectos en los que se trabaja con un gran número de organismos. Los resultados obtenidos en este capítulo demuestran buenos resultados. Aunque si trabajamos con un pequeño número de especies y disponemos de datos para crear suficientes ausencias de grupo, éstas se muestran más eficaces y se obtienen MDE más consistentes, aunque son más costosas en cuanto al tiempo de realización.

3.5.4. Comparación de los resultados entre especies Los MDE de especies con rangos y tolerancias medioambientales amplias suelen ser menos consistentes que los MDE de especies con un rango de distribución más restringido y tolerancias medioambientales más limitadas (Manel et al., 2001; McPherson et al., 2004; Luoto et al., 2005; Elith et al., 2006; Feria et al., En revisión). Este hecho se pone de manifiesto en nuestro trabajo, donde se obtienen los peores resultados para todos los métodos con las dos especies que presentan una distribución amplia (Anthurium truncicolum y A. versicolor), que se desarrollan en ambas vertientes de los Andes. Mientras que para las otras tres especies que presentan una distribución más restringida se obtienen MDE con una consistencia sensiblemente más elevada. Este comportamiento es independiente del tamaño de muestra, puesto que se obtienen buenos resultados con las tres especies que presentan tamaños de muestra relativamente pequeños: Anthurium harlingianum (18 PC), A. propinquum (22 PC) y A. truncicolum (23 PC). En general, todos los

98

PSEUDO-AUSENCIAS. VALIDACIÓN

métodos generan MDE con una consistencia alta por encima de un tamaño muestral mínimo (véase Primera Parte), a partir del cual parece tener más importancia la ecología de la especie que el tamaño de muestra (Hernandez et al., 2006). Otra conclusión que podemos extraer es que con las especies con las que se obtienen resultados pobres con una técnica, se obtienen resultados igualmente pobres con otras técnicas, algo que ya apuntaron Guisan & al. (2007b).

3.5.5. Conclusiones La principal conclusión que se puede extraer de este capítulo es que cuando trabajamos con colecciones de historia natural los MDE generados con LMR, MARS y MAXENT utilizando ausencias de grupo (AG) o pseudo-ausencias con zonas tampón, son robustos y fiables. Cada una de las opciones examinadas en este capítulo presenta sus ventajas y desventajas, por lo que se sugiere su empleo en trabajos de modelado ecológico, siempre teniendo en cuenta las particularidades de cada uno de opciones. Estas particularidades han sido examinadas en este capítulo y se sugiere el empleo de las diferentes opciones en función de los datos disponibles y los objetivos del trabajo. Podemos destacar las más importantes: 1) usar técnicas discriminantes frente a descriptivas; 2) emplear ausencias de grupo frente a pseudo-ausencias si nuestros datos de partida nos lo permiten; 3) emplear pseudo-ausencias con una zona tampón como una forma de evitar posibles falsas ausencias, si nuestros datos no nos permiten generar suficientes ausencias de grupo; 4) utilizar MARS cuando nuestro objetivo es realizar un análisis en detalle y tenemos datos para generar suficientes ausencias de grupo; y 5) aplicar MAXENT cuando trabajamos con gran cantidad de especies y no necesitamos un análisis detallado, o para aquellas especies que tienen pocas presencias. Otras conclusiones que hemos extraído de este capítulo son: 1) los datos de ausencia ayudan a definir las áreas donde no se desarrolla la especie; 2) DMG y BIOCLIM parecen tener problemas de sobreajuste, aunque DMG es la técnica descriptiva que mejores resultados obtiene; 3) GARP parece tener problemas de sobrepredicción; 4) MARS es menos estable frente a las pseudoausencias que RLM; y 5) por encima de un tamaño muestral mínimo parece tener más importancia la ecología de la especie que el tamaño de muestra. Se propone como futura línea de investigación contrastar los MDE generados con ausencias de grupo o pseudo-ausencias y zonas tampón con aquellos MDE generados mediante otro tipo de pseudo-ausencias: totalmente al azar, pseudo-ausencias ponderadas, etc.

99

TERCERA PARTE: Modelando patrones de diversidad. Comparación de diferentes métodos, estrategias, aproximaciones y corrientes.

PATRONES DE DIVERSIDAD. VERIFICACIÓN

4. Modelando patrones de diversidad. Comparación de diferentes métodos, estrategias, aproximaciones y corrientes 4.1. Resumen El conocimiento de los patrones espaciales de la biodiversidad es un criterio básico para establecer el diseño de una red de Espacios Naturales Protegidos (ENP). Aunque las colecciones almacenadas en herbarios recogen una cantidad enorme de información sobre la distribución de las plantas, esos datos están dispersos y no proporcionan una cobertura espacial completa. Sin embargo, las técnicas de modelado ecológico se pueden aplicar a estos datos generando modelos que reflejan la distribución potencial de una determinada especie en función de un determinado grupo de variables ambientales independientes. Estos modelos se conocen como: modelos de distribución de especies (MDE) y proporcionan una cobertura espacial completa. La combinación de estos MDE a nivel específico nos permite generar mapas de riqueza (alfa diversidad) a nivel de comunidad. A la hora de realizar modelos a nivel específico y comunitario existen una amplia variedad de métodos, estrategias, aproximaciones y corrientes. Para obtener resultados fiables todas estas opciones deben ser evaluadas rigurosamente, y con este objetivo construimos MDE para 397 especies (nivel específico) de seis familias de plantas vasculares en Ecuador, y nueve mapas de riqueza específica (nivel comunitario) empleando cinco métodos (DMG, GARP, MARS, MAXENT y RLM), diferentes estrategias, aproximaciones y corrientes. La consistencia a nivel específico se ha evaluado mediante el estadístico AUC (área bajo la curva ROC). A nivel de comunidad, los nueve mapas de alfa biodiversidad se han comparado entre sí mediante el coeficiente correlación de Pearson. A su vez, estos mapas fueron comparados con datos de los patrones altitudinales de biodiversidad obtenidos por un especialista. Los modelos de MARS presencia/ausencia, MAXENT y un modelo de consenso obtuvieron los valores más elevados de AUC y sus patrones altitudinales de biodiversidad son similares a los que se observan en la realidad; se aconseja su utilización en trabajos relacionados con la conservación y los patrones de biodiversidad. La colaboración con otros especialistas (botánicos, ecólogos, zoólogos, etc.) se hace imprescindible en el futuro del modelado ecológico. La continuación del Chocó colombiano y los bosques húmedos de la región tropical de los Andes (1000 – 2500 m) presentan los mayores valores de diversidad

103

Modelos predictivos de riqueza de diversidad vegetal

vegetal potencial y deben, por tanto, ser una prioridad en el diseño de estrategias de conservación en Ecuador.

4.2. Introducción 4.2.1. Área de estudio Ecuador es uno de los países más biodiverso de todo el Planeta (véase Introducción General). Alberga más de 16.000 especies de plantas vasculares (Jørgensen & León-Yánez, 1999; Kareiva & Marvier, 2003), de las que más de 4.000 son endémicas del país (Valencia et al., 2000), y alrededor de 2.400 especies de vertebrados. La tendencia mundial a la pérdida de biodiversidad (Pimm et al., 1995; Chapin et al., 2000) implica un grave problema en Ecuador, especialmente en las zonas menos elevadas del suroeste del país (Best & Kessler, 1995).

4.2.2. Diseño de Espacios Naturales Protegidos (ENP) Conservar áreas con los mayores índices de biodiversidad es una estrategia habitual a la hora de plantear el diseño de una red de Espacios Naturales Protegidos -ENP- (Margules & Pressey, 2000; Myers et al., 2000). Desafortunadamente, nuestro conocimiento directo sobre la distribución de organismos es escaso y no permite saber exactamente los patrones espaciales de la biodiversidad. Por lo tanto, los encargados de diseñar ENP tienen que emplear otro tipo de datos que los sustituyan, tales como imágenes derivadas de fotografía aérea o imágenes de satélites, o indicadores ambientales como mapas generados con datos de clima, topografía, las cualidades del suelo, etc. (Margules & Pressey, 2000; Sarkar & Margules, 2002; Wilson et al., 2005; Ferrier et al., 2007). Una estrategia complementaria es utilizar la enorme cantidad de datos almacenados en las colecciones de la historia natural (Skov & Borchsenius, 1997; Ferrier, 2002; Loisselle et al., 2003; Graham et al., 2004a). Aunque su empleo presenta algunas desventajas, entre las que se pueden destacar la dispersión y cobertura espacial defectuosa de los datos (Ferrier, 2002). El primero de los incovenientes parece solucionarse, poco a poco, gracias a los avances de Internet, que se está convirtiendo en un gran sistema de información sobre la biodiversidad y está facilitando la accesibilidad a los datos (Bisby, 2000; Soberon & Peterson, 2004; Guralnick et al., 2007). Aunque es evidente la necesidad de seguir colectado datos, sobre todo en zonas tropicales (véase Primera Parte). El segundo problema, como veremos posteriormente, puede solventarse gracias al empleo de técnicas de modelado ecológico, que permiten generar modelos de distribución de especies

104

PATRONES DE DIVERSIDAD. VERIFICACIÓN

(MDE), que definen la distribución potencial de una determinada especie, en función de un determinado grupo de variables ambientales, y con una cobertura espacial completa del área de estudio.

4.2.3. La utilización de datos de herbario Los datos procedentes de herbarios tienen otros inconvenientes (Margules & Pressey, 2000; Soberon & Peterson, 2004; Rowe, 2005; Edwards et al., 2006; Papeş & Gaubert, 2007b), como el desconocimiento que ofrecen sus datos en cuanto a la fiabilidad de su georreferenciación o identificación. Para evitar estos problemas, al menos parcialmente, se ha propuesto trabajar con pequeños grupos taxonómicos bien limitados y conocidos, que reciben el nombre de "grupos indicadores" (Howard et al., 1998), puesto que este proceso facilita la verificación y la corrección de los datos. No existe un consenso total en cuanto la utilización de estos indicadores (Flather et al., 1997). Algunos trabajos obtienen diferentes patrones de biodiversidad en función de los diferentes grupos indicadores empleados (Kareiva & Marvier, 2003; Loisselle et al., 2003), mientras que en otros los resultados son más constantes (Howard et al., 1998). En este trabajo empleamos seis grupos de plantas vasculares como grupos indicadores

(Pereira & Cooper, 2006): el género Anthurium y las familias

Bignoniaceae, Bromeliaceae, Gesneriaceae, Lauraceae y Papilonaceae. Fueron seleccionados por cumplir los siguientes criterios: 1) las plantas son la base de los ecosistemas terrestres (productores primarios) y por lo tanto influyen en el resto de organismos que constituyen un ecosistema; 2) estos grupos han sido revisados recientemente por su especialista, lo que nos garantiza la fiabilidad de sus identificaciones; 3) reflejan una amplia gama de relaciones florísticas e incluyen una amplia diversidad de biotipos, desde hierbas hasta árboles; 4) son especies nativas de Ecuador; y 5) en su conjunto representan una cobertura ambiental y geográfica completa de Ecuador.

4.2.4. Opciones y métodos de modelado ecológico Con estos datos y un conjunto de variables independientes se pueden generar MDE individuales para cada una de las especies (modelado a nivel específico) y posteriormente se pueden combinar para obtener mapas de alfa diversidad (modelado a nivel de comunidad) (Ferrier & Guisan, 2006). El modelado ecológico es una disciplina en continua expansión, en la que continuamente aparecen nuevas propuestas y métodos (Elith et al., 2006). Trabajos previos demuestran que la elección del método a nivel específico es una cuestión clave, que puede afectar

105

Modelos predictivos de riqueza de diversidad vegetal

drásticamente a los modelos finales de riqueza de biodiversidad (Loisselle et al., 2003; Thuiller et al., 2004; Pearson et al., 2006b). Pero la selección del método más apropiado puede ser un proceso desalentador y difícil (Austin, 2002; Segurado & Araújo, 2004; Austin, 2007), y no existe un método que sea mejor para todas las situaciones (Segurado & Araújo, 2004; Johnson & Gillingham, 2005). Por ello, en este capítulo nos planteamos realizar una comparación de diferentes métodos y conocer cuál de ellos se ajusta mejor a nuestros datos y los objetivos de este estudio. El proceso de modelado ecológico a nivel de comunidad se puede realizar empleando diversas estrategias (Ferrier & Guisan, 2006), aproximaciones (Wilson et al., 2005) y corrientes (Wilson et al., 2005). Explicaremos más detenidamente estas opciones en la sección de "Material y métodos". Estas opciones podrían tener un efecto crucial en los resultados finales, pero se han evaluado escasamente. Ferrier & Guisan (2006) ponen de manifiesto la necesidad de evaluar estas diferentes opciones para modelar la diversidad a nivel de comunidad. En este trabajo utilizamos datos de herbario y variables ambientales para obtener un conjunto de MDE a nivel específico mediante cinco métodos diferentes. A continuación, combinamos estos MDE para obtener una estimación espacial de la riqueza específica (nivel de comunidad) que puede ser útil para realizar un diseño de reservas (Carroll et al., 2001; Raxworthy et al., 2003; Ortega-Huerta & Peterson, 2004).

Para

ello

empleamos

una

combinación

de

diferentes

estrategias,

aproximaciones y corrientes dentro del modelado en el nivel de comunidad. Esto nos permitirá comparar todas las opciones y ver cuales son las más apropiadas en trabajos relacionados con la

conservación y los

patrones espaciales

de la

biodiversidad. Una forma eficaz y frecuentemente empleada en la bibliografía de evaluar los factores que estructuran la distribución de especies es el análisis de gradientes altitudinales (Fleishman et al., 2000; Heaney, 2001; Rickart, 2001; Vetaas & Grytnes, 2002; Bhattarai et al., 2004; McCain, 2004; Rahbek, 2005; Rowe, 2005; Ah-Peng et al., 2007; Romdal & Grytnes, 2007), aunque no tenemos constancia de su empleo en trabajos de modelado ecológico, y consideramos que ésta es la primera vez que se utiliza en este tipo de trabajos. La evaluación la realizaremos mediante la comparación de los patrones altitudinales de diversidad de los modelos de alfa diversidad y los obtenidos por un especialista en la realidad (Kessler, 2002).

106

PATRONES DE DIVERSIDAD. VERIFICACIÓN

4.2.5. Objetivos Los objetivos de este capítulo son: 1) realizar MDE para 397 especies pertenecientes a un género y cinco familias de plantas vasculares en Ecuador por medio de cinco métodos, usando colecciones de herbario; 2) evaluar la consistencia de estos métodos a nivel específico; 3) generar mapas potenciales de riqueza específica de Ecuador usando diversas estrategias, aproximaciones y corrientes de modelado a nivel de comunidad; 4) comparar estos mapas, evaluando las ventajas y debilidades de las diferentes opciones; 5) obtener los patrones altitudinales de biodiversidad de estos mapas y compararlos con datos reales.

4.3. Material y métodos 4.3.1. Área de estudio El área del estudio seleccionada es la República del Ecuador (Véase Introducción General).

4.3.2. Variable dependiente Taxon

Nº de Especies

Colecciones/Presencias

Nº medio de colecciones y presencias por especie

Anthurium

53

2513 / 1754

47,41 / 33,09

Bignoniaceae

11

415 / 306

37,72 / 27,81

Bromeliaceae

89

3030 / 2526

34,04 / 28,38

Gesneriaceae

93

4977 / 3884

53,51 / 41,76

Lauraceae

28

1122 / 826

40,07 / 29,5

Papilionaceae

123

5007 / 3887

40,70 / 31,60

TOTAL

397

17064 / 13183

42,98 / 33,21

Tabla 4.1. Número de especies, colecciones, presencias únicas, media de colecciones por especie y media de presencias por especie para cada una de los seis táxones incluidos en este trabajo.

Empleamos todas las colecciones de los grupos seleccionados (Anthurium sp., Bignoniaceae, Bromeliaceae, Gesneriaceae, Lauraceae y Papilionaceae) almacenados en la base de datos TROPICOS (Missouri Botanical Garden, Tabla 4.1). Excluimos aquellas especies que presentaban menos de 15 presencias (véase Primera Parte). Especialistas del Missouri Botanical Garden (St. Louis, EEUU) y del Real Jardín

107

Modelos predictivos de riqueza de diversidad vegetal

Botánico (CSIC, Madrid, España) revisaron todas las colecciones y verificaron los datos

de

localización

(latitud/longitud).

Si

se

detectaba

algún

error

en

la

georreferenciación de los datos se corregía, si era posible, o se eliminaba. Posteriormente realizamos un análisis estadístico para la detección de casos atípicos (‘outliers’). Estos casos atípicos nos pueden informar sobre posibles errores en la georreferenciación

o

identificación.

Todos

estos

casos

fueron

analizados

individualmente y, si no ofrecían suficiente fiabilidad, fueron eliminados del análisis. Un total de 17064 colecciones fueron incluidas en un SIG y trasformadas en una capa en formato ráster (tamaño de la celda: 0,00833 grados, ~1 kilómetro en el ecuador). Algunas colecciones de una misma especie pueden coincidir en una misma celda, por lo que constituyen una única presencia, lo que dio como resultado final un total de 13183 presencias únicas.

4.3.3. Variables independientes Utilizamos las 19 variables bioclimáticas de WorldClim 1.3 (Hijmans et al., 2005) (http://www.worldclim.org) como variables independientes. Todas las variables derivan de la temperatura y precipitación medias mensuales y un modelo digital del terreno (Véase Introducción General).

4.3.4. Métodos de modelado ecológico a nivel de especie En este análisis empleamos cinco métodos de modelado diferentes: regresión logística múltiple (RLM) y ‘multivariate adaptive regression splines’ (MARS) son técnicas discriminantes y por lo tanto necesitan datos de presencia y ausencia. ‘Genetic algorithm for rule-set prediction’ (GARP), el método de distancia métrica de Gower (DMG) y el método de máxima entropía (MAXENT) son descriptivos o mixtos y solo necesitan datos de presencia (Véase Introducción General para una explicación detallada de los métodos). Para las técnicas discriminantes se generaron pseudoausencias (véase segunda parte). Los resultados finales de estos métodos son mapas que presentan diferentes valores (probabilidad, puntuación, índice, etc.). La RLM generan valores de la probabilidad; MARS genera puntuaciones (scores) sin un límite definido, por lo que fueron constreñidos a un valor comprendido entre 0 y 1 mediante la función ‘logit’; MAXENT genera mapas con valores comprendidos entre 0 y 100; GARP genera mapas de presencia/ausencia, pero generamos 10 modelos (Véase Introducción General) que sumamos para obtener un mapa final con valores comprendidos entre 0 y 10; finalmente, los mapas generados con DMG tienen un máximo de 100 y no

108

PATRONES DE DIVERSIDAD. VERIFICACIÓN

tienen un mínimo definido. Todos los mapas fueron reescalados a mapas con valores comprendidos entre 1 y 0 mediante la siguiente ecuación: Valor reescalado = (Valor de la celda - Mínimo) / (Máximo - Mínimo) La consistencia de los MDE idealmente debe ser validada con un conjunto de datos independientes al conjunto de datos con los que ejecutamos los MDE. En nuestro trabajo este procedimiento fue inviable debido al bajo número de colecciones por taxon: el 94% de las especies almacenadas en la base de datos TROPICOS para Ecuador presentan menos de 20 colecciones y solo un 1% tienen más de 100 colecciones (Loiselle et al., 2008). Éste es un problema habitual en los trabajos que se llevan a cabo en zonas tropicales (Raven & Wilson, 1992). Por lo tanto, nosotros verificamos la consistencia de los MDE mediante el mismo conjunto de datos con los que ejecutamos los MDE. Este procedimiento representa una limitación importante en aquellos modelos que intentan predecir la distribución de una determinada especie en el exterior de sus rangos de distribución conocidos. Sin embargo es un procedimiento razonable para los modelos que intentan explicar las distribuciones actuales (Segurado & Araújo, 2004). Aunque, como veremos posteriormente, presenta unas limitaciones importantes. Para medir la consistencia de los modelos empleamos el estadístico AUC (área bajo la curva de ROC). Las ventajas principales de este estadístico son: 1) mide consistencia a través de todos los valores de umbral posibles; 2) es independiente de la prevalencia de los datos, y 3) permite comparar todos los métodos de modelado empleados usados, independientemente de su escala.

4.3.5. Opciones de modelado ecológico a nivel de comunidad Existen muchas opciones diferentes (Tabla 4.2) para generar mapas de riqueza potencial

específica

a

nivel

de

comunidad.

Las

diferentes

estrategias,

aproximaciones, y corrientes pueden ser combinados y sus respectivos resultados comparados. Veamos las opciones más comunes en la bibliografía:

Estrategias Ferrier & Guisan (2006) describen tres estrategias diferentes para generar modelos en el nivel de comunidad: 1) ‘agrupar primero, predecir después’ ('assemble first, predict later'), en la que los datos se clasifican primero y luego se ordenan o agregan para producir entidades a nivel de comunidad (p. ej.,Gelfand et al., 2005). 2) ‘Predecir primero, agrupar después’ ('predict first, assemble later'), en la que se modeliza cada especie individualmente y después los mapas se clasifican, ordenan o

109

Modelos predictivos de riqueza de diversidad vegetal

agregan; y finalmente 3) ‘agrupar y predecir al mismo tiempo’ ('assemble and predict together'), donde todas las especies se modelan y agregan simultáneamente (p. ej., Leathwick et al., 2006b). En este trabajo seleccionamos las dos estrategias más frecuentes en la bibliografía: las estrategias 2 y 3. Los mapas de riqueza a nivel de comunidad en el caso de la estrategia 2 (‘predecir primero, agrupar después’) se han obtenido combinado los MDE de los diferentes métodos. La estrategia 3 (‘agrupar y predecir al mismo tiempo’) requiere procedimientos y métodos específicos. Nosotros hemos empleado el método MARS-Multirrespuesta (Elith & Leathwick, 2007). Los métodos multirrespuesta asumen como ausencias aquellos lugares donde la presencia de una determinada especie no ha sido registrada, pero sí la presencia de alguna de las especies incluidas en el análisis. En el resultado final estos métodos utilizan las mismas variables para todas las especies, pero estiman coeficientes diferentes para cada una de ellas (Elith & Leathwick, 2007).

Aproximaciones y corrientes A la hora de aplicar la estrategia 2 (‘predecir primero, agrupar después’) existen dos aproximaciones posibles (Wilson et al., 2005): 1) emplear los valores que directamente se obtienen en los mapas de modelado ecológico (probabilidades, puntuaciones, índices, etc.); o bien 2) reclasificar estos valores y obtener mapas binarios de presencia/ausencia (1 = presencia, 0 = ausencia). En la aproximación 1 (‘mapas con valores originales’) combinamos todos los mapas de todas las especies incluidas en el análisis. El mapa final es una estimación del número total de especies presentes en una determinada zona. Algunos autores sugieren que la única posibilidad correcta desde el punto vista estadístico, a la hora de obtener mapas de biodiversidad potencial, es la suma de aquellas predicciones expresadas en términos de probabilidad, siendo el mapa final un estimador del número total de especies presentes (Gelfand et al., 2005; Wilson et al., 2005). Esta aproximación permite dos corrientes diferentes: 1) sumar los mapas empleando un único método, en la mayoría de las situaciones el mejor de los métodos (el que presenta mayor consistencia); y 2) emplear más de un método para construir un "modelo del consenso" (Araújo & New, 2007; Marmion et al., 2008). En el caso de la aproximación 2 (‘mapas de presencia/ausencia’), los mapas originales son reclasificados en mapas de presencia/ausencia, que se suman para obtener un mapa final de riqueza especifica potencial. La reclasificación del mapa se realiza mediante un valor umbral, para lo que existen dos corrientes diferentes (Wilson et al., 2005): 3) el valor umbral se elige antes de generar los mapas (‘a priori'); y 4) el umbral se determina una vez realizados los mapas (‘a posteriori').

110

PATRONES DE DIVERSIDAD. VERIFICACIÓN

Liu et al. (2005) y Jiménez-Valverde & Lobo (2007) presentan diferentes posibilidades para seleccionar umbrales o puntos de corte. La selección de un umbral depende del objetivo de nuestro trabajo. Si el interés de nuestro estudio es la observación de patrones espaciales, entonces es aconsejable sobre-predecir. Sin embargo, si la conservación es el interés principal de nuestro trabajo, parece menos idóneo clasificar una presencia conocida como ausencia, que viceversa (Loisselle et al., 2003; Jiménez-Valverde & Lobo, 2007; Papeş & Gaubert, 2007b).

4.3.6. Mapas de riqueza específica (diversidad alfa) potencial Como consecuencia de la combinación de las diferentes opciones de modelado ecológico a nivel de comunidad obtuvimos 9 mapas riqueza específica, que podemos agrupar de la siguiente manera: 1) Corriente 1: 1 método. La suma de todos los MDE (397 especies) reescalados (valores comprendidos entre 0 y 1) de cada método (LMR, MARS, GARP, DMG, y MAXENT) por separado. Por tanto obtuvimos 5 mapas diferentes de riqueza específica, uno por método. ESTRATEGIAS

APROXIMACIONES

CORRIENTES

ESTE TRABAJO

_

_

_

Corriente 1

Suma de los MDE de 5 métodos por separado

Estrategia 1 (agrupar primero, predecir después)

Aproximación 1 (mapas con valores originales)

Estrategia 2 (predecir primero, agrupar después)

Aproximación 2 (mapas de presencia/ausencia)

(1 método)

(modelo de consenso)

Modelo de consenso de todos los métodos

Corriente 3

DMG

(umbral a priori)

(Umbral = 95)

Corriente 2

Corriente 4 (umbral a posteriori)

Estrategia 3 (agrupar y predecir al mismo tiempo)

_

_

Mejor método (Umbral)

MARSMultirrespuesta

Tabla 4.2. Diferentes opciones de modelado ecológico (estrategias, aproximaciones y corrientes) a nivel de comunidad y los ejemplos empleados en este trabajo.

111

Modelos predictivos de riqueza de diversidad vegetal

2) Corriente 2: modelo de consenso promedio. Como ejemplo de modelo consenso hemos elegido esta opción que parece presentar los mejores resultados de acuerdo con Araújo & New (2007) y Marmion et al. (2008). Para cada una de las especies se hizo la media de todos los MDE reescalados disponibles (DMG, GARP, LMR, MARS, MARS-Multirrespuesta y MAXENT) y se obtuvo un modelo de consenso para cada una de las 397 especies. Posteriormente se agregaron todos los modelos de consenso para obtener un mapa de riqueza. 3) Corriente 3: umbral a priori. Como un ejemplo de esta corriente seleccionamos un caso que se emplea habitualmente en la bibliografía. En los diferentes trabajos publicados hasta la fecha se considera que el umbral óptimo para los mapas obtenidos con DMG es un valor de 95 (Carpenter et al., 1993). Utilizamos este valor para obtener mapas de presencia/ausencia para cada una de las especies y posteriormente los sumamos para obtener un mapa de diversidad alfa. 4) Corriente 4: umbral a posteriori. En este caso empleamos como ejemplo el método que ofrezca los mejores resultados para el estadístico AUC. De acuerdo con Liu et al. (2005), se seleccionó como punto óptimo de corte el que presentó en la curva ROC la distancia de Manhattan más corta a la esquina superior izquierda (0,1). Para cada una de las especies se calculó a posteriori el umbral óptimo y se generó un mapa de presencia/ausencia empleando este punto de corte. Posteriormente se sumaron todos estos mapas para generar el mapa de riqueza. 5) Estrategia 3: agrupar y predecir al mismo tiempo. Como ejemplo empleamos MARS-Multirrespuesta. Los MDE fueron generados siguiendo a Elith & Leathwick (2007) en el software R (http://www.r-project.org). Obtuvimos un mapa para cada una de las especies que posteriormente sumamos para generar el último mapa de riqueza potencial. Finalmente, comparamos entre sí los nueve mapas potenciales de riqueza específica mediante el coeficiente de correlación de Pearson (Lehmann et al., 2002; Graham & Hijmans, 2006).

4.3.7. Patrones altitudinales de biodiversidad Para comparar estos mapas de diversidad alfa potencial con datos reales obtenidos en trabajo de campo empleamos los patrones altitudinales de la biodiversidad.

Los

gradientes

altitudinales

encierran

gradientes

climáticos

y

ambientales que deben influir a la distribución espacial de la riqueza (Nogués-Bravo et al., 2008a). Rahbek (1995) reconoció tres patrones principales de riqueza específica en función de la elevación: 1) una disminución monotónica desde los

112

PATRONES DE DIVERSIDAD. VERIFICACIÓN

puntos menos elevados hacia los más elevados. 2) Un patrón con forma de cerro, con un máximo en las zonas de elevación media. 3) Valores relativamente constantes en elevaciones bajas y medias, seguidos de una disminución fuerte. Aunque existen muchos más tipos de patrones (Rahbek, 2005). Kessler (2001) identifica, en Bolivia central, curvas con forma de cerro para bromeliáceas, mientras que las aráceas presentan valores relativamente constantes hasta elevaciones comprendidas entre los 1000-1500 m, seguidos de una disminución monotónica (Fig. 4.1). Estos resultados se pueden relacionar (Kessler, 2001) con los patrones obtenidos respectivamente en Ecuador para plantas endémicas (Kessler, 2002). Para comparar estos resultados con nuestros mapas estimamos los patrones altitudinales de diversidad de los nueve mapas de riqueza específica para Anthurium y bromeliáceas. Para ello dividimos los mapas en clases altitudinales de 500 m y calculamos el valor medio de cada una de estas clases (Fig. 4.5 y 4.6).

Figura 4.1. Patrones altitudinales de alfa diversidad en aráceas (ARAC) y bromeliáceas (BROM) para Bolivia. Modificado (Kessler, 2001). En bromeliáceas la línea continua representa especies terrestres y la discontinua especies epifitas.

4.4. Resultados 4.4.1. Evaluación de la consistencia de los MDE a nivel de especie Hemos realizamos un total de 19.056 MDE, 48 por cada una de las especies (1 modelo de consenso, 11 GARP, 1 DMG, 1 DMG P/A, 1 RLM, 30 MARS, 1 MARS P/A, 1 MARS-Multirrespuesta, 1 MAXENT). Todos fueron posteriormente reescalados a valores comprendidos entre 1 y 0. A pesar de las limitaciones de nuestra verificación de la consistencia, al no disponer de un grupo de datos independientes, nuestros resultados sugieren que tres métodos son comparables en términos de consistencia: DMG, modelo de consenso y MARS, que presentan valores medios relativamente superiores a GARP, LMR, MARSMultirrespuesta y MAXENT (Fig. 4.2). En todo caso hay que subrayar que los resultados de DMG son en realidad un artefacto, como se tratará más adelante. Los resultados son bastante similares para los seis táxones, aunque las bignoniáceas presentan valores más bajos de AUC (Fig. 4.3).

113

Modelos predictivos de riqueza de diversidad vegetal

1.00

0.9963 0.9825

0.98

0.9664

95% CI

0.96

Figura 4.2. Valores medios de AUC para los diferentes métodos de modelado ecológico.

0.94 0.9284

0.92

0.9264 0.9135 0.9045

0.90

MULTIRESP.

RLM

MAXENT

GARP

CONSENSO

MARS

DMG

0.88

DMG MARS Consenso GARP

1.0

MAXENT RLM Multirespuesta

95% CI

0.9

0.8

0.7

0.6

ARAC

BIGN

BROM

GESN

LAUR

LEGU

FAMILIAS

Figura 4.3. Valores medios de AUC para los diferentes métodos de modelado ecológico y táxones empleados en este trabajo.

Para comprobar si la ausencia de datos independientes a la hora de evaluar modelos de distribución de especies es crítica, comparamos los resultados obtenidos en este capítulo (verificación) con los obtenidos en el capítulo anterior (validación) (Tabla 4.4), y observamos las siguientes diferencias entre ambos. En primer lugar, los valores de AUC obtenidos mediante un proceso de verificación tienden a ser más elevados que los valores de AUC obtenidos mediante validación (Tabla 4.4). En el proceso de validación, DMG y MARS obtuvieron los valores medios de AUC más

114

PATRONES DE DIVERSIDAD. VERIFICACIÓN

elevados (0,99 y 0,98 respectivamente) (Fig. 4.2). En el capítulo anterior (verificación) MARS, MAXENT y LMR obtuvieron los valores de AUC más altos (0,875, 0,855 y 0,849), y DMG y GARP los más bajos (0,797 y 0,730). Las diferencias más elevadas se obtienen con GARP (21,37%) y DMG (20,00%) (Tabla 4.4). La consistencia

de

estos

métodos

es

injustificablemente

más

elevada

cuando

simplemente verificamos sus resultados. Tanto GARP como DMG asignan, por defecto, una mayor estima a las localidades de presencia. Por el contrario, el resto de métodos generan una superficie de predicción (probabilidad, puntuaciones, etc.) sin asignar necesariamente una mayor estima a los puntos de presencia. Si empleamos el mismo conjunto de datos para generar el modelo y para verificarlo, GARP y DMG obtendrán invariablemente excelentes o buenas calificaciones, pero si empleamos un conjunto de datos independientes el valor de AUC disminuye claramente. Veamos un ejemplo: el algoritmo DMG asigna por defecto el máximo valor de similitud (100) a todos los puntos de presencia. Por tanto, si muestreamos el modelo final con el mismo conjunto de datos se obtendrá el valor máximo (100) para todas las presencias y cuando realicemos el análisis del estadístico AUC se obtendrán valores próximos a 1 (máxima capacidad para separar presencias de ausencias). La única forma de medir la consistencia de estos métodos (GARP y DMG) es mediante un grupo de datos independientes. Estos resultados coinciden con los obtenidos por Elith (2002). Si analizamos los resultados de cada una de las especies de forma independiente (Anexo I, Tabla 4.3), como sugieren Lobo et al. (2008), los resultados que obtenemos son similares. Si excluimos DMG y GARP, que necesitan un conjunto de datos independientes para ser evaluados, los mejores resultados se obtienen con MARS y el modelo de consenso. De todos modos, hay que destacar que en todos los casos los valores de AUC están muy próximos entre sí, incluso que en muchas ocasiones presentan los mismos valores de AUC, y que estas diferencias pueden no ser significativas desde el punto de vista estadístico. Sin embargo estos modelos presentan enormes diferencias en sus resultados finales, algo que no se ve registrado en el análisis del estadístico AUC (Termansen et al., 2006; Lobo et al., 2008).

115

Modelos predictivos de riqueza de diversidad vegetal

Valor máximo de AUC

Tres mejores valores

Consenso

117

388

GARP

-

-

DMG

-

-

RLM

52

121

MARS

342

381

MAXENT

19

161

Multirrespuesta

11

89

Tabla 4.3. En esta tabla se comparar los valores de AUC de los diferentes métodos por separado para cada una de las especies (anexo I) y se representan el número de veces que un método presenta el valor máximo de AUC y el número de veces que se encuentra entre los tres mejores valores de AUC. No consideramos los valores de GARP y distancia métirica de Gower (DMG), para poder evaluar estos modelos es necesario un conjunto de datos independientes.

VERIFICACIÓN

VALIDACIÓN

(3ª Parte)

(2ª Parte)

GARP

0,928

0,730

0,198

21,37 %

DMG

0,996

0,797

0,199

20,00 %

MARS

0,982

0,875

0,107

10,94 %

MAXENT

0,926

0,855

0,071

7,70 %

RLM

0,913

0,849

0,064

7,06 %

MÉTODO

Tabla 4.4. Valores medios de AUC para 5 empleados en los capítulos 2 (validación) y 3 diferencia entre valor obtenido en la validación porcentaje que significa esta diferencia respecto

DIFERENCIA

% DE DIFERENCIA

métodos de modelado ecológico (verificación). También aparece la con respecto a la verificación, y el a la verificación.

4.4.2. Correlación a nivel de comunidad Cada uno de las opciones analizadas en este estudio dio lugar a un mapa de diversidad potencial diferente (Fig. 4.4). Los coeficientes de correlación (Tabla 4.5) demostraron estas diferencias. Si analizamos estos resultados en su conjunto y excluimos el modelo de consenso, que guarda cierta relación con todos los métodos, podemos dividir los métodos en dos grupos según su similitud. En el primero de ellos se agrupan DMG, DMG-P/A y MARS-Multirrespuesta y por otro lado encontramos a MARS, MARS-PA, RLM y MAXENT. GARP guarda cierta similitud con ambos grupos: una correlación de 0,76 con DMG y de 0,72 con MAXENT (Tabla 4.5).

116

PATRONES DE DIVERSIDAD. VERIFICACIÓN

Si comparamos los mapas binarios de presencia/ausencia con los mapas originales vemos que la correlación es mucho más elevada en el caso de MARS y MARS-P/A (0,97) que en el de DMG y DMG-P/A (0,63) (Tabla 4.5).

4.4.3. Patrones altitudinales de biodiversidad Kessler (2001) demostró en su trabajo que las aráceas tenían valores relativamente constantes de diversidad alfa hasta una altitud comprendida entre 1000-1500 m, y que por encima de esta elevación se produce una disminución de riqueza (Fig. 4.1). En este trabajo, los mapas de riqueza de GARP, MAXTEN, MARSP/A y el modelo del consenso muestran unos patrones altitudinales de alfa diversidad similares a los obtenidos por Kessler (2001) (Fig. 4.5), aunque los dos últimos (MARS-P/A y el modelo de consenso) sobrepredicen la distribución de diversidad en las zonas más elevadas, donde la diversidad de aráceas debería ser nula. El resto de métodos (Fig. 4.5) siguen unos patrones muy diferentes a los resultados que

Consenso

GARP

DMG

GMD P/A

RLM

MARS

MARS P/A

MAXENT

Multirrespuesta

podemos observar en la realidad.

--

0,9141

0,8165

0,6366

0,8060

0,7240

0,7140

0,8914

0,6204

GARP

0,9141

--

0,7595

0,6138

0,5799

0,6088

0,5759

0,7249

0,5605

DMG

0,8165

0,7595

--

0,6289

0,4588

0,4425

0,3999

0,5739

0,6363

GMD P/A

0,6366

0,6138

0,6289

--

0,4568

0,0777

0,1000

0,4892

0,9266

RLM

0,8060

0,5799

0,4588

0,4568

--

0,6912

0,7262

0,8218

0,3455

MARS

0,7240

0,6088

0,4425

0,0777

0,6912

--

0,9712

0,7072

0,1712

MARS P/A

0,7140

0,5759

0,3999

0,1000

0,7262

0,9712

--

0,7134

0,2452

MAXENT

0,8914

0,7249

0,5739

0,4892

0,8218

0,7072

0,7134

--

0,5223

Multirrespuesta

0,6204

0,5605

0,6363

0,9266

0,3455

0,1712

0,2452

0,5223

--

Consenso

Tabla 4.5. Valores del coeficiente de correlación de Pearson entre las diferentes opciones de modelado ecológico a nivel de comunidad.

Para Bromeliaceae, Kessler (2002) encontró curvas con forma de cerro tanto para las especies epífitas (máximo a 1700 m) como terrestres (máximo a 3000 m) (Fig. 4.1). Los mapas de biodiversidad potencial obtenidos con GARP, MARS, MARS-

117

Modelos predictivos de riqueza de diversidad vegetal

P/A, MAXENT y el modelo de consenso (Fig. 4.6) muestran este tipo de patrones. Al igual que sucedía con el género Anthurium, el modelo de consenso y MARS-PA sobrepredicen las zonas más elevadas. También como en el caso anterior, el resto de métodos siguen unos patrones altitudinales de biodiversidad que no reflejan esta realidad (Fig. 4.6). Si observamos los resultados obtenidos para los seis grupos en su conjunto y tenemos en cuenta los resultados obtenidos en los 4 métodos (GARP, MARS-P/A, MAXENT y el modelo de consenso) que mejor se han ajustado en Anthurium y bromeliáceas, en los 4 casos obtenemos patrones muy similares, con un máximo de diversidad vegetal comprendido entre 1000 y 2000 m de altitud (Fig. 4.7).

Figura 4.4. Mapas de riqueza específica (diversidad alfa) para diferentes opciones de modelado ecológico: GARP, MAXENT, DMG, DMG presencia/ausencia.

118

PATRONES DE DIVERSIDAD. VERIFICACIÓN

Figura 4.4 cont. Mapas de riqueza específica (diversidad alfa) para diferentes opciones de modelado ecológico: MARS, MARS presencia/ausencia, MARS-Multirrespuesta, modelo de consenso, RLM.

119

Modelos predictivos de riqueza de diversidad vegetal

Figura 4.5. Patrones altitudinales de alfa diversidad potencial en Ecuador para el género Anthurium, según diferentes opciones de modelado ecológico.

Figura 4.6. Patrones altitudinales de alfa diversidad potencial en Ecuador para bromeliáceas, según diferentes opciones de modelado ecológico.

120

PATRONES DE DIVERSIDAD. VERIFICACIÓN

Figura 4.7. .Patrones altitudinales de alfa diversidad potencial en Ecuador para las seis familias analizadas en este trabajo, según diferentes opciones de modelado ecológico

4.5. Discusión 4.5.1. Evaluación de la consistencia de los MDE a nivel de especie Si tenemos en cuenta las limitaciones en el proceso de verificación, los métodos que obtienen mejor consistencia a nivel específico son MARS, el modelo de consenso, MAXENT y RLM. Estos resultados son comparables a otros trabajo de comparación publicados, pero contradicen en algunos aspectos a lo encontrado por Elith et al. (2006),

en

donde

los

mayores

valores

de

AUC

se

obtienen

para

MARS-

Multirrespuesta y MAXENT, por encima de MARS. Una posible explicación de por qué Elith et al. (2006) obtienen peores resultados con MARS es que estos autores utilizan la librería "mda" en R, programada con un código diferente al de la versión comercial que nosotros hemos usado, que utiliza el código original del autor del método (Friedman, 1991). En nuestro caso, MARS obtiene los mejores valores de AUC en ambas situaciones, y parece por tanto el método que mejor se ajusta a nuestros datos y objetivos. Además, se trata de un método muy interesante con un número elevado de ventajas (Muñoz & Felicísimo, 2004; Austin, 2007; Elith & Leathwick, 2007). Dentro de sus ventajas queremos destacar la fácil interpretación de sus resultados, tanto desde el punto de vista ecológico como estadístico, que permite analizar sus

121

Modelos predictivos de riqueza de diversidad vegetal

resultados de una forma mucho más sencilla y objetiva. Aunque, los resultados de Maxent y el modelo de consenso también son fiables y se ajuntan a la realidad, como ya comentamos en la Segunda Parte, Maxent también presenta ciertas ventajas: no es necesario generar pseudo-ausencias, se ejecuta con un solo software, sus resultados son más estables, y además parece tener muy buenos resultados para tamaños de muestra pequeños (Hernandez et al., 2006; Pearson et al., 2006a; Phillips et al., 2006; Papeş & Gaubert, 2007b; Wisz et al., 2008). Si comparamos los valores de AUC obtenidos para cada uno de los táxones empleados en este trabajo (Fig. 4.3), parece más determinante la ecología de las especies que el número medio de presencias. Así, vemos que las bignoniáceas presentan una notable disminución de los valores de AUC, posiblemente generado por la ecología de esta familia. Gran parte de estas especies son lianas, que dependen de factores bióticos no incluidos en estos modelos. Por lo tanto, por encima de un tamaño de muestra mínimo parece más determinante la ecología de la especie que el tamaño de muestra. Como hemos visto la verificación de varios métodos con el estadístico AUC presenta varias limitaciones: 1) estamos valorando exclusivamente la capacidad clasificatoria del modelo a los datos con los que se ha realizado el modelo. 2) Los valores de AUC obtenidos mediante un proceso de verificación tienden a ser más elevados que los valores de AUC obtenidos mediante validación (Elith, 2002). 3) Las diferencias entre los distintos métodos son mínimas y no reflejan las diferencias reales que se obtienen en cada uno de los modelos, una inspección visual de los mapas finales nos muestra que modelos con un valor de AUC muy similar pueden presentar patrones de distribución muy diferentes (Termansen et al., 2006; Lobo et al., 2008). Métodos como MARS, RLM y CART que emplean las pseudo-ausencias para ejecutar y validar los modelos, pueden verse favorecidos frente a métodos como MARS-Multirrespuesta o Maxent que no emplean estas mismas pseudoausencias para ejecutar el modelo. 4) Para verificar hemos empleado pseudoausencias que no representan verdaderas ausencias lo que puede inducir a errores. 5) La consistencia de métodos como GARP y DMG es injustificablemente más elevada cuando verificamos sus resultados (Elith, 2002). Otras limitaciones inherentes del estadístico AUC recientemente expuestas (Lobo et al., 2008; Peterson et al., 2008a) son: 1) no evalúa la bondad de ajuste del modelo; 2) suma la consistencia para todas las regiones de la curva ROC, algunas de estas regiones raramente son operativas; 3) da igual valor al error de comisión que al error de omisión; 4) no obtenemos información espacial del error; y 5) la extensión del análisis influye de una forma importante en este estadístico. Por todos estos motivos consideramos que

122

PATRONES DE DIVERSIDAD. VERIFICACIÓN

la verificación de MDE no es proceso adecuado y es necesaria la validación mediante datos independientes. También que consideramos que son necesarios nuevos estadísticos más adecuados a estos métodos. Como vemos, la selección del método más apropiado es un trabajo complicado (Austin, 2002; Segurado & Araújo, 2004; Austin, 2007). Prueba de ello son los múltiples trabajos de comparación de métodos a nivel específico publicados (Manel et al., 1999; Guisan & Zimmermann, 2000; Moisen & Frescino, 2002; Muñoz & Felicísimo, 2004; Segurado & Araújo, 2004; Guisan & Thuiller, 2005; Johnson & Gillingham, 2005; Drake et al., 2006; Elith et al., 2006; Leathwick et al., 2006b; Moisen et al., 2006; Pearson et al., 2006b; Elith & Leathwick, 2007; Meynard & Quinn, 2007; Tsoar et al., 2007; Feria et al., En revisión), con resultados a veces incompatibles (Austin, 2007). Como indican Ferrier & Guisan (2006), es necesario un análisis de estos métodos y de las diferentes opciones de modelado a nivel de comunidad, y analizar cómo definen estos métodos y opciones los patrones espaciales de biodiversidad (Wilson et al., 2005).

4.5.2. Correlación a nivel de comunidad En este apartado se ponen de manifiesto las variaciones entre las diferentes opciones de modelado ecológico a nivel de comunidad. Como vemos en la Fig. 4.4, los mapas de diversidad finales varían enormemente en función de la opción y método empleado. Estas diferencias destacan la importancia en la selección de la opción más adecuada a la hora de realizar un trabajo de modelado ecológico, especialmente si utilizamos estos mapas para diseñar una red de Espacios Naturales Protegidos (Loisselle et al., 2003; Wilson et al., 2005). Mediante una rápida inspección de los mapas (Fig. 4.4) podemos comprobar que los grupos creados mediante los valores del coeficiente de correlación están relacionados con los patrones espaciales de diversidad que determinan. DMG, DMGPA y MARS-Multirrespuesta tienen sus máximos de biodiversidad en el área amazónica; mientras que MARS, MARS-PA, MAXENT y RLM presentan los valores más elevados en los flancos de los Andes. Finalmente, GARP presenta máximos de diversidad en ambas zonas.

4.5.3. Patrones altitudinales de biodiversidad En este apartado, como ya explicamos anteriormente, comparamos los patrones de diversidad altitudinal de los nueve mapas de riqueza específica obtenidos en este trabajo para Anthurium (Fig. 4.5) y bromeliáceas (Fig. 4.6) con el trabajo del Kessler

123

Modelos predictivos de riqueza de diversidad vegetal

(2001) (Fig. 4.1). De esta comparación se pueden extraer varias conclusiones interesantes, como veremos a continuación. Nogués-Bravo et al. (2008a) ponen de manifiesto ciertas limitaciones a la hora de valorar los gradientes altitudinales de la biodiversidad, que conviente tener en cuenta, pero en nuestro caso empleamos modelos y no directamente colecciones de herbarios por lo que deber verse afectados por el mayor impacto del hombre sobre el ambientes en las zonas menos elevadas. En mayor o menor medida cuatro métodos son los que generan patrones altitudinales de biodiversidad similares a los que observamos en la realidad: GARP, MAXENT, MARS –P/A y el modelo de consenso. Tres de estos métodos (MAXENT, MARS –P/A y el modelo de consenso) se ven apoyados por ambos análisis estadísticos: obtienen valores medios de AUC elevados (Fig. 4.2; Tabla 4.4) y el análisis de correlación muestra que estos mapas están muy relacionados entre sí (Tabla 4.5). Si inspeccionamos estos mapas (Fig. 4.4) y analizamos los patrones altitudinales totales (Fig. 4.7) podemos confirmar que estas opciones generan patrones de diversidad muy similares con un máximo de diversidad alfa en las altitudes medias de los Andes (1000 – 2000 m). El resto de opciones (DMG, DMGP/A, MARS, MARS-Multirrespuesta y RLM) se alejan bastante de la realidad. Teniendo en cuenta estos resultados generales, a continuación analizaremos por separado cada una de las opciones de modelado ecológico a nivel de comunidad: Dentro de la estrategia 2 (predecir primero, agrupar después), si consideramos la aproximación 1 (mapas con valores originales) existen dos corrientes posibles: Corriente 1 (1 método): en este caso los resultados son muy diferentes en función del método de modelado a nivel de especie empleado. Es necesario realizar análisis estadísticos para comprobar que métodos generan los resultados más fiables y son los más apropiados a los objetivos de nuestro estudio. Métodos como DMG no generan patrones de diversidad como los que observamos en la naturaleza. El patrón altitudinal parece ajustarse más a la distribución espacial de las colecciones de partida (Fig. 4.8). MAXENT produce muy buenos resultados a todos los niveles (AUC y análisis de los patrones altitudinales de biodiversidad). MAXENT se trata de un método novedoso, aplicado recientemente al modelado ecológico, aunque otros trabajos ya demostraron su potencial (Elith et al. 2006). En este

124

PATRONES DE DIVERSIDAD. VERIFICACIÓN

trabajo se demuestra los buenos resultados que se obtienen con este método. 350 300 250 200 150 100

Figura 4.8. Número de colecciones de aráceas (cuadrados) y bromeliáceas (circunferencias) en función de la altitud.

50

0 50 500 0 -1 10 0 00 0 0 -1 15 5 00 00 -2 20 0 00 00 -2 25 5 00 00 -3 30 0 00 00 -3 35 5 00 00 -4 40 0 00 00 -4 45 5 00 00 -5 50 0 00 00 -5 50 0

0

MARS presenta muy buenos resultados en el análisis del estadístico AUC a nivel específico, pero la suma de los mapas para generar un mapa de diversidad potencial genera un modelo de riqueza que sobrepredice en zonas en las que la diversidad debiera ser menor. Este efecto se soluciona en gran medida cuando convertimos estos mapas con valores originales en mapas binarios de presencia/ausencia mediante la aplicación de un punto de corte, como veremos posteriormente. La RLM genera mapas con una adecuada consistencia a nivel específico, pero la suma de estos mapas para generar un mapa de diversidad potencial produce patrones espaciales de diversidad no acordes con la realidad. Los MDE realizados con GARP presentan muy poca consistencia a nivel de específico, pero su suma genera un mapa de diversidad potencial en la que los patrones espaciales no se alejan en gran medida de la realidad. -

Corriente 2 (modelo de consenso): los resultados que ofrece esta opción de modelado ofrece resultados fiables a nivel específico y de comunidad. Se trata de una técnica aplicada recientemente al modelado ecológico. Dada la dificultad que representa la elección del método más adecuado (Austin, 2002; Segurado & Araújo, 2004; Austin, 2007), algunos autores sugieren la combinación de varios de estos métodos para reducir la variabilidad que se observa entre métodos (Araújo et al., 2005c; Araújo et al., 2006; Araújo & New, 2007; Marmion et al., 2008). El empleo de esta opción en modelado ecológico parece ser prometedora.

125

Modelos predictivos de riqueza de diversidad vegetal

Para la aproximación 2 (mapas de presencia/ausencia), dentro de la misma estrategia, podemos considerar dos corrientes diferentes: -

Corriente 3 (umbral a priori): la utilización de un umbral a priori en DMG no produce ningún beneficio y tampoco buenos resultados a ningún nivel, está opción no tiene ningún sentido desde el punto de vista biológico (Jiménez-Valverde & Lobo, 2007).

-

Corriente 4 (umbral a posteriori): el empleo de un punto de corte a posteriori mejora claramente los resultados en el caso de MARS, ya que hace que los patrones altitudinales de diversidad se ajusten más a la realidad. El umbral o punto de corte delimita correctamente el área potencial de la distribución de la especie, aunque tiende a sobre-estimar la diversidad en zonas elevadas. Como ponen de manifiesto (JiménezValverde & Lobo, 2007) la falta de verdaderas ausencias en este trabajo puede limitar los buenos resultados a la hora de obtener buenos puntos de corte.

Estrategia 3 (agrupar y predecir al mismo tiempo): al emplear métodos multirrespuesta hemos obtenido resultados muy diferentes a los de otros autores. Una comparación reciente entre MARS y MARS-Multirrespuesta (Leathwick et al., 2005) para modelar peces de agua dulce en Nueva Zelanda indica que no existe ninguna ventaja en el empleo de métodos multirrespuesta. Sin embargo, otros trabajo que comparan estas mismas técnicas (Elith et al., 2006; Leathwick et al., 2006a; Elith & Leathwick, 2007) reflejan un incremento importante en la consistencia de los métodos multirrespuesta. Conviene recordar que estos trabajos ejecutan MARS y MARS-Multirrespuesta en R, donde el código no es el original de Friedman (1991). En esta tesis llegamos a la conclusión de que los resultados que ofrece MARS-Multirrespuesta no son fiables ni a nivel específico ni a nivel de comunidad. Los valores de AUC son menores cuando se comparan con otros métodos, y no reflejó los verdaderos patrones de biodiversidad altitudinal. En una inspección visual de los mapas a nivel de especie sus resultados se pueden interpretar como muy variables. Se puede explicar este comportamiento por el funcionamiento intrínseco de este algoritmo, que emplea las mismas variables independientes para explicar la distribución de todas las especies incluidas en el análisis, algo que desde nuestro punto de vista es un gran inconveniente, ya que las variables significativas para una especie no tienen por qué serlo para otra.

126

PATRONES DE DIVERSIDAD. VERIFICACIÓN

4.5.4. Principales conclusiones aplicables al modelado ecológico Los

resultados

obtenidos

en

este

capítulo

nos

ofrecen

importantes

consideraciones para el futuro del modelado ecológico. A continuación citaremos brevemente las que consideramos más importantes. La enorme cantidad de datos almacenada en herbarios y museos de historia natural permiten obtener resultados fiables estadísticamente y reflejan los patrones espaciales de biodiversidad que se observan en la naturaleza. Algunas de las claves más importantes a la hora de trabajar con estos datos es la fiabilidad de la georreferenciación

e

identificación, el tamaño

mínimo

de

muestra,

etc.; la

comprobación de la información de partida es imprescindible en cualquier trabajo de modelado ecológico. Nuestros resultados nos permiten dividir los resultados de las diferentes opciones de modelado ecológico en dos grandes grupos: Por un lado, tenemos aquellas opciones que a nivel específico presentan una buena consistencia y por tanto son fiables estadísticamente. A nivel de comunidad estos métodos reflejan los patrones espaciales de biodiversidad que se observan en la naturaleza y sus resultados se asemejan bastante entre sí. Además se trata de métodos relativamente trasparentes en su formulación matemática y permiten una interpretación biológica y estadística de los resultados. Estas opciones son MARSP/A, MAXENT y el modelo de consenso. Por otro lado tenemos un conjunto de opciones que ofrecen resultados muy diferentes entre sí, y también diferentes a los anteriores. En algunas ocasiones ofrecen resultados fiables a nivel de especies, pero sus resultados a nivel de comunidad no reflejan la realidad (MARS, RLM), mientras que en otras sucede lo contrario (GARP). Finalmente, están los que no obtienen resultados fiables en ninguno de los niveles (DMG, DMG-PA y MARS-Multirrespuesta). No existe un método que sea beneficioso para todas las aplicaciones y objetivos (Pearson et al., 2006b). Si el objetivo de nuestro trabajo esté relacionado con la conservación y los patrones espaciales de biodiversidad, se aconseja el empleo de MARS-P/A, MAXENT y un modelo de consenso. El resto de opciones pueden resultar útiles cuando los objetivos de nuestro trabajo sean diferentes. La colaboración con otros especialistas (botánicos, ecólogos, zoólogos, etc.) se hace imprescindible en el futuro del modelado ecológico (Lobo, 2008). Su experiencia es de vital importancia para obtener datos fiables y contrastar los resultados finales (Peters & Thackway, 1998; Loisselle et al., 2003; Johnson &

127

Modelos predictivos de riqueza de diversidad vegetal

Gillingham, 2005). Pero su aportación también puede ser importante en otro aspecto del modelado ecológico: corregir la tendencia a la sobrepredicción de muchos MDE (Graham & Hijmans, 2006; Loiselle et al., 2008). Esto se debe en gran parte a que los modelos están fundamentados exclusivamente en datos climáticos o ambientales, y no tienen en cuentan las relaciones bióticas con otras especies, las limitaciones en la capacidad dispersiva ni los factores históricos (Guisan & Zimmermann, 2000; Hampe, 2004; Pearson & Dawson, 2004; Guisan & Thuiller, 2005; Soberon & Peterson, 2005). Los especialistas pueden revisar los MDE y consideraron estos factores para mejorar los resultados finales. Los especialistas también pueden ser esenciales para evaluar la fiabilidad de los diferentes métodos y su comparación, ya que los métodos que se utilizan en la actualidad, como hemos visto, presentan un gran número de limitaciones.

4.5.5. Principales conclusiones para la conservación en Ecuador Hemos comparado los tres modelos finales de diversidad más fiables (consenso, MARS P/A y MAXENT) con las 19 variables de bioclimáticas de WorldClim. Esta comparación se realizó mediante el coeficiente de correlación de Pearson. En la Tabla 4.6 observamos los resultados de esta comparación, donde podemos ver que los patrones de biodiversidad están directamente relacionados con la isotermicidad diurna y las variables relacionadas con la precipitación a excepción de la “precipitación estacional”, con la que está inversamente relacionada. También existe una relación inversamente proporcional con la “temperatura estacional”. Por la tanto podemos concluir que los lugares con mayor diversidad vegetal son aquéllos donde existe una precipitación abundante, la variabilidad a lo largo del año en temperatura y precitaciones es pequeña y existe poca diferencia de temperatura entre el día y la noche. Estos tres modelos de diversidad vegetal potencial consideran que la zona con más diversidad se encuentra en la vertiente occidental del norte del país (provincias de Carchi y Esmeraldas). Este área se trata de una continuación del Chocó colombiano, considerado uno de los cinco ‘hot spot’ con más biodiversidad de todo el planeta (Myers, 1988), el lugar más rico en aves endémicas de todo el planeta (Terborgh & Winter, 1982) y el área con la mayor diversidad vegetal de todo Ecuador occidental (Gentry, 1982;1986). Le siguen ambas vertientes de los Andes y parte de la cuenca Amazónica. El bosque húmedo en la región tropical de los Andes aloja una de la mayores proporciones de riqueza vegetal y faunística de todo el planeta (Rahbek & Graves, 2001; Fjeldsa et al., 2005) y es por tanto una prioridad mundial en la conservación (Mittermeier et al., 1998; Olson & Dinerstien, 1998).

128

PATRONES DE DIVERSIDAD. VERIFICACIÓN

Figura 4.9. Diversidad alfa potencial en Ecuador mediante tres opciones diferentes de modelado ecológico (un modelo de consenso, MARS P/A y MAXENT). En color negro aparece destacado el contorno de la red de Espacios Naturales Protegidos de este país

Si comparamos estos modelos con el Sistema Nacional de Áreas Protegidas (SNAP) de Ecuador (Fig. 4.9), vemos que más del 20% del área del país cuenta con alguna medida de protección, pero lamentablemente estas medidas no son realmente eficaces (Dodson & Gentry, 1991). Además, estas áreas no representan todas las regiones fitogeográficas del país (Borchsenius, 1997; Sierra et al., 1999), e incluso Sierra (1999) indica que muchos de los bosques no protegidos en la zona noroeste de Ecuador pertenecerían a 3 de las 8 áreas prioritarias para la conservación en Ecuador. Todos estos estudios apoyan la necesidad de establecer las áreas adicionales para la conservación, y nuestro trabajo sugiere que habría que centrarse en las altitudes medias de la vertiente oriental de los Andes y en la vertiente occidental del norte del país (provincias de Carchi y Esmeraldas).

129

Modelos predictivos de riqueza de diversidad vegetal

En un futuro próximo estos modelos de diversidad vegetal se emplearán, junto con modelos de diversidad animal y modelos del efecto del cambio climático en la diversidad para proponer un diseño de Espacios Naturales Protegidos en Ecuador que complemente la red actual. VARIABLES DE WORLCLIM

CONSENSO

MARS P/A

MAXENT

B1

Temperatura media anual

0,070

-0,223

-0,064

B2

Rango medio diurno (media mensual (tº máx.- tº min.))

0,049

0,036

0,041

B3

Isotermicidad (P2/P7) (* 100)

0,489

0,387

0,339

B4

Temperatura Estacional (desviación estándar *100)

-0,461

-0,399

-0,361

B5

Temperatura máxima del mes más cálido

0,048

-0,235

-0,079

B6

Temperatura mínima del mes más frío

0,105

-0,192

-0,040

B7

Rango de Temperatura Anual (P5-P6)

-0,209

-0,144

-0,137

B8

Temperatura media del mes más húmedo

0,016

-0,233

-0,086

B9

Temperatura media del mes más seco

0,132

-0,197

-0,028

B10

Temperatura media del trimestre más cálido

0,042

-0,238

-0,078

B11

Temperatura media del trimestre más frío

0,106

-0,191

-0,038

B12

Precipitación anual

0,656

0,338

0,533

B13

Precipitación del mes más húmedo

0,563

0,305

0,541

B14

Precipitación del mes más seco

0,588

0,272

0,438

B15

Precipitación estacional (Coeficiente de variación)

-0,436

-0,230

-0,214

B16

Precipitación del trimestre más húmedo

0,573

0,293

0,536

B17

Precipitación del trimestre más seco

0,589

0,298

0,477

B18

Precipitación del trimestre más cálido

0,487

0,281

0,582

B19

Precipitación del trimestre más frío

0,610

0,310

0,367

Tabla 4.6. Coeficiente de correlación de Pearson entre tres modelos finales de biodiversidad y las 19 variables bioclimáticas de WorldClim.

130

PATRONES DE DIVERSIDAD. VERIFICACIÓN

4.6. Anexos 4.6.1. ANEXO I: Tabla de resultados de AUC En este anexo se muestran los valores de AUC obtenidos en el proceso de verificación para las 397 especies analizadas en este trabajo. Se comparan los siguientes métodos de modelado ecológico: un modelo de consenso (Conse.), MARSMultirrespuesta (Multi.), CART, MARS, Regresión logística múltiple (RLM), distancia métrica de Gower (DMG), GARP y MAXENT. En negrita aparece marcado los tres métodos que presentar valores más elevados de AUC (sombreado en gris el mayor valor), sin considerar DMG y GARP, como vimos anteriormente para poder evaluar la consistencia de estos dos métodos es necesario un conjunto de datos independiente. Código: código específico que se asignó a cada especie a la hora de ejecutar los modelos; entre paréntesis aparece indicado el número de colecciones únicas en la base de datos TROPICOS para cada una de las especies. AUC ESPECIE

CÓDIGO

Conse.

Multi.

CART

RLM

MARS DMG GARP MAXENT

Anthurium acrobates

01000001(39)

0,908

0,892

0,795 0,873

0,958

1,000

0,795

0,826

Anthurium apaporanum

01000010(56)

0,954

0,929

0,873 0,918

0,998

1,000

0,918

0,934

Anthurium argyrostachyum

01000011(21)

0,994

0,938

0,905 0,929

1,000

1,000

0,929

0,957

Anthurium asplundii

01000014(25)

1,000

0,826

0,953 1,000

1,000

1,000

0,948

0,935

Anthurium atropurpureum

01000017(25)

0,918

0,834

0,820 0,850

0,994

1,000

0,892

0,880

Anthurium breviscapum

01000028(180)

0,886

0,772

0,851 0,839

0,911

0,969

0,900

0,763

Anthurium caulorrhizum

01000038(21)

1,000

0,994

0,970 1,000

0,667

1,000

1,000

0,991

Anthurium ceronii

01000039(35)

0,935

0,771

0,809 0,857

1,000

1,000

0,874

0,885

Anthurium clavigerum

01000042(22)

0,959

0,868

0,818 0,892

1,000

1,000

0,915

0,816

Anthurium coripatense

01000047(22)

0,932

0,823

0,727 0,804

1,000

1,000

0,938

0,850

Anthurium corrugatum

01000048(19)

0,915

0,795

0,789 0,738

0,904

1,000

0,846

0,890

Anthurium decurrens

01000057(37)

0,989

0,974

0,905 0,982

1,000

1,000

0,972

0,945

Anthurium dolichostachyum

01000060(106)

0,947

0,861

0,895 0,955

0,992

0,962

0,931

0,892

Anthurium effusilobum

01000063(28)

0,968

0,944

0,963 0,965

1,000

1,000

0,898

0,932

Anthurium eminens

01000064(65)

0,938

0,858

0,881 0,856

0,996

1,000

0,911

0,916

Anthurium ernestii

01000065(95)

0,897

0,814

0,811 0,842

0,953

1,000

0,852

0,875

Anthurium gracile

01000078(65)

0,827

0,805

0,800 0,805

0,805

1,000

0,825

0,760

Anthurium harlingianum

01000087(39)

0,943

0,891

0,822 0,870

1,000

1,000

0,947

0,986

Anthurium incomptum

01000092(33)

0,974

0,902

0,912 0,861

1,000

1,000

0,919

0,953

Anthurium interruptum

01000095(23)

0,992

0,872

0,804 0,921

0,989

1,000

0,961

0,856

Anthurium lancea

01000100(37)

0,998

0,975

0,934 0,992

1,000

1,000

0,986

0,986

Anthurium longicaudatum

01000111(25)

0,992

0,947

0,860 0,981

1,000

1,000

0,998

0,974

Anthurium longispadiceum

01000113(33)

0,957

0,918

0,848 0,865

0,968

1,000

0,900

0,902

Anthurium macdanielii

01000118(32)

0,976

0,860

0,887 0,950

0,988

1,000

0,894

0,859

Anthurium michelii

01000127(56)

0,926

0,850

0,934 0,815

0,990

1,000

0,875

0,878

Anthurium microspadix

01000128(62)

0,972

0,910

0,978 0,942

0,994

1,000

0,902

0,935

Anthurium mindense

01000129(104)

0,946

0,899

0,951 0,911

0,990

0,971

0,939

0,912

Anthurium nigropunctatum

01000140(44)

0,972

0,928

0,835 0,883

0,987

1,000

0,947

0,926

Anthurium

131

Modelos predictivos de riqueza de diversidad vegetal

CÓDIGO

Conse.

Multi.

CART

Anthurium obtusum

ESPECIE

01000145(118)

0,883

0,697

0,906 0,811

RLM

MARS DMG GARP MAXENT 0,962

0,980

0,838

0,668

Anthurium ochreatum

01000146(41)

1,000

0,971

0,999 0,962

1,000

1,000

0,981

0,969

Anthurium ovatifolium

01000150(58)

0,962

0,894

0,796 0,920

0,974

1,000

0,952

0,928

Anthurium pallidiflorum

01000159(21)

0,971

0,950

0,873 0,899

0,989

1,000

0,952

0,954

Anthurium pendulifolium

01000167(21)

0,960

0,915

0,905 0,970

1,000

1,000

0,902

0,885

Anthurium penningtonii

01000169(25)

0,998

0,980

0,960 1,000

1,000

1,000

0,938

0,951

Anthurium propinquum

01000178(39)

0,966

0,949

0,936 0,943

0,995

1,000

0,579

0,567

Anthurium propinquum

01000180(22)

0,993

0,983

0,929 0,981

1,000

1,000

0,979

0,965

Anthurium pseudoclavigerum

01000181(68)

0,909

0,852

0,883 0,878

0,927

1,000

0,905

0,865

Anthurium pulchrum

01000185(60)

0,941

0,855

0,831 0,858

0,998

1,000

0,935

0,992

Anthurium pulverulentum

01000186(78)

0,970

0,931

0,974 0,939

0,982

0,982

0,940

0,918

Anthurium rimbachii

01000194(30)

0,993

0,971

0,906 0,964

1,000

1,000

0,999

0,970

Anthurium rodrigueziae

01000196(24)

1,000

0,958

0,896 1,000

1,000

1,000

0,997

0,958

Anthurium rubrinervium

01000197(38)

0,855

0,773

0,771 0,812

0,829

1,000

0,833

0,865

Anthurium scandens

01000204(37)

0,890

0,591

0,500 0,500

0,958

1,000

0,713

0,777

Anthurium subtrigonum

01000236(29)

1,000

0,971

0,905 1,000

1,000

1,000

1,000

0,974

Anthurium tremulum

01000242(26)

0,978

0,956

0,998 0,889

1,000

1,000

1,000

0,953

Anthurium trilobum

01000243(43)

1,000

0,993

1,000 0,986

1,000

0,963

0,979

0,981

Anthurium triphyllum

01000246(54)

0,963

0,915

1,000 0,958

1,000

1,000

0,813

0,935

Anthurium trisectum

01000247(24)

0,996

0,954

0,885 0,866

1,000

1,000

0,993

0,952

Anthurium truncicolum

01000249(66)

0,969

0,920

0,879 0,911

0,998

0,985

0,937

0,937

Anthurium uleanum

01000250(56)

0,936

0,902

0,907 0,906

0,974

1,000

0,919

0,904

Anthurium umbraculum

01000252(40)

0,961

0,875

0,776 0,933

0,982

1,000

0,964

0,908

Anthurium variegatum

01000254(20)

0,929

0,906

0,825 0,903

0,903

1,000

0,935

0,912

Anthurium versicolor

01000257(126)

0,901

0,842

0,898 0,886

0,974

1,000

0,905

0,845

Amphilophium paniculatum

02000007(64)

0,871

0,759

0,500 0,798

0,870

0,961

0,766

0,838

Arrabidaea chica

02000016(30)

0,783

0,568

0,500 0,720

0,893

0,993

0,698

0,698

Arrabidaea patellifera

02000026(27)

0,861

0,759

0,500 0,740

0,740

0,994

0,869

0,801

Arrabidaea pubescens

02000027(25)

0,975

0,975

0,979 0,982

0,998

1,000

0,966

0,979

Cydista aequinoctialis

02000043(39)

0,878

0,802

0,768 0,758

0,932

0,996

0,831

0,864

Macfadyena unguis-cati

02000061(22)

0,825

0,600

0,702 0,631

0,900

0,984

0,834

0,668

Mansoa standleyi

02000066(28)

0,831

0,773

0,904 0,792

0,805

0,985

0,824

0,759

Mansoa verrucifera

02000067(26)

0,857

0,551

0,500 0,647

0,936

0,990

0,517

0,539

Paragonia pyramidata

02000080(95)

0,752

0,579

0,624 0,574

0,807

0,976

0,684

0,655

Pithecoctenium crucigeru

02000084(35)

0,824

0,627

0,500 0,679

0,926

0,990

0,721

0,752

Tynanthus polyanthus

02000100(24)

0,917

0,723

0,854 0,919

1,000

1,000

0,854

0,886

Aechmea aciculosa

03003314(21)

0,979

0,851

0,969 0,854

1,000

1,000

0,967

0,885

Aechmea angustifolia

03000006(49)

0,964

0,864

1,000 0,803

1,000

1,000

0,895

0,893

Aechmea hoppii

03002534(62)

0,931

0,862

0,857 0,909

0,989

1,000

0,886

0,915

Aechmea longifolia

03003498(24)

0,937

0,868

0,857 0,857

0,955

1,000

0,859

0,872

Aechmea penduliflora

03001396(103)

0,971

0,956

0,877 0,947

1,000

0,994

0,933

0,953

Aechmea tessmannii

03000051(21)

0,916

0,774

0,500 0,824

0,893

1,000

0,831

0,893

Aechmea tillandsioides

03000053(34)

0,971

0,851

0,845 0,946

1,000

1,000

0,946

0,922

Catopsis sessiliflora

03000114(30)

0,964

0,899

0,972 0,860

1,000

1,000

0,869

0,911

Guzmania acuminata

03002801(18)

0,997

0,955

0,993 0,976

1,000

1,000

0,984

0,950

Guzmania alborosea

03003327(16)

0,996

0,958

0,996 0,933

0,990

1,000

1,000

0,965

Guzmania altsonii

03002711(22)

1,000

0,982

0,841 1,000

0,993

1,000

0,990

0,993

Guzmania angustifolia

03000911(37)

0,974

0,901

0,849 0,943

1,000

1,000

0,895

0,906

Guzmania asplundii

03002802(24)

1,000

0,995

1,000 1,000

1,000

0,998

1,000

0,969

BIGNONIACEAE

BROMELIACEAE

132

PATRONES DE DIVERSIDAD. VERIFICACIÓN

CÓDIGO

Conse.

Multi.

CART

Guzmania claviformis

ESPECIE

03002704(15)

0,995

0,981

1,000 0,995

RLM

MARS DMG GARP MAXENT 1,000

1,000

0,967

0,993

Guzmania confusa

03003785(26)

0,997

0,977

0,990 0,946

1,000

1,000

0,997

0,975

Guzmania coriostachya

03000915(44)

0,960

0,939

0,825 0,884

1,000

1,000

0,942

0,926

Guzmania diffusa

03000197(21)

0,972

0,923

0,833 0,863

1,000

1,000

0,980

0,884

Guzmania eduardii

03003337(32)

1,000

0,999

0,984 0,954

1,000

1,000

0,997

0,974

Guzmania farciminiformis

03189101(17)

0,996

1,000

1,000 0,987

1,000

1,000

0,996

0,992

Guzmania globosa

03002085(21)

1,000

0,984

0,976 1,000

1,000

1,000

0,989

0,984

Guzmania gloriosa

03003240(36)

0,990

0,983

0,952 0,937

1,000

0,999

0,992

0,977

Guzmania gracilior

03002525(45)

1,000

0,992

0,959 0,995

0,993

1,000

0,998

0,990

Guzmania graminifolia

03002712(32)

1,000

1,000

0,914 1,000

1,000

1,000

0,988

1,000

Guzmania jaramilloi

03003343(22)

0,992

0,908

0,875 0,853

1,000

1,000

0,982

0,922

Guzmania lingulata

03000559(58)

0,897

0,778

0,659 0,773

0,948

0,992

0,855

0,837

Guzmania melinonis

03000199(44)

0,983

0,915

0,995 0,932

1,000

0,999

0,918

0,953

Guzmania monostachia

03000560(71)

0,937

0,854

0,736 0,899

0,989

1,000

0,909

0,928

Guzmania morreniana

03000821(20)

1,000

0,989

1,000 0,942

1,000

1,000

1,000

0,988

Guzmania mosquerae

03002893(43)

0,995

0,984

0,910 0,919

1,000

1,000

0,997

0,988

Guzmania pearcei

03002838(25)

0,979

0,947

0,972 0,926

1,000

1,000

0,925

0,965

Guzmania remyi

03002901(32)

1,000

0,993

0,987 1,000

1,000

1,000

0,999

0,990

Guzmania rosea

03003815(25)

1,000

1,000

1,000 1,000

1,000

1,000

1,000

1,000

Guzmania scherzeriana

03000552(25)

0,988

0,970

0,965 0,923

1,000

1,000

0,935

0,935

Guzmania squarrosa

03001413(80)

0,987

0,982

0,879 0,906

0,998

1,000

0,978

0,967

Guzmania testudinis

03002900(36)

1,000

0,997

0,912 1,000

1,000

1,000

1,000

1,000

Guzmania vanvolxemii

03002892(23)

0,982

0,984

0,857 0,876

1,000

1,000

0,965

0,944

Guzmania variegata

03002081(37)

0,971

0,945

0,950 0,894

1,000

1,000

0,966

0,950

Guzmania wittmackii

03003236(24)

0,996

0,950

0,960 0,970

0,966

1,000

0,973

0,978

Mezobromelia bicolor

03003506(32)

0,993

0,982

0,854 0,955

1,000

1,000

0,980

0,953

Mezobromelia capituligera

03003817(27)

0,969

0,986

0,978 0,764

1,000

1,000

0,966

0,838

Mezobromelia pleiosticha

03002537(22)

0,980

0,952

0,928 0,900

1,000

0,998

0,959

0,882

Pitcairnia arcuata

03002425(37)

0,999

0,999

0,988 0,969

1,000

1,000

1,000

0,980

Pitcairnia bakeri

03002506(31)

1,000

0,970

1,000 0,948

1,000

1,000

0,994

0,977

Pitcairnia brongniartiana

03002590(18)

0,992

0,980

0,935 0,958

1,000

1,000

0,971

0,978

Pitcairnia dodsonii

03003379(26)

0,995

0,988

0,999 0,976

1,000

1,000

0,999

0,939

Pitcairnia ferrell-ingramiae

03128879(29)

1,000

0,987

0,959 0,993

1,000

1,000

0,993

0,992

Pitcairnia fusca

03003381(17)

1,000

0,922

1,000 0,983

1,000

1,000

1,000

0,984

Pitcairnia heterophylla

03000948(17)

1,000

0,978

0,906 1,000

1,000

1,000

1,000

0,971

Pitcairnia hitchcockiana

03003089(19)

1,000

0,980

0,989 1,000

1,000

1,000

1,000

0,971

Pitcairnia lehmannii

03002135(22)

0,942

0,918

0,833 0,860

0,942

1,000

0,921

0,936

Pitcairnia nigra

03002395(37)

0,999

0,993

0,970 0,992

1,000

1,000

0,984

0,986

Pitcairnia pungens

03000297(99)

0,992

0,980

0,896 0,969

1,000

1,000

0,920

0,982

Pitcairnia riparia

03000301(24)

1,000

0,964

0,977 1,000

1,000

1,000

0,986

0,955

Pitcairnia sceptriformis

03000635(20)

1,000

1,000

1,000 1,000

1,000

1,000

1,000

1,000

Pitcairnia simulans

03003391(25)

1,000

0,998

0,978 1,000

1,000

0,759

0,766

0,774

Pitcairnia sodiroi

03002803(30)

0,999

0,994

0,958 0,996

1,000

1,000

0,991

1,000

Pitcairnia trianae

03001900(24)

0,998

0,985

0,864 0,977

1,000

1,000

0,998

0,991

Puya clava-herculis

03002804(18)

0,997

0,986

0,906 0,983

1,000

1,000

1,000

0,986

Puya eryngioides

03002510(18)

1,000

0,992

0,938 1,000

1,000

1,000

1,000

0,992

Puya hamata

03001836(23)

0,990

0,879

0,950 0,969

1,000

0,996

0,987

0,876

Racinaea dielsii

03003835(20)

0,993

0,974

0,816 0,885

1,000

0,998

0,990

0,962

Racinaea parviflora

03003526(26)

1,000

0,983

1,000 0,995

1,000

1,000

0,984

0,981

Racinaea penlandii

03003528(31)

0,963

0,931

0,911 0,914

0,973

0,998

0,953

0,927

Racinaea riocreuxii

03003533(25)

0,946

0,948

0,881 0,927

0,995

0,993

0,884

0,896

133

Modelos predictivos de riqueza de diversidad vegetal

CÓDIGO

Conse.

Multi.

CART

Racinaea schumanniana

ESPECIE

03000003(51)

0,991

1,000

0,945 0,930

RLM

MARS DMG GARP MAXENT 1,000

1,000

0,976

0,959

Racinaea seemannii

03003494(27)

1,000

0,996

0,960 0,964

1,000

1,000

0,997

0,987

Racinaea spiculosa

03003845(44)

0,955

0,955

0,995 0,897

0,996

1,000

0,923

0,922

Racinaea tetrantha

03003495(69)

0,982

0,959

0,913 0,960

0,957

1,000

0,960

0,962

Ronnbergia deleonii

03003792(25)

0,998

0,959

0,968 0,864

1,000

1,000

0,999

0,962

Tillandsia asplundii

03001956(30)

0,986

0,984

0,820 0,964

0,980

1,000

0,966

0,972

Tillandsia buseri

03002894(30)

0,997

0,975

0,907 0,905

1,000

1,000

1,000

0,951

Tillandsia complanata

03000709(139)

0,957

0,826

0,906 0,886

0,983

1,000

0,901

0,948

Tillandsia confinis

03001484(55)

0,970

0,937

0,889 0,868

1,000

1,000

0,926

0,934

Tillandsia disticha

03000422(51)

0,952

0,907

0,864 0,940

0,997

1,000

0,911

0,965

Tillandsia fendleri

03000744(36)

0,972

0,923

0,790 0,711

0,947

1,000

0,945

0,857

Tillandsia incarnata

03000446(32)

0,998

0,978

0,950 0,965

1,000

1,000

1,000

0,977

Tillandsia lajensis

03002613(25)

1,000

1,000

1,000 1,000

1,000

1,000

1,000

0,997

Tillandsia latifolia

03000729(32)

0,985

0,953

0,981 0,917

1,000

1,000

0,964

0,965

Tillandsia narthecioides

03003137(57)

0,991

0,960

0,926 0,948

1,000

1,000

0,957

0,992

Tillandsia recurvata

03000584(47)

0,989

0,980

0,872 0,981

0,999

1,000

0,960

0,974

Tillandsia secunda

03000492(23)

0,998

0,989

0,909 0,942

1,000

1,000

0,998

0,996

Tillandsia stenoura

03001942(28)

0,994

0,945

0,840 0,960

0,981

1,000

0,994

0,988

Tillandsia superba

03002806(18)

1,000

0,937

1,000 0,963

1,000

1,000

0,967

0,963

Tillandsia tovarensis

03001559(19)

1,000

0,984

0,944 0,928

0,959

1,000

1,000

0,997

Tillandsia truncata

03002374(35)

0,956

0,935

0,883 1,000

0,999

1,000

0,983

0,955

Tillandsia usneoides

03000586(32)

0,970

0,905

0,865 0,964

0,997

1,000

0,888

0,959

Vriesea cylindrica

03002059(26)

0,908

0,868

0,761 0,803

0,915

0,998

0,929

0,965

Vriesea dubia

03002370(36)

0,926

0,880

0,821 0,867

0,966

1,000

0,941

0,913

Vriesea rubrobracteata

03009046(31)

0,982

0,985

0,967 0,885

1,000

0,999

0,978

0,952

Besleria barbata

04000115(115)

0,966

0,882

0,854 0,918

1,000

0,992

0,896

0,971

Capanea affinis

04000147(75)

0,995

0,940

0,948 0,988

1,000

1,000

0,981

0,976

Capanea grandiflora

04000149(15)

1,000

0,949

0,917 1,000

1,000

1,000

1,000

0,985

Columnea guttata

04000159(62)

0,973

0,956

0,981 1,000

1,000

0,943

0,908

0,919

Columnea inaequilatera

04000160(59)

0,982

0,947

0,972 0,926

0,992

1,000

0,905

0,971

Columnea schimpffii

04000175(25)

0,931

0,767

0,500 0,550

1,000

1,000

0,868

0,843

Columnea strigosa

04000178(158)

0,979

0,923

0,910 0,945

0,991

0,990

0,926

0,969

Diastema scabrum

04000196(85)

0,979

0,739

0,737 0,832

0,922

1,000

0,814

0,894

Heppiella verticillata

04000242(22)

0,986

0,976

0,875 0,981

1,000

1,000

0,960

0,979

Heppiella ulmifolia

04000289(134)

0,979

0,935

0,926 0,996

0,999

0,983

0,929

0,969

Alloplectus medusaeus

04000459(26)

0,989

0,966

0,955 0,810

1,000

1,000

0,978

0,899

Alloplectus panamensis

04000460(24)

0,994

0,939

0,908 0,942

1,000

1,000

0,972

0,944

Alloplectus ichthyoderma

04000469(76)

0,985

0,931

0,925 0,958

1,000

1,000

0,967

0,974

Besleria stricta

04000484(30)

0,995

0,940

0,913 0,936

1,000

1,000

0,980

0,948

Chrysothemis friedrichsthaliana

04000487(19)

1,000

0,844

0,972 1,000

1,000

1,000

0,967

0,938

Codonanthe crassifolia

04000490(31)

1,000

0,647

0,964 1,000

1,000

1,000

0,940

0,904

Codonanthe uleana

04000492(34)

0,949

0,873

0,917 0,915

0,971

1,000

0,918

0,945

Columnea angustata

04000495(75)

0,969

0,846

0,943 0,803

1,000

1,000

0,936

0,927

Diastema racemiferum

04000546(52)

0,980

0,844

0,810 0,918

1,000

1,000

0,913

0,989

Drymonia alloplectoides

04000548(25)

1,000

0,959

1,000 0,991

1,000

1,000

1,000

0,990

Drymonia coriacea

04000550(34)

0,941

0,753

0,740 0,936

0,970

1,000

0,850

0,915

Drymonia macrophylla

04000555(80)

0,948

0,827

0,802 0,922

0,975

0,999

0,884

0,921

Drymonia serrulata

04000561(76)

0,937

0,741

0,990 0,868

0,994

0,998

0,900

0,902

Drymonia turrialvae

04000564(36)

0,981

0,896

0,937 0,957

1,000

1,000

0,922

0,969

Drymonia warszewicziana

04000566(114)

0,943

0,747

0,985 0,929

0,991

0,980

0,861

0,933

GESNERIACEAE

134

PATRONES DE DIVERSIDAD. VERIFICACIÓN

CÓDIGO

Conse.

Multi.

CART

Gasteranthus wendlandianus

ESPECIE

04000575(32)

0,996

0,990

0,852 0,962

RLM

MARS DMG GARP MAXENT 0,997

1,000

0,973

0,996

Monopyle macrocarpa

04000580(74)

0,910

0,744

0,973 0,841

0,929

1,000

0,839

0,887

Neomortonia rosea

04000592(19)

1,000

0,999

1,000 1,000

1,000

1,000

1,000

0,997

Paradrymonia metamorphophylla

04000601(18)

0,987

0,977

0,990 0,899

1,000

1,000

0,982

0,928

Monopyle sodiroana

04000886(27)

0,987

0,899

0,957 0,917

0,992

1,000

0,999

0,963

Drymonia urceolata

04001006(80)

0,990

0,978

0,984 0,984

1,000

1,000

0,970

0,988

Columnea picta

04001007(128)

0,994

0,895

0,827 0,976

1,000

1,000

0,812

0,984

Kohleria inaequalis

04001008(36)

0,994

0,956

1,000 0,974

1,000

1,000

0,956

0,968

Alloplectus teuscheri

04001010(151)

0,994

0,952

0,987 0,928

0,996

1,000

0,955

0,991

Columnea tenensis

04001011(31)

0,917

0,793

0,877 0,922

1,000

1,000

0,863

0,881

Columnea dielsii

04001048(25)

0,991

0,873

0,913 0,961

1,000

1,000

0,980

0,972

Alloplectus schultzei

04001053(16)

0,995

0,952

0,857 0,962

0,895

1,000

0,988

0,974

Besleria aggregata

04001062(113)

0,986

0,951

0,903 0,964

0,994

1,000

0,956

0,982

Drymonia semicordata

04001064(21)

0,885

0,944

0,971 0,827

0,982

1,000

0,839

0,801

Gasteranthus corallinus

04001065(130)

0,957

0,766

0,845 0,946

0,977

0,991

0,880

0,970

Besleria solanoides

04001089(49)

0,981

0,927

0,958 0,938

1,000

0,998

0,938

0,935

Besleria variabilis

04001092(21)

1,000

0,911

0,933 1,000

0,997

1,000

0,984

0,968

Columnea ciliata

04001100(31)

1,000

0,998

1,000 1,000

1,000

1,000

1,000

1,000

Columnea ericae

04001102(155)

0,977

0,892

0,970 0,982

1,000

0,999

0,890

0,966

Columnea tessmannii

04001113(20)

1,000

1,000

1,000 1,000

1,000

1,000

1,000

1,000

Columnea villosissima

04001114(66)

0,965

0,893

0,827 0,941

0,998

1,000

0,899

0,962

Corytoplectus speciosus

04001118(19)

1,000

0,947

1,000 1,000

1,000

1,000

1,000

1,000

Drymonia affinis

04001123(34)

0,991

0,879

0,999 0,960

1,000

1,000

0,968

0,957

Drymonia coccinea

04001126(158)

0,977

0,881

0,932 0,946

0,998

0,995

0,931

0,980

Drymonia hoppii

04001134(98)

0,999

0,964

0,900 1,000

1,000

1,000

0,930

0,986

Drymonia pendula

04001137(79)

0,986

0,909

0,926 0,938

0,911

1,000

0,966

0,977

Kohleria spicata

04001161(105)

0,981

0,853

0,764 0,837

0,984

0,999

0,901

0,969

Nautilocalyx ecuadoranus

04001169(41)

0,983

0,940

0,900 0,946

0,998

1,000

0,958

0,971

Paradrymonia ciliosa

04001180(30)

0,898

0,757

0,902 0,758

0,991

1,000

0,782

0,705

Paradrymonia longifolia

04001183(20)

0,921

0,709

0,853 0,874

1,000

1,000

0,903

0,857

Columnea kucyniakii

04001234(23)

1,000

0,968

0,977 0,982

1,000

1,000

1,000

0,993

Columnea spathulata

04001411(58)

0,982

0,913

0,781 0,926

1,000

1,000

0,975

0,955

Pearcea sprucei

04001457(127)

0,984

0,975

0,928 0,972

0,997

0,990

0,968

0,972

Diastema affine

04001458(51)

0,978

0,816

0,962 0,764

1,000

1,000

0,917

0,935

Gasteranthus pansamalanus

04001469(56)

0,970

0,928

0,875 0,936

0,986

1,000

0,926

0,962

Alloplectus tetragonoides

04001488(133)

0,990

0,935

0,982 0,969

0,995

0,997

0,950

0,992

Columnea byrsina

04001495(30)

0,986

0,903

0,959 0,901

0,994

1,000

0,924

0,943

Columnea albiflora

04001505(18)

1,000

0,985

0,912 1,000

1,000

1,000

0,969

1,000

Columnea lehmannii

04001507(26)

1,000

1,000

1,000 1,000

1,000

1,000

1,000

1,000

Cremosperma castroanum

04001509(29)

0,991

0,902

0,975 0,952

1,000

1,000

0,967

0,978

Alloplectus dodsonii

04001526(42)

0,980

0,825

0,908 0,947

1,000

0,999

0,912

0,915

Columnea minor

04001532(72)

0,988

0,896

0,966 0,948

1,000

1,000

0,967

0,963

Cremosperma hirsutissimum

04001534(30)

1,000

0,985

0,857 0,972

1,000

1,000

0,967

0,964

Drymonia killipii

04001536(19)

0,996

0,926

0,879 0,984

1,000

1,000

0,944

0,944

Alloplectus tenuis

04001538(37)

1,000

0,939

0,891 0,990

1,000

1,000

1,000

0,983

Alloplectus bolivianus

04001572(19)

0,989

0,926

0,938 0,926

1,000

0,844

0,883

0,865

Alloplectus purpureus

04001573(25)

0,998

0,986

0,980 0,984

1,000

1,000

0,996

0,994

Alloplectus sprucei

04001580(75)

0,990

0,973

0,964 0,964

1,000

1,000

0,918

0,983

Gloxinia dodsonii

04001582(41)

1,000

0,987

0,973 1,000

1,000

1,000

0,988

0,995

Columnea fuscihirta

04001583(20)

0,965

0,959

0,875 0,785

0,956

1,000

0,954

0,915

Pearcea hispidissima

04001597(17)

0,983

0,942

0,833 0,929

1,000

1,000

0,948

0,975

135

Modelos predictivos de riqueza de diversidad vegetal

CÓDIGO

Conse.

Multi.

CART

Alloplectus herthae

ESPECIE

04001629(44)

0,995

0,980

0,934 0,971

RLM

MARS DMG GARP MAXENT 1,000

0,865

1,000

Besleria comosa

04001634(29)

0,980

0,870

0,992 0,920

0,997

0,990

0,958

0,927

Columnea kienastiana

04001667(25)

1,000

0,876

0,872 1,000

1,000

1,000

0,991

0,989

Pearcea schimpfii

04001748(19)

0,996

0,992

0,933 0,500

1,000

1,000

0,988

0,969

Kohleria villosa

04001790(56)

0,989

0,916

0,935 0,927

1,000

1,000

0,987

0,946

Columnea eburnea

04001800(63)

0,983

0,928

0,963 0,940

1,000

1,000

0,921

0,975

Gasteranthus quitensis

04001801(60)

0,998

0,983

0,895 0,993

1,000

1,000

0,993

0,995

Columnea rubriacuta

04001810(74)

0,996

0,951

0,994 0,992

1,000

1,000

0,856

0,990

Columnea minutiflora

04001912(38)

0,991

0,986

0,931 0,984

1,000

1,000

0,983

0,984

Pearcea abunda

04002078(27)

0,957

0,814

0,870 0,879

1,000

1,000

0,931

0,879

Pearcea reticulata

04002080(24)

0,968

0,928

0,864 0,811

0,998

1,000

0,911

0,953

Gasteranthus lateralis

04069106(22)

1,000

0,995

0,925 1,000

1,000

1,000

1,000

0,988

Drymonia brochidodroma

04071694(25)

1,000

0,964

0,837 0,983

1,000

1,000

0,975

0,950

Columnea mastersonii

04073943(36)

0,994

0,904

0,825 0,977

1,000

1,000

0,989

0,965

Columnea medicinalis

04073945(96)

0,989

0,903

0,977 0,947

1,000

1,000

0,927

0,957

Gasteranthus calcaratus

04079416(82)

0,981

0,913

0,981 0,968

1,000

0,999

0,941

0,954

Alloplectus grandicalyx

04217886(27)

1,000

0,998

0,938 1,000

1,000

1,000

0,998

0,984

Aniba guianensis

05800524(20)

1,000

0,936

1,000 0,904

1,000

1,000

1,000

0,958

Aniba hostmanniana

05800128(29)

0,886

0,769

0,500 0,735

0,968

0,988

0,906

0,726

Beilschmiedia alloiophylla

05802444(38)

0,938

0,731

0,938 0,879

0,823

1,000

0,832

0,876

Beilschmiedia costaricensis

05802678(21)

0,997

0,801

0,920 0,965

1,000

0,961

0,931

0,975

Cinnamomum napoense

05805581(26)

0,905

0,794

0,825 0,841

0,841

0,997

0,894

0,872

Cinnamomum triplinerve

05803333(40)

0,936

0,886

0,500 0,730

0,999

0,965

0,886

0,874

Endlicheria formosa

05802388(34)

0,975

0,956

0,889 0,978

1,000

0,996

0,949

0,893

Endlicheria griseo-sericea

05189478(26)

0,994

0,927

0,958 0,879

0,983

0,991

0,856

0,896

Endlicheria ruforamula

05189460(21)

0,997

0,904

0,861 0,978

1,000

1,000

0,986

0,935

Nectandra acutifolia

05800057(25)

0,951

0,862

0,748 0,500

0,962

1,000

0,800

0,848

Nectandra crassiloba

05805990(30)

0,935

0,901

0,839 0,784

1,000

1,000

0,905

0,846

Nectandra laurel

05801070(49)

0,995

0,917

0,979 0,988

0,992

0,999

0,968

0,979

Nectandra membranacea

05801086(85)

0,909

0,866

0,865 0,815

0,971

0,919

0,795

0,863

Nectandra obtusata

05806049(42)

0,982

0,925

0,895 0,979

1,000

0,996

0,953

0,957

Nectandra purpurea

05800084(54)

0,893

0,839

0,897 0,865

0,906

0,983

0,807

0,880

Nectandra reticulata

05800085(42)

0,984

0,775

0,950 0,801

0,983

0,947

0,888

0,833

Ocotea aciphylla

05800041(45)

0,932

0,868

0,824 0,844

0,985

0,976

0,873

0,883

Ocotea bofo

05801157(29)

0,974

0,660

0,954 0,753

1,000

0,998

0,895

0,830

Ocotea cernua

05800185(73)

0,839

0,641

0,679 0,693

0,810

0,957

0,756

0,748

Ocotea floribunda

05800218(41)

0,994

0,822

0,500 0,817

1,000

0,992

0,929

0,880

Ocotea infrafoveolata

05805586(34)

0,958

0,935

0,883 0,892

1,000

1,000

0,926

0,980

Ocotea insularis

05800241(80)

0,981

0,916

0,945 0,895

0,995

1,000

0,876

0,949

Ocotea javitensis

05804691(86)

0,957

0,902

0,870 0,934

0,999

0,996

0,818

0,823

Ocotea oblonga

05800282(32)

0,832

0,812

0,500 0,785

0,946

0,995

0,627

0,537

Ocotea quixos

05805788(21)

0,934

0,795

0,868 0,886

0,888

0,993

0,895

0,838

Persea mutisii

05801350(22)

0,987

0,971

0,900 0,950

1,000

1,000

0,967

0,987

Pleurothyrium trianae

05804299(40)

0,877

0,785

0,820 0,870

0,912

0,976

0,734

0,819

Rhodostemonodaphne kunthiana

05804394(37)

0,935

0,745

0,500 0,839

0,991

0,981

0,885

0,826

Abarema jupunba

06000004(26)

0,940

0,827

0,768 0,853

1,000

1,000

0,915

0,814

Abarema laeta

06076353(29)

0,850

0,801

0,773 0,714

0,956

1,000

0,834

0,803

Acacia macracantha

06004152(50)

0,978

0,929

0,838 0,950

1,000

1,000

0,930

0,920

0,986

LAURACEAE

PAPILIONACEAE

136

PATRONES DE DIVERSIDAD. VERIFICACIÓN

CÓDIGO

Conse.

Multi.

CART

Albizia multiflora

ESPECIE

06076498(29)

1,000

0,987

0,926 0,990

RLM

MARS DMG GARP MAXENT 1,000

1,000

0,978

0,990

Amicia glandulosa

06046603(24)

0,996

0,983

0,870 0,930

1,000

1,000

0,992

0,960

Andira inermis

06048538(22)

0,986

0,976

0,909 0,821

1,000

1,000

0,990

0,929

Astragalus geminiflorus

06016768(35)

0,992

0,987

0,926 0,995

1,000

1,000

0,922

0,992

Bauhinia aculeata

06027181(35)

0,963

0,900

0,900 0,965

0,942

1,000

0,935

0,948

Bauhinia brachycalyx

06000761(18)

0,973

0,871

1,000 0,744

0,988

1,000

0,947

0,811

Bauhinia guianensis

06027298(57)

0,908

0,901

0,789 0,909

0,984

1,000

0,392

0,366

Bauhinia tarapotensis

06043415(52)

0,932

0,874

0,825 0,864

0,988

1,000

0,905

0,984

Brownea coccinea

06003119(27)

0,990

0,980

0,955 0,933

1,000

1,000

0,995

0,966

Brownea grandiceps

06003122(134)

0,999

0,966

0,993 0,994

0,999

1,000

0,952

0,996

Brownea multijuga

06003135(26)

1,000

0,997

0,957 1,000

0,998

0,998

0,978

1,000

Browneopsis ucayalina

06003149(77)

1,000

0,980

0,977 0,990

0,999

1,000

1,000

0,997

Caesalpinia glabrata

06027587(47)

0,993

0,989

0,985 0,988

0,954

1,000

0,978

0,982

Caesalpinia spinosa

06003320(64)

0,999

0,979

0,885 0,976

1,000

1,000

0,984

0,986

Calliandra angustifolia

06004722(34)

0,986

0,961

0,995 0,981

1,000

1,000

0,961

0,954

Calliandra pittieri

06004911(17)

1,000

1,000

1,000 1,000

1,000

1,000

1,000

1,000

Calliandra trinervia

06004978(68)

0,995

0,966

0,961 0,960

0,995

1,000

0,959

0,961

Calopogonium mucunoides

06045056(29)

0,906

0,890

0,763 0,813

0,972

1,000

0,869

0,793

Cedrelinga cateniformis

06008019(36)

0,907

0,823

0,790 0,788

0,956

1,000

0,844

0,858

Centrolobium ochroxylum

06008024(19)

0,983

0,924

0,806 0,849

0,976

1,000

0,995

0,944

Chamaecrista nictitans

06028581(24)

0,930

0,934

0,900 0,820

0,895

1,000

0,898

0,906

Coursetia caribaea

06069026(22)

0,988

0,968

0,975 0,985

1,000

1,000

0,954

0,997

Coursetia dubia

06028870(34)

1,000

0,995

0,931 0,984

1,000

1,000

0,994

0,992

Coursetia grandiflora

06028872(16)

1,000

0,996

0,969 1,000

1,000

1,000

1,000

1,000

Crotalaria nitens

06029351(47)

0,926

0,821

0,770 0,910

0,991

1,000

0,825

0,877

Dalea coerulea

06014068(132)

0,991

0,979

0,981 0,994

1,000

0,993

0,964

0,984

Dalea humifusa

06014132(30)

1,000

0,986

0,964 1,000

1,000

1,000

0,999

0,994

Desmodium adscendens

06018304(57)

0,866

0,756

0,991 0,740

0,957

1,000

0,639

0,805

Desmodium axillare

06018324(34)

0,894

0,733

0,500 0,670

0,941

1,000

0,728

0,812

Desmodium intortum

06017674(25)

0,983

0,924

0,942 0,978

1,000

1,000

0,924

0,934

Desmodium molliculum

06018472(38)

0,977

0,948

0,879 0,960

0,988

1,000

0,968

0,968

Dialium guianense

06017824(42)

0,980

0,939

0,989 0,972

0,988

1,000

0,942

0,959

Dussia lehmannii

06000613(21)

0,976

0,927

0,778 0,878

0,969

1,000

0,899

0,896

Dussia tessmannii

06000618(28)

0,962

0,915

0,995 0,897

0,976

1,000

0,952

0,866

Erythrina amazonica

06009244(29)

0,985

0,888

0,917 0,965

0,965

1,000

0,959

0,968

Erythrina edulis

06009270(82)

0,971

0,928

0,871 0,933

0,973

1,000

0,908

0,950

Erythrina megistophylla

06009298(25)

1,000

0,950

0,995 1,000

1,000

1,000

0,991

0,927

Erythrina peruviana

06009309(24)

0,997

0,938

0,850 0,981

1,000

1,000

0,987

0,983

Erythrina poeppigiana

06009315(26)

0,933

0,783

0,977 0,783

0,958

1,000

0,887

0,748

Erythrina schimpffii

06009322(26)

0,976

0,954

0,500 0,916

1,000

1,000

0,924

0,846

Erythrina smithiana

06009325(37)

0,904

0,879

0,806 0,898

0,950

1,000

0,882

0,876

Geoffroea spinosa

06048869(29)

0,998

0,989

0,979 0,996

1,000

1,000

0,966

0,996

Gliricidia brenningii

06083424(21)

0,960

0,963

0,944 0,957

1,000

1,000

0,932

0,966

Hymenaea oblongifolia

06005959(30)

0,958

0,952

0,962 0,817

1,000

1,000

0,951

0,922

Indigofera suffruticosa

06021076(40)

0,970

0,867

0,500 0,848

1,000

1,000

0,837

0,877

Inga acreana

06006102(51)

0,941

0,885

0,849 0,887

0,996

1,000

0,926

0,881

Inga alba

06021157(35)

0,961

0,800

0,925 0,855

0,996

1,000

0,940

0,858

Inga auristellae

06006123(47)

0,976

0,981

0,940 0,933

1,000

1,000

0,953

0,961

Inga capitata

06006163(52)

0,885

0,908

0,978 0,827

0,981

1,000

0,906

0,805

Inga cayennensis

06006177(34)

0,999

0,994

0,982 0,979

1,000

1,000

1,000

0,976

137

Modelos predictivos de riqueza de diversidad vegetal

CÓDIGO

Conse.

Multi.

CART

Inga ciliata

ESPECIE

06006188(48)

1,000

0,980

1,000 1,000

1,000

1,000

1,000

0,999

Inga coruscans

06006205(28)

0,771

0,625

0,500 0,644

0,998

1,000

0,735

0,655

Inga densiflora

06006216(46)

0,952

0,902

0,900 0,877

0,937

1,000

0,906

0,925

Inga edulis

06006228(86)

0,865

0,768

0,878 0,789

0,974

1,000

0,759

0,769

Inga insignis

06006299(20)

1,000

0,944

0,882 0,994

0,991

1,000

0,992

0,985

Inga leiocalycina

06008789(37)

0,911

0,807

0,700 0,758

0,958

1,000

0,846

0,816

Inga marginata

06021299(94)

0,961

0,830

0,779 0,827

0,788

1,000

0,816

0,832

Inga multinervis

06076413(44)

0,979

0,500

0,923 0,904

1,000

1,000

0,917

0,944

Igna novilis

06008849(80)

0,941

0,805

0,960 0,895

0,954

1,000

0,859

0,907

Inga oerstediana

06008862(56)

0,874

0,754

0,799 0,725

0,998

1,000

0,753

0,815

Inga punctata

06008911(73)

0,877

0,821

0,843 0,811

0,928

1,000

0,827

0,859

Inga ruiziana

06008938(87)

0,926

0,884

0,807 0,876

0,936

1,000

0,869

0,890

Inga sapindoides

06008949(41)

0,898

0,802

0,717 0,749

0,978

1,000

0,779

0,846

Inga sertulifera

06021380(20)

0,991

0,947

0,974 0,985

1,000

1,000

0,964

0,969

Inga silanchensis

06047765(20)

1,000

0,926

0,500 1,000

1,000

1,000

0,997

0,986

Inga spectabilis

06021384(39)

0,871

0,778

0,700 0,822

0,972

1,000

0,680

0,799

Inga tenuistipula

06009013(30)

1,000

0,963

0,942 1,000

1,000

1,000

0,986

0,963

Inga thibaudiana

06009018(59)

0,938

0,872

0,870 0,851

0,997

1,000

0,878

0,921

Inga velutina

06009037(25)

0,995

0,891

0,932 0,991

0,993

1,000

0,907

0,995

Leucaena trichodes

06021952(57)

0,995

0,979

0,969 0,980

1,000

1,000

0,985

0,997

Lonchocarpus seorsus

06090579(21)

0,983

0,500

0,969 0,958

1,000

1,000

0,990

0,929

Lonchocarpus utilis

06009939(22)

0,984

0,921

0,921 0,968

1,000

1,000

0,971

0,979

Lupinus microphyllus

06037051(65)

0,991

0,991

0,971 0,988

1,000

1,000

0,946

0,982

Lupinus pubescens

06014482(26)

1,000

1,000

0,974 0,998

1,000

1,000

0,985

0,995

Lupinus ramosissimus

06037092(17)

0,980

0,926

0,906 0,953

1,000

1,000

0,936

0,980

Lupinus tauris

06037130(54)

0,989

0,511

0,989 0,972

0,999

1,000

0,966

0,983

Machaerium cuspidatum

06014790(51)

0,990

0,942

0,905 0,910

0,992

1,000

0,986

0,974

Machaerium millei

06014845(30)

0,977

0,950

0,880 0,930

0,998

1,000

0,957

0,970

Macrolobium acaciifolium

06014898(49)

0,998

0,950

0,933 1,000

1,000

1,000

0,979

0,939

Mimosa acantholoba

06036082(23)

0,989

0,973

1,000 0,993

1,000

1,000

0,914

0,924

Mimosa albida

06036107(72)

0,977

0,945

0,859 0,950

0,996

1,000

0,920

0,937

Mimosa debilis

06036252(17)

1,000

0,997

0,971 0,993

1,000

1,000

1,000

1,000

Mimosa myriadenia

06036550(28)

0,947

0,882

0,870 0,931

1,000

1,000

0,944

0,928

Mimosa polydactyla

06045255(37)

0,985

0,933

0,887 0,913

1,000

1,000

0,952

0,957

Mimosa quitensis

06016507(39)

0,990

0,981

0,829 0,983

0,947

0,995

0,959

0,963

Mucuna rostrata

06000203(21)

0,866

0,742

0,853 0,650

0,867

1,000

0,832

0,730

Myroxylon balsamum

06003351(21)

0,834

0,713

0,500 0,690

0,801

1,000

0,877

0,746

Otholobium brachystachyum

06072539(21)

0,997

0,997

0,974 0,997

1,000

1,000

0,971

0,997

Otholobium mexicanum

06071171(103)

0,999

0,996

0,970 0,990

1,000

1,000

0,997

0,993

Parkia balslevii

06067609(50)

0,979

0,923

0,938 0,948

1,000

1,000

0,929

0,934

Parkia multijuga

06031301(36)

0,971

0,912

0,912 0,914

1,000

1,000

0,944

0,956

Phaseolus coccineus

06012164(17)

1,000

0,973

0,933 0,976

1,000

1,000

1,000

0,982

Pithecellobium excelsum

06031904(50)

0,998

0,990

0,966 0,997

1,000

1,000

0,982

0,992

Platymiscium stipulare

06032022(20)

0,918

0,827

0,896 0,856

0,997

1,000

0,887

0,845

Prosopis juliflora

06032104(28)

1,000

0,991

0,981 0,974

1,000

1,000

0,997

0,998

Pseudosamanea guachapele

06015326(17)

0,938

0,957

0,500 0,910

1,000

1,000

0,919

0,855

Pterocarpus amazonum

06015486(19)

0,926

0,922

0,833 0,785

1,000

1,000

0,870

0,831

Senna alata

06032838(23)

0,867

0,837

0,500 0,693

0,991

1,000

0,851

0,804

Senna bacillaris

06041262(83)

0,971

0,961

0,951 0,972

0,998

0,987

0,945

0,958

Senna bicapsularis

06032844(30)

0,983

0,940

0,885 0,972

1,000

1,000

0,937

0,975

Senna dariensis

06041308(43)

0,990

0,947

0,937 0,950

1,000

1,000

0,957

0,974

138

RLM

MARS DMG GARP MAXENT

PATRONES DE DIVERSIDAD. VERIFICACIÓN

CÓDIGO

Conse.

Multi.

CART

Senna incarnata

ESPECIE

06041351(16)

1,000

0,996

0,933 1,000

RLM

MARS DMG GARP MAXENT

Senna macrophylla

06041374(75)

0,970

0,922

0,892 0,926

0,955

1,000

0,906

0,956

Senna mollissima

06041385(34)

0,997

0,960

0,997 0,991

1,000

1,000

0,987

0,988

Senna multiglandulosa

06041394(86)

0,998

0,981

0,965 0,997

1,000

1,000

0,974

0,996

Senna multijuga

06041395(28)

1,000

0,998

1,000 0,992

1,000

1,000

1,000

0,996

Senna pistaciifolia

06041468(22)

1,000

0,997

1,000 1,000

1,000

1,000

1,000

1,000

Senna reticulata

06041488(28)

0,941

0,903

0,714 0,886

0,995

1,000

0,863

0,885

Senna ruiziana

06041497(50)

0,954

0,927

0,841 0,915

1,000

1,000

0,862

0,905

Stryphnodendron porcatum

06070915(25)

0,972

0,872

0,870 0,929

0,960

1,000

0,905

0,967

Swartzia arborescens

06001674(33)

1,000

0,971

0,917 1,000

1,000

1,000

0,978

0,973

Swartzia bombycina

06064475(24)

0,998

0,957

1,000 0,995

1,000

1,000

1,000

1,000

Swartzia haughtii

06013516(48)

0,998

0,960

0,892 1,000

1,000

1,000

0,980

0,987

Swartzia simplex

06033289(72)

0,973

0,949

0,894 0,929

0,986

1,000

0,960

0,959

Vicia andicola

06034617(45)

0,989

0,964

0,949 0,959

0,997

1,000

0,967

0,974

Vicia setifolia

06007255(47)

0,998

0,997

0,987 0,977

1,000

1,000

0,996

0,992

Zygia coccinea

06075865(72)

0,993

0,938

0,933 1,000

1,000

1,000

0,943

0,984

Zygia heteroneura

06007142(23)

1,000

0,990

0,932 0,988

1,000

1,000

1,000

0,988

Zygia lathetica

06076101(27)

0,996

0,500

0,904 1,000

1,000

1,000

0,940

0,982

Zygia longifolia

06013106(36)

0,932

0,875

0,833 0,855

1,000

1,000

0,834

0,900

1,000

1,000

1,000

1,000

4.6.2. ANEXO II: Flujo de trabajo En este Anexo se muestran los pasos más importantes para llevar a cabo este capítulo. Con ello queremos mostrar de una forma ordenada los pasos que se deben dar para realizar trabajos de modelado ecológico. Una parte del proceso está automatizado mediante diferentes sintaxis de programación (ArcInfo, SPSS, CART y MARS) elaboradas por nosotros. Esta automatización ha permitido disminuir la posibilidad de errores humanos.

A.- Preparación de los datos A.1.- Crear un árbol de directorios acorde con los objetivos y datos del proyecto. Donde se almacenan todos los datos de partida y todos los datos creados durante el desarrollo del proyecto. Los directorios deben tener nombres cortos (no más de 9 dígitos) y no deben contener espacios. A.2.- Generar un polígono marco sin islas que se empleará como máscara (extensión) del análisis. Se almacena como F:\FBBVA\SUPPLM\sample_mask.shp A.3.- Los datos de presencia de las especies se guardan en tablas diferentes, una de ellas para cada familia. Por ejemplo la tabla de las aráceas se almacena en el directorio F:\FBBVA\PLANTS\01ARAC\ 01araceae.mdb. Esta tabla incluirá los siguientes campos: “TAX_ID” “REC_ID” “FAMILY_NAM” “FULL_NAME” “CNTRY_NAME” “PROV_NAME” “LOWER_NAME” “ELEV_DISP” “COORD_DISP” “COLLECTOR” “SENIOR_COL” “COLL_NUMB” “DATE_DISP” “DET_BY” “Y_LAT” “X_LONG” “LOCALITY_D” ”PRES_AUS”

139

Modelos predictivos de riqueza de diversidad vegetal

Estos campos tendrán los siguientes valores, veamos un ejemplo: “01000001” “381000” “Araceae” “Anthurium acrobates Sodiro” “Ecuador” “Sucumbios” “Sucumbios” “190 m” “0,33S 075,13W” “Lawesson, J.E., T. Læsse & P.M. Jorgensen” “LAWESSON” “44466,00000” “16 Jun 1983 - 17 Jun 198” “T. Croat, 1985” “-0,55000” “-75,21660” “vic. Redondo Cocha” “1” El campo “Tax_id” es un código específico (, de ahora en adelante) generado por nosotros. Las dos primero dígitos indican la familia (01 = araceae, 02 = bignoniaceae, 03 = bromeliaceae, 04 = gesneriaceae, 05 = lauraceae, 06 = papilionaceae), los tres siguientes el género, y los tres últimos la especie. Este campo tendrá formato de texto. Para posteriores trabajos se recomienda no comenzar este código por cero, puede generar problemas en fases posteriores a la hora de generar archivos en formato ráster. El campo "Pres_aus" tiene valor “1” para todas las filas y formato de número. Este valor índica presencia de la especie. Agrupar subespecies dentro una misma especie. A.4.- Convertir esta tabla en un tema de puntos (formato shapefile de ArcView). Seleccionamos aquellas especies que tienen más de 15 colecciones: Primero exportar los datos en una tabla en formato DBASEIV de Excel. Abrir un proyecto de ArcView, abrir el modulo de tablas (“Tables”), carga la tabla (“Add”), abrir el modulo de vista (“View”) y seguir las siguientes opciones: “View”, “Add event theme” y seleccionar las siguientes opciones:

A continuación seguir los siguientes pasos: “Theme”, “Conver to Shapefile” y guardar el tema de puntos en el siguiente directorio F:\FBBVA\PLANTS\01ARAC\01arac.shp. A.5.- Revisar los datos de georreferenciación de todas las especies. Para ello utilizar mapas en papel, mapas digitales, gazetteer, ArcMap, y la información registrada en la tabla (colector, localidad, identificador, etc). Si los datos no ofrecen suficiente fiabilidad eliminarlos.

140

PATRONES DE DIVERSIDAD. VERIFICACIÓN

A.6.- Descargar variables independientes (19 variables climáticas de WorldCLim) y recortarlas para la zona de estudio. Almacenarlas en el directorio F:\FBBVA\INDVAR\ACTUAL A.7.- Proyectar al geoide de referencia (WGS84) las variables de WorlClim y los archivos de presencia de las diferentes familias. Formato vectorial: En ArcMap seguir los siguientes pasos: Activar ArcTool Box, Data Management Tools, Projections and transformations, Define projection (Buscar el shapefile que queremos georreferenciar), Select a predefine coordinate system. Geographic coordinate system; World; WGS 1984.prj Formato ráster: desde ArcInfo 9.1 podemos ejecutar la sintaxis “07_wgs84.aml”, para poder ejecutarla tenemos que situarnos en el directorio en el que están los ráster que queremos georreferenciar.

B.- Generación del ráster de muestreo B.1.- Para cada familia generamos un proyecto de ArcView (F:\FBBVA\PLANTS\01ARAC\sampling_araceae.apr) Ajustar propiedades de la vista: • Map Units: decimal degrees. • Distance Units: kilometres. Generar una vista, donde debemos cargar: • Los puntos de la familia (F:\FBBVA\PLANTS\01ARAC\01arac.shp). • Un ráster de WorldClim para usar de plantilla en Analysis – Properties. • Polígono marco sin islas (F:\FBBVA\SUPPLM\sample_mask.shp), se empleará como máscara en los análisis. B.2.- Para saber el número de presencias de cada una de las especie (sólo vamos a trabajar con aquellas especies que contengan un mínimo de 15 presencias), abrir la tabla que contiene la información para toda la familia (F:\FBBVA\PLANTS\01ARAC\01arac.dbf), sumar (Σ) por la columna “Tax_id” y añadimos (“Add”) la columna “FULL_NAME”, para conocer el nombre de la especie. Exportar esta tabla y almacenar en el directorio: F:\FBBVA\PLANTS\01ARAC\01arac_species.dbf”. Convertir en un archivo de texto separado por comas (01arac_species.csv) y eliminamos el archivo *.dbf. Proceso para generar los datos de presencia para cada una de las especies B.3.- Seleccionar (“Query”) la especie en el tema de puntos de la familia. Seguir el siguiente esquema:

141

Modelos predictivos de riqueza de diversidad vegetal

B.4.- Convertir en un tema de puntos (shapefile) que se almacena de la siguiente forma: F:\FBBVA\PLANTS\01ARAC\01001001(n)_all.shp. Siendo “n” el número de presencias total para la especie con la que estamos trabajando. B.5.- Transformar a ráster con el nombre p. F:\FBBVA\PLANTS\01ARAC\01001001p Coger el campo “pres_aus” como valor de las celdas (1). Este valor indica presencia de la especie en análisis posteriores. No añadir el resto de los datos al nuevo ráster. Proceso para generar pseudo-ausencias para cada especie B.6.- Cargar la extensión “Random point generator 1.28” en el mismo proyecto de ArcView (File, Extensions). Previamente tenemos que guardar la extensión correspondiente (Random point generator 1.28) en el directorio: C:\ESRI\AV_GIS30\ARCVIEW\EXT32\ Seleccionar la opción: “with respect to polygons in a polygon theme”. Generar n puntos (n= número de presencias) siguiendo el esquema siguiente:

142

PATRONES DE DIVERSIDAD. VERIFICACIÓN

En este caso n (número de presencias) = 20 Salvar el tema de puntos que hemos generado como F:\FBBVA\PLANTS\01ARAC\n.shp Proceso para seleccionar pseudo-ausencias situadas a una distancia inferior de 30 km respecto de las presencias y borrarlas (zona tampón) B.7.- Seleccionar (opción “Query” de ArcView) la especie en el tema de puntos de la familia (arac.shp). B.8.- Activar el tema de puntos que acabamos de de crear (n.shp), haciendo clic con el ratón sobre él. B.9.- Seleccionar los puntos ejecutando la opción “Select by Theme”, donde elegimos la siguientes opciones:

143

Modelos predictivos de riqueza de diversidad vegetal

B.10.- Para eliminar los puntos seleccionados seguir los siguientes pasos: “Table”, “start editing”, “delete records” y “stop editing”. B.11.- Transformar a ráster con el mismo nombre (n) y elegir la siguiente opción: “Pick field for cell values: Sample_mas”. Guardar en el directorio F:\FBBVA\PLANTS\01ARAC\01001001n Proceso para sumar los ráster de presencia y ausencia B.12.- Ejecutar desde ArcInfo Æ Arc: &r 01_sumagrid (SIN AÑADIRLE el sufijo n ni p). Se trata de una sintaxis con la que obtenemos un ráster con valores de 1 (presencia) y 0 (ausencia), se almacena automáticamente en F:\FBBVA\PLANTS\01ARAC\01001001t Proceso para crear archivo de texto con el valor de las variables independientes para las localidades de presencia y ausencia de la especie B.13.- Ejecutar desde Arcinfo Æ Arc: &r 02_sample Con esta sintaxis obtenemos un archivo de texto con los valores de las 19 variables bioclimáticas en las localidades de presencia o ausencia de la especies. Estos datos se utilizarán para realizar el análisis estadístico y los diferentes modelos con los diferentes métodos. El archivo de texto se almacena automáticamente en el directorio: F:\FBBVA\TABLES\01ARAC\SAMPLE\01000001(39)_01.txt En este ejemplo “39” es el número de colecciones que existe para esta especie (01000001) en la base de datos. “01” nos indica que empleamos aproximadamente el mismo número de presencias que de ausencias. Anteriormente realizamos diferentes análisis con un mayor número de pseudo-ausencias (doble, triple, etc.) y vimos que se obtienen resultados muy similares. B.14.- Repetir el paso 2 para todas las especies que tengan más de 15 presencias.

C.- Análisis estadístico y proceso para generar modelos con RLM, CART y MARS Análisis estadísticos y análisis de casos atípicos

144

PATRONES DE DIVERSIDAD. VERIFICACIÓN

C.1.- Abrir la sintaxis de SPSS “_01_FBBVA_IMPORT.SPS” y remplazar el valor empleando CTRL-H para evitar posibles errores (2 cambios). Ejecutar la sintaxis. Esta sintaxis importa el archivo de muestreo que hemos elaborado anteriormente y lo convierte en un archivo de datos de SPSS (*.sav), elimina todos los datos que tengan valores perdidos (‘missing’) y lo almacena como: F:\FBBVA\TABLES\01ARAC\SPSS\.sav C.2.- Ejecutar la sintaxis de SPSS “_02_FBBVA EXPLORE & LMR.SPS” Esta sintaxis realiza las siguientes acciones: •

• •







Crea dos nuevas variables: ”filter_$” y “casenum” . La primera se utiliza para seleccionar los puntos de presencia (pres_aus = 1) en los análisis exploratorios que se ejecutan posteriormente. La segunda variable (“casenum”) se utiliza en el proceso de ejecución de la RLM y para calcular las distancia de Mahalanobis. Un análisis de correlación entre las variables de temperatura y otro entre las variables de precipitación. Una serie de análisis para cada una de las variables bioclimáticas por separado: o Estadística descriptiva y un histograma. o Los análisis de normalidad de Kolmogorov-Smirnov y Shapiro-Wilk; casos atípicos univariantes y multivariantes. o Boxplot de todas las variables independientes. Una regresión lineal para poder generar la distancia de Mahalanobis para cada uno de los puntos de presencia respecto al centroide del espacio multivariante. Una exploración del gráfico (boxplot) de las distancias de Mahalanobis permite observar posibles datos atípicos (outliers). Ejecuta un modelo de Regresión Logística Multivariante (RLM) por pasos y nos indica la ecuación (constantes y variables incluidas en el modelo). También añade una nueva columna al archivo de datos con la probabilidad predicha por este modelo en las localidades de presencias y ausencia. Salva los resultados de este análisis en un archivo de resultados de SPSS (*.spo): F:\FBBVA\TABLES\01ARAC\SPSS\.spo

C.3.- Analizar los resultados de estos análisis, especialmente los casos atípicos. Si existe uno o varios casos atípicos (outliers) revisar toda la información para estas colecciones: localidad, recolector, quien identificó la colección, etc. Si existe algún error en la georreferenciación rectificarlo. Si no es posible o los datos sobre la identificación no ofrecen suficiente confianza eliminar ese registro. C.4.- Si existen casos atípicos y se han eliminado volver a correr la sintaxis hasta que no existan casos atípicos. C.5.- Eliminar del análisis todas aquellas especies que tengan menos de 15 datos de presencia. Tener presente que el número de presencias se ve reducido después de descartar casos atípicos, datos perdidos (missing) y colecciones que presentan en la misma celda de un kilómetro de lado. Proceso para generar modelos de CART C.6.- Ir al directorio F:\FBBVA\TABLES\01ARAC\CART y comprimir los archivos que existan procedentes del análisis de la anterior especie, dentro del archivo “CART.rar”

145

Modelos predictivos de riqueza de diversidad vegetal

C.7.- Abrir la sintaxis del programa CART (*.cmd) que se encuentra en ese directorio con un editor de texto. Remplazar de la anterior especie por la especie que vamos a ejecutar ahora. Emplear la opción “reemplazar” del editor de texto para no cometer errores. Guardar la sintaxis con el nombre .cmd C.8.- Ejecutar el programa CART 5.0 y correr la opción “submit command file” buscar la sintaxis que acabamos de crear (.cmd) Esta sintaxis ejecuta el modelo de CART con los parámetros seleccionados y almacena los resultados del análisis (valores de probabilidad predichos por el modelo, árbol de clasificación, etc.) en el directorio: F:\FBBVA\TABLES\01ARAC\CART Proceso para generar modelos de MARS C.9.- Ir al directorio F:\FBBVA\TABLES\01ARAC\MARS y comprimir los archivos que existan procedentes del análisis de la anterior especie, dentro del archivo “MARS.rar” C.10.- Abrir la sintaxis del programa MARS (*.cmd) que se encuentra en ese directorio con un editor de texto. Remplazar de la anterior especie por la especie que vamos a ejecutar ahora. Emplear la opción “reemplazar” del editor de texto para no cometer errores. Guardar la sintaxis con el nombre .cmd C.11.- Ejecutar el programa MARS 2.0 y correr la opción “submit command file” buscar la sintaxis que acabamos de crear (.cmd). Esta sintaxis ejecuta el modelo de MARS con los parámetros seleccionados y almacena los resultados del análisis (valores de probabilidad predichos por el modelo, funciones básicas, nodos, gráficos, etc.) en el directorio: F:\FBBVA\TABLES\01ARAC\MARS Mediante esta sintaxis se generan un total de 30 modelos para cada una de las especies, variando los distintos parámetros que permite el análisis (máximo número de funciones básicas, velocidad del análisis, variables incluidas en el análisis y si se permiten interacciones entre las funciones básicas o no). Los resultados de cada de los modelos se guardan según un código que sigue las siguientes indicaciones:

+ L (función logit)

Nº de funciones básicas

speed factor

1|12= nº de las variables eliminadas int= se incluyen todas las variables

n= no se permiten interacciones entre funciones básicas y= se permiten interacciones

Proceso para seleccionar el modelo con mejor bondad de ajuste de MARS C.12.- Abrir la sintaxis de SPSS “_03_FBBVA_MATCH_FILES.SPS”. Remplazar utilizando CTRL+H para evitar errores (64 cambios). Ejecutar la sintaxis. Esta sintaxis abre los archivos donde se encuentran las probabilidades predichas por CART y por los 30 modelos de MARS, calcula la función “logit” (valores comprendidos entre 0 y 1) para los 30 modelos de MARS y pega estas probabilidades predichas como nuevas columnas en el archivo que almacena los datos para esta especie: F:\FBBVA\TABLES\01ARAC\SPSS\.sav C.13.- Ejecutar la sintaxis de SPSS “_04_FBBVA_ROC_AREA.SPS”.

146

PATRONES DE DIVERSIDAD. VERIFICACIÓN

Esta sintaxis calcula el estadístico AUC para todos los modelos y almacena los resultados en el archivo .spo, que previamente tenemos que tener abierto. De esta forma se puede comprobar que modelo de MARS presenta una mejor consistencia y seleccionarlo para los siguientes pasos. Si varios modelos presentan la misma consistencia, seleccionamos el modelo más sencillo. Proceso para generar modelos binarios de MARS presencia/ausencia e implementar ambos modelos (MARS y MARS P/A) en un SIG C.14.- Una vez seleccionado el modelo de MARS con mejor bondad de ajuste (paso anterior), ir al directorio F:\FBBVA\TABLES\01ARAC\_LOGS y abrir el archivo de texto (*.txt) correspondiente al modelo seleccionado: Por ejemplo: 01000001(39)_01_154intn_MARS_log.txt Seleccionar y copiar las funciones básicas de este modelo. C.15.- Ejecutar la sintaxis “_05_FBBVA_SIMTEST.SPS” Mediante esta sintaxis se genera un archivo de texto en el que se incluyen los valores predichos por el mejor modelo de MARS y lo almacena en el directorio: F:\FBBVA\TABLES\01ARAC\SIMTEST\st_.txt Este archivo será necesario en el siguiente paso. C.16.- Ejecutar el programa SIMTES desde MS-DOS para calcular el punto de corte para este modelo (cut for best classification rate). En Windows: Inicio -> ejecutar -> cmd Y desde MS-DOS ejecutar los siguientes comandos: F: cd: F:\FBBVA\TABLES\01ARAC\SIMTEST ST 01001001 El programa nos proporciona el punto de corte óptimo (cut for best classification rate). C.17.- Ir al directorio F:\FBBVA\_AML y abrir la sintaxis “04_MARS.aml” Remplazar los siguientes datos: , punto de corte óptimo, funciones básicas (eliminar puntos y comas) y modelo de MARS con mejor consistencia. Y guardar el archivo como M_.aml Ejecutar esta sintaxis desde ArcInfo: &r M_ Esta sintaxis genera dos modelos (en formato ráster) uno de MARS y otro de MARS P/A y los almacena directamente en el directorio F:\FBBVA\MODELS\01ARAC con el nombre m_ y m_pa Proceso para implementar los modelos de CART en un SIG C.18.- El proceso para implementar este modelo en un SIG resulto muy complejo para llevarlo a cabo para un número tan elevado de especies. Además los mapas resultantes estaban demasiado pixelados, de forma que no se ajustan a patrones naturales; y los resultados del estadístico AUC siempre ofrecieron resultados muy bajos. Por estos motivos se decidió no emplear este método en los siguientes pasos.

147

Modelos predictivos de riqueza de diversidad vegetal

Proceso para implementar los modelos de RLM en un SIG C.19.- Ir al directorio F:\FBBVA\TABLES\01ARAC\SPSS\ y abrir el archivo de resultados de SPSS .spo Buscar los parámetros de la RLM. C.20.- Ir al directorio F:\FBBVA\_AML y abrir la sintaxis 4_LMR.aml Remplazar y los parámetros de la RLM y guardarlo como RLM_.aml C.21.- Ejecutar este AML desde ArcInfo: &r LMR_ Esta sintaxis implementa el modelo de RLM y genera un mapa (formato ráster) y lo almacena en el directorio F:\FBBVA\MODELS\01ARAC con el nombre lr C.22.- Repetir el paso 3 para todas las especies.

D.- Proceso para generar los modelos de DMG D.1.- En un primer momento ejecutamos los modelos con el software DOMAIN, pero tras comprobar un error en la programación de este software, empleamos el SIG de libre difusión DIVA-GIS. D.2.- Trasformar las 19 variables bioclimáticas en formato ráster de ESRI en formato de texto (ASCII). Este proceso se puede realizar con una sintaxis o en ArcMap. IMPORTANTE: cuando se trasforma el grid de formato ráster (ESRI) a formato ASCII los datos del encabezado tienen una coma como símbolo decimal. Hay que cambiar las comas por puntos. D.3.- Transformar las 19 variables de formato ASCII a formato GRI de DIVA, mediante el programa DIVA-GIS, en la opción “Data” “Import grid file”. Se almacenan en el directorio F:\FBBVA\DIVA\INDVAR\ACTUAL D.4.- Generar un tema de puntos en ArcView con las especies que vamos a modelizar de cada familia. Para ello seguir los pasos indicados en este diagrama para cada especie (todas las especies que presentan más de 15 presencias y que han sido empleadas en otros métodos) haciendo clic en el botón “add to set”. No utilizar la opción “new set”

D.5.- Eliminar los casos atípicos del tema de puntos que se acaba de generar.

148

PATRONES DE DIVERSIDAD. VERIFICACIÓN

D.6.- Abrir el programa DIVA-GIS y generar un “stack” con las 19 variables climáticas. Hacer clic sobre el menú “stack" y después sobre “make stack". D.7.- Cargar el tema de puntos de la familia con la que se va a trabajar. Hacer clic en “modeling” y seguir los siguientes esquemas:

Mediante este proceso se generan los modelos de DMG en formato GRI de DIVA. Almacenarlos en el directorio F:\FBBVA\DIVA\OUTPUT\01ARAC D.8.- Repetir el proceso, seleccionando “DOMAIN TRU/FLASE” en lugar de “DOMAIN”, de esta forma se ejecutan los modelos de presencia/ausencia para este algoritmo (punto de corte de 95). D.9.- Convertir los modelos en formato GRI en formato ASCII. Para ello hacer clic en “data”, “export gridfile” y “multiple files” D.10.- Ejecutar desde ArcInfo la sintaxis “05_Diva_asciitoraster.aml”. Esta sintaxis trasforma los grid de formato ASCII a formato ráster de ESRI. Guarda los modelos el siguiente directorio F:\FBBVA\MODELS\01ARAC\dv D.11.- Repetir el paso 4 para todas las familias.

E.- Proceso para generar los modelos de GARP E.1.- Ejecutar la sintaxis de SPSS “06_export_points.sps” Esta sintaxis genera los archivos de muestreo para cada especie necesarios para ejecutar este método. Este archivo contiene los valores de las 19 variables bioclimáticas para las localidades de presencia de la especie. Estos archivos se almacenan automáticamente en el directorio F:\FBBVA\GARP\PLANTS\01ARAC E.2.- Abrir estos archivos de muestreo uno por uno. Remplazar los espacios por comas.

149

Modelos predictivos de riqueza de diversidad vegetal

Añadir una nueva columna con el valor: “” (importante: no olvidarse de la coma en todas las celdas). Añadir una nueva fila al comienzo, donde escribimos: species,long,lat. Cambiar la extensión de este archivo por CSV, creando un archivo de Excel delimitado por comas. E.3.- Combinar todos estos archivos en un único archivo para cada familia (“01ARAC.csv”) que contiene la información para todas estas especies. Almacenar este archivo en el directorio F:\FBBVA\GARP\PLANTS\01ARAC E.4.- Abrir el software DatasetManager de GARP y crear un archivo ecuador.dxl que contiene todas las variables bioclimáticas y una máscara (mask). E.5.- Abrir el programa DesktopGarp. Cargar los archivos: 01ARAC.csv y ecuador.dxl, según el siguiente esquema. En esta imagen también se pueden observar todos los parámetros que hemos elegido para realizar los modelos.

E.6.- Ejecutar el programa. Los ráster de salida (formato ASCII) se almacenan en el directorio F:\FBBVA\GARP\OUTPUT\01ARAC\BESTSUBSETS\\PROJ00. SE obtienen 10 ráster en formato ASCII para cada especie. E.7.- Ejecutar desde ArcInfo la sintaxis “07_GARP_SUMAGRID.aml” Esta sintaxis suma los 10 ráster de cada especie. E.8.- Ejecutamos desde ArcInfo la sintaxis “08_GARP_asciitoraster_para.aml” Trasforma los ráster de formato ASCII a formato grid de ESRI y los almacena en el directorio F:\FBBVA\GARP\MODELS\01ARAC\gp

150

PATRONES DE DIVERSIDAD. VERIFICACIÓN

E.9.- Repetir el paso 5 para todas las familias.

F.- Proceso para generar los modelos de MAXENT F.1.- MAXENT utiliza el mismo formato de entrada de datos que GARP, tanto para los puntos de presencia de las especies, como para las variables bioclimáticas. Por lo tanto, se pueden emplear los datos realizados para GARP en el proceso anterior. F.2.- En el archivo “maxent.bat” especificar los parámetros que son necesarios para correr los modelos. Este archivo debe situarse en el directorio C:\ARCHIVOS DE PROGRAMA\MAXENT El contenido de este archivo es el siguiente: java -mx1300m -jar maxent.jar -O -s f:\fbbva\maxent\plants\01arac\01arac.csv -e f:\fbbva\maxent\indvar\actual -o f:\fbbva\maxent\output\01arac -j f:\fbbva\maxent\indvar\future -B 100000 F.3.- Ejecutar este archivo (maxent.bat) y se abre la siguiente pantalla del programa MAXENT:

F.4.- Ejecutar el programa y los ráster de salida (en formato ASCII) se almacenan en el directorio F:\FBBVA\MAXENT\OUTPUT\01ARAC F.5.- Ejecutar desde ArcInfo la sintaxis “08_Maxent_asciitoraster.aml” Esta sintaxis trasforma los modelos de formato ASCII a grid de ESRI y guarda los modelos en el directorio F:\FBBVA\MODELS\01ARAC\mx F.6.- Repetir el paso 6 para todas las familias.

151

Modelos predictivos de riqueza de diversidad vegetal

G.- Proceso para generar modelos de MARS-Multirrespuesta Proceso para generar el grid de muestreo G.1.- Unir todos los temas de puntos de presencia (p.shp) de todas las especies, sin casos atípicos. Para ello utilizar la función “Merge” de ArcMap o “Query” de ArcView. Este tema de puntos se alamacena en el directorio: F:\FBBVA\MARS-MM\01ARAC\PLANTS\araceae_MM.shp G.2.- Abrir un proyecto de ArcView: F:\FBBVA\MARS-MM\01ARAC\PLANTS\sampling.apr” Ajustar propiedades de la vista a • Map Units: decimal degrees. • Distance Units: kilometres. En la vista “sampling” deberán estar: • Puntos de la familia “araceae-MM.shp” • Un grid de worldclim para usar de plantilla en Analysis – Properties. • Polígono marco sin islas (F:\FBBVA\SUPPLM\sample_mask.shp), se empleará como máscara en los análisis. G.3.- Convertir el tema de puntos en un ráster, seleccionando el campo “pres_aus.” Y almacenarlo en el directorio F:\FBBVA\MARS-MM\01ARAC\PLANTS\arac_mm Proceso para generar el archivo de muestreo G.4.- Abrir ArcInfo y nos situarnos en el directorio donde se encuentran las variables que se van a muestrear (variables bioclimáticas y los grid de presencia de todas las especies): F:\FBBVA\MARS-MM\01ARAC\INDVAR Previamente copiar en este directorio todos los ráster de presencia de todas las especies de aráceas que se encuentran en el directorio F:\FBBVA\PLANTS\01ARAC\p También tenemos que copiar las 19 variables climáticas que se encuentran en el directorio F:\FBBVA\INDVAR\ACTUAL G.5.- Ejecutar desde ArcInfo la sintaxis “10_SAMPLE_Mars_Multiresponse.aml” Previamente abrir la sintaxis con un editor de texto y comprobar que los directorios son correctos, hay que hacer 5 cambios. Esta sintaxis no muestrea la primera grid y por lo tanto hay que repetir el ráster de la primera especie. Esta sintaxis muestrea las variables climáticas y los ráster de presencia de todas las especies con el ráster de muestreo (arac_mm). Crea varios archivos de texto con los valores de las 19 variables bioclimáticas y la presencia o ausencia de cada una de las especies en todos los puntos. Guarda automáticamente estos archivos en el directorio F:\FBBVA\MARS-MM\01ARAC\TABLES\SAMPLE \sample1.txt” G.5.- Abrir todos los archivos de muestreo con un editor de texto Remplazar valores “missing” por “0”

152

PATRONES DE DIVERSIDAD. VERIFICACIÓN

Remplazar “^t010” por “^tmm010” para no tener problemas al importar el archivo en SPSS. Remplazar “p^t” por “^t”. El último nombre de cada archivo no se reemplaza automáticamente. G.6.- Importar estos archivos en un archivo de datos de SPSS. Hacer clic con el botón derecho del ratón sobre el archivo y elegir la opción “abrir con SPSS manager” y seguir las siguientes opciones: No/Siguiente, Delimited/Yes/siguiente, Each line represent a case/All of the cases/siguiente, tab/none/siguiente, siguiente, finalizar. Repetir el proceso para todos los archivos de muestreo. Guardarlos en el directorio F:\FBBVA\MARS-MM\01ARAC\TABLES\SPSS \sample0.sav G.7.- Combinar todos los archivos de datos para crear un único archivo, en SPSS seguir los siguientes pasos: Open “sample0.sav” data/merge files/add variables/Seleccionar “sample1.sav” G.8.- Para comprobar si existen valores “no data” ordenar los datos por alguna de las variables bioclimáticas (opción “Short ascending) y si en algún registro tienen valores “0” para todas las variables bioclimáticas, eliminar este registro. Quitar los decimales en los campos de las variables bioclimáticas. G.9.- Para comprobar que el número de presencias es el correcto para todas las especies y se ha realizado un muestreo adecuado analizar los estadísticos descriptivos. Para ello, seguir las siguientes opciones en SPSS Analize -> Descritive statistics -> frecuencias. Comprobar que todas las especies tienen el número de presencias adecuado y guardar el archivo de resultados con el nombre “frecuencias.spo” G.10.- Exportar el archivo Sample1.sav (donde hemos únido todos los archivos) como archivo de texto separado por comas y almacenarlo en el direcotrio F:\FBBVA\MARS-MM\01ARAC\TABLES\R\sample.dat G.11.- Abrir este archivo con un editor de texto y remplazar “comas” por “tabuladores” (^t) y salvar como F:\FBBVA\MARSMM\01ARAC\TABLES\R\sample.csv G.12.- Eliminar las tres primeras columnas “araceae” “x” e “y” Proceso para ejecutar el modelo en R G.13.- En propiedades del icono del acceso directo de R, cambiar el directorio en el que vamos a trabajar: F:\FBBVA\MARS-MM\01ARAC\TABLES\R G.14.- Abrir R 2.3.1 G.15.- Cargar “MDA package” > utils:::menuInstallLocal() package 'mda' successfully unpacked and MD5 sums checked updating HTML package descriptions G.16.- Cargar función “mars.public” de Elith source("F:/RGMateo/Ftextos/R/MARS/mars.public.functions.3.1.R") G.17.- Cargar la tabla de datos

153

Modelos predictivos de riqueza de diversidad vegetal

testdat