Parametric and non-parametric statistical methods for predicting plotwise variables based on Landsat ETM+: a comparison in an Araucaria araucana forest in Chile
Métodos estadísticos paramétricos y no paramétricos para predecir variables de rodal basados en Landsat ETM+: una comparación en un bosque de Araucaria araucana en Chile
Author
Salas, Christian
Ene, Liviu
Ojeda, Nelson
Soto, Héctor
Abstract
The Araucaria araucana forests have a high level of both ecological and scientific importance, because they are long-lived and endemic. Although there have been several ecological studies conducted concerning A. araucana forests, none has produced quantitative models. We compared parametric and non-parametric statistical methods for predicting stand variables from Landsat ETM+ derived variables from two A. araucana stands in south-central Chile. The assessed parametric methods were multiple linear regressions (MLR), generalized least squares with a non-null correlation structure (GLS), linear mixed-effects models (LME), and partial least squares (PLS); while the non-parametric methods were: k-nearest neighbor (k-NN) and most similar neighbor (MSN). In descending order, number of trees per ha (N), stand gross volume (V), stand basal area (G), and dominant height (Hdom) were the most difficult variables to be modeled by all the methods. LME with known random effects (i.e., LME1) performed best, achieving a root mean square showing differences (RMSD) for N and V of 18.31 and 4.08 % versus 33.06 and 33.05 % for the second-best method, respectively. However, within the parametric methods, LME1 cannot be used for predicting new observations with no data. After LME1, GLS performed the best; also accounting for the spatial correlation of the data. Parametric methods achieved lower errors. Furthermore, differences were greater among non-parametric than those among parametric methods, with a difference of 10-15 % between k-NN and MSN. Although, given our results, we favor parametric methods; we point out that non-parametric methods are also useful, and the choice between parametric and non-parametric methods depends on the ultimate objective of the study. Los bosques de Araucaria araucana tienen una alta importancia ecológica y científica. Aunque existen varios estudios ecológicos llevados a cabo en bosques de A. araucana, muy pocos han producido modelos cuantitativos. Se compararon métodos estadísticos paramétricos y no paramétricos para predecir variables de rodal en función de variables derivadas de Landsat ETM+ para dos rodales de A. araucana en el centro-sur de Chile. Los métodos paramétricos fueron regresión líneal múltiple (MLR), mínimos cuadrados generalizados con una estructura de correlación no nula (GLS), modelo lineal de efectos mixtos (LME) y mínimos cuadrados parciales (PLS); mientras que los métodos no paramétricos fueron: k-ésimo vecino más cercano (k-NN) y vecino más similar (MSN). En orden descendente, número de árboles por hectárea (N), volumen bruto (V), área basal (G) y altura dominante (Hdom), fueron las variables más complejas de modelar por todos los métodos. El modelo lineal de efectos mixtos con efectos aleatorios conocidos (LME1) tuvo el mejor desempeño, alcanzando una raíz cuadrada de las diferencias (RMSD) para N y V de 18,31 y 4,08 % versus 33,06 y 33,05 % para el segundo mejor método, respectivamente. Después de LME1, GLS se comportó mejor, y también toma en consideración la correlación espacial de los datos. Las diferencias fueron mayores entre métodos no paramétricos que para los paramétricos, con una diferencia de 10-15 % entre k-NN y MSN. Aunque los resultados obtenidos favorecen a los métodos paramétricos, se destaca que los métodos no paramétricos son también útiles, y la elección entre ambos métodos depende del objetivo del estudio.