Show simple item record

Reseña de libro. Revisión de la tercera edición del libro “Equiparación de puntajes, escalamiento y enlazamiento: métodos y prácticas [Test Equating, Scaling, and Linking: Methods and Practices]”

dc.contributoren-US
dc.contributores-ES
dc.creatorGándara, Fernanda
dc.date2014-10-30
dc.date.accessioned2020-03-02T17:11:44Z
dc.date.available2020-03-02T17:11:44Z
dc.identifierhttp://pensamientoeducativo.uc.cl/index.php/pel/article/view/719
dc.identifier10.7764/PEL.51.2.2014.
dc.identifier.urihttps://revistaschilenas.uchile.cl/handle/2250/133147
dc.descriptionKolen, Michael J., & Brennan, Robert L. (2014).  Test Equating, Scaling, and Linking: Methods and Practices, 3rd edition, New York: Springer, 566 pages.  This year, the third edition of the book Test Equating, Scaling, and Linking: Methods and Practices by Michael J. Kolen and Robert L. Brennan (2014), was published.  The book is intended to be used in psychometrics instruction and applied testing settings.  Its purpose is to equip the reader with the principles of equating, scaling, and linking.  Overall, the authors do an outstanding job in explaining and structuring the content, which flows logically and at a reasonable speed.  However, in order to fully profit from the text, the reader should possess some knowledge of calculus, as well as advanced knowledge of Classical Test Theory (CTT) and Item Response Theory (IRT).  The novice reader can refer to Crocker and Algina (1986) for the topic of CTT, and Hambleton et al. (1991) for IRT.  They may also refer to Muñiz (1994, 1990) for a Spanish treatment of these topics. The structure and content of the book are very similar to that of the second edition, which also included extensive coverage of scaling and linking methods.  Chapter 1 presents anoverview of the terminology and methods upon which the rest of the book is based.  Essential to the reader who is unfamiliar with the technicalities related to equating, this chapter refers to (a) the conceptual differences between equating, scaling, and linking, (b) the five properties that equating should possess, and (c) the different data collection designs that can be used in an equating study.  Chapters 2-6 present different equating methods, under certain data collection designs.  Chapter 2 refers to the observed score equating methods under the random groups design.  The authors cover in detail the procedures to conduct linear and equipercentile equating under such a data collection design.  Brief but useful considerations are presented in regard to the implementation of these methods under the single-group design.  Chapter 3 explains the rationales and methods related to smoothing equated scores using equipercentile equating.  Smoothing methods correct irregularities in the sample distributions to improve the equating results.  The authors describe two presmoothing methods: (a) log-linear methods for observed scores and (b) the beta4 method for true scores.  They also describe the use of splines in postsmoothing, and refer briefly to the kernel method of equating, which uses presmoothing methods.  Particularly important is the discussion of the relationship between smoothing methods and equating error.  Chapter 4 refers to the linear methods under the non-equivalent groups design.  The authors describe the Tucker and Levine methods for observed scores and the Levine true score method.  In this edition, they extend the comparisons between the methods and the discussions of applications and related topics.  Chapter 5 refers to equipercentile methods for the non-equivalent groups data collection design.  The content is structured differently from the second edition, by grouping methods into two categories: (a) frequency estimation methods, and (b) other methods—including the chained equipercentile equating.  Chapter 6 covers the topic of IRT methods of equating and applications that are unique to this context.  The authors review the IRT concepts, models—both dichotomous and polytomous—and assumptions, that are needed to understand the methods.  They also explain the logic of IRT equating under different data collection designs.  They describe IRT observed scores equating methods, including: (a) mean/mean, (b) mean/sigma, (c) Haebara, and (d) Stocking and Lord. The authors then describe IRT true score equating and its application to observed scores.  As in previous chapters, the authors provide comparisons of the methods and rationales for choosing between them, when appropriate.  A brief reference to Rasch equating is provided.  Lastly, the authors describe these methods in the context of polytomous models, with a similar level of detail. Chapter 7 remains essentially unchanged from that of the previous edition, and provides a detailed treatment of the topic of standard errors of equating.  In particular, on estimating random error (as opposed to systematic error).  Standard error of equating is the standard deviation of the equated scores across hypothetical replications at each score point.  The authors introduce two methods for its estimation: (a) bootstrapping methods—including parametric bootstrapping, and (b) several variations of the delta method—which is an analytic procedure based on Taylor’s expansion series.  The most interesting part of the chapter is that pertaining to some practical applications of these concepts, such as the determination of sample sizes for ensuring that the standard error of equating is less than a given quantity.  Chapter 8 discusses the practical issues pertaining to equating, which are essential to the practitioner.  This is the chapter where the fundamental concepts and many unanswered questions concerning the equating methods and designs, fall into place.  The authors refer in depth to the essential considerations in choosing among data collection designs, relative to administration and test development conditions, statistical assumptions, and effects.  These include considerations about population and sample sizes. A similar analysis is provided for the choice of statistical procedures or equating methods, and for choosing among results when different methods are applied.  A step-by-step guide to perform quality control checks on the data is also provided.  The last part of the chapter refers to issues that may threaten score comparability, which is relevant given that assessments are increasingly delivered in multiple administration modes and versions.  In this edition, a broader section about constructed-response and mixed-format tests includes the content previously contained in the section about comparability of performance assessments. Chapter 9 gives extensive coverage to the topic of scaling.  The first two sections are new to this edition. The first section refers to basic terminology, and brings attention to the complexity of scaling. The second section discusses issues pertaining to scaling scores on mixed format tests, such as the different weighting decisions for items of different types and their effects on the psychometric properties of the test.  The rest of the chapter is structured similarly to the previous edition.  The authors refer to topics such as the transformations that may be applied on scaled scores, their rationales and implications, or the rationales and methods to introduce normative information.  A brief subsection on how to determine the number of scale points is particularly interesting to those creating new testing programs.  The authors also refer to ways to incorporate content information, and to the topic of composite scores arising from testing batteries.  The last part of the chapter deals with the topic of vertical scaling: (a) designs, (b) methods and the comparison of their results, (c) maintenance, (d) research around vertical scaling, and (e) considerations about growth models.  Chapter 10 covers the topic of linking, addressing the terminology and conceptual frameworks.  In this edition, in addition to the Mislevy/Linn framework, the authors include the Holland and Dorans framework.  The last part of the chapter is dedicated to the topic of invariance, largely based on the work of Dorans and Holland (2000).  The authors extend the concept, including more statistics to evaluate group invariance and their multiple considerations.  The authors stress the importance of building scales that facilitate interpretation of scores and minimizes their misinterpretation and therefore, misuses. This edition did not include Chapter 11, which was the least informative of the second edition of the book (Eignor, 2006).  For further information about the previous edition, which is very similar, the reader can refer to Eignor (2006), Skaggs (2006), or Chiu, Carr, & Li (2007).   The book is clearly useful for instruction. The authors spend a large part of the text demonstrating the connections between theory and assumptions for the different methods and designs.  They support their explanations with detailed examples that the reader can easily replicate.  The explicit references to the corresponding software allow direct application of the knowledge to the datasets of interest.  And they include a large list of answered exercises in each chapter. The book is also well suited for applied settings.  It covers all the important information that has been published in the literature to date.  It provides thorough discussion of the topics that concern practitioners the most, particularly in Chapter 8.  And the focus of this edition has slightly changed towards the inclusion of topics that are becoming increasingly important in the field, such as issues related to mixed-format tests or growth models. The book could be improved in some ways.  One suggestion would be to extend the topic of scaling.  In particular, the topics of vertical scaling and of growth models deserve a chapter in itself.  Another suggestion would be to include more policy considerations in some of the discussions, when appropriate.  Many of the current large-scale testing programs include national, state, or international assessments used for policy decisions. Referring to the implications that the topics of equating, scaling, or linking may have in these contexts may increase awareness of their importance and reduce certain misunderstandings that often exist in score interpretation and use of scores.  This book is certain an essential reference for the reader interested in psychometrics.  While in-depth discussions about certain advanced topics within equating can be found in other texts (see von Davier, Holland, & Thayer, 2004; Dorans, Pommerich, & Holland, 2007; or von Davier, 2011), this book remains as the fundamental guide to equating, scaling, and linking. References Chiu, C., Carr, P., & Li, I. (2007).  A review of "Test Equating, Scaling, and Linking: Methods and practices".  Journal of Educational and Behavioral Statistics,32(2), 223-228. Crocker, L., & Algina, J. (1986).  Introduction to classical and modern test theory.  Orlando, Fl.: Harcourt Brace Jovanovich. Dorans, N.J., & Holland, P.W. (2000).  Population invariance and the equitability of tests: Basic theory and the linear case.  Journal of Educational Measurement, 37(4), 281-306. Dorans, N. J., Pommerich, M., & Holland, P. W. (2007).  Linking and aligning scores and scales.  New York, NY: Springer. Eignor, D. R. (2006).  Test equating, scaling, and linking methods and practices, 2nd edition [Book review].  Journal of Educational Measurement,43(2), 169-172. Hambleton, R. K., Swaminathan, H., & Rogers, J. (1991).  Fundamentas of item response theory. Newbury Park, CA: Sage. Muñiz, J. (1990).  Teoría de respuesta a los ítems.  Madrid: Pirámide. Muñiz, J. (1994).  Teoría clásica de los tests.  Madrid: Pirámide. Skaggs, G. (2006).  Book review: Test equating, scaling, and linking (2nd ed.).  Applied Psychological Measurement, 30(6), 511-513. Von Davier, A. A. (2011).  Statistical models for test equating, scaling, and linking.  New York, NY: Springer. Von Davier, A. A., Holland, P. W., & Thayer, D. T. (2004).  The kernel method of test equating.  New York, NY: Springer-Verlag. http://dx.doi.org/10.7764/PEL.51.2.2014.26en-US
dc.descriptionKolen, Michael J., & Brennan, Robert L. (2014).  Test Equating, Scaling, and Linking: Methods and Practices, 3a edition, Nueva York: Springer, 566 páginas. Este año fue publicada la tercera edición del libro Equiparación de Puntajes, Escalamiento y Enlazamiento: Métodos y Prácticas por Michael J. Kolen y Robert L. Brennan (2014).  El libro tiene como propósito ser utilizado en la instrucción de psicometría y en contextos de psicometría aplicada. Su objetivo es dotar al lector con los principios de equiparación, escalamiento y enlazamiento.  Los autores hacen un trabajo excepcional en explicar y estructurar el contenido que fluye lógicamente y a una velocidad razonable.  Sin embargo, para beneficiarse plenamente del texto, el lector debe poseer conocimientos de cálculo, así como conocimientos avanzados de la Teoría Clásica de los Tests (CTT por sus siglas en inglés) y de la Teoría de Respuesta a los Ítems (TRI, o IRT por sus siglas en inglés).  El lector principiante puede consultar el manuscrito de Crocker y Algina (1986) para el tema de la CTT, y el de Hambleton et al. (1991) para el de la TRI. Para un tratamiento en español de estos temas, véase Muñiz (1990, 1994). La estructura y el contenido del libro son muy similares a los de la segunda edición, la que también incluyó una amplia cobertura de los métodos de escalamiento y de enlazamiento.  El Capítulo 1 introduce la terminología y los métodos empleados a lo largo del libro.  Por lo tanto, este capítulo resulta esencial para el lector que no esté familiarizado con los aspectos técnicos de la equiparación. El capítulo se refiere a: (a) las diferencias conceptuales entre la equiparación, el escalamiento y el enlazamiento, (b) las cinco propiedades que la equiparación debe poseer, y (c) los diferentes diseños para la recopilación de datos que se pueden utilizar en un estudio de equiparación.  En los capítulos del 2 al 6, se presentan diferentes métodos de equiparación bajo distintos diseños de recopilación de datos.  El Capítulo 2 cubre los métodos de equiparación de puntuaciones observadas bajo el diseño de grupos aleatorios.  Los autores describen detalladamente los procedimientos para llevar a cabo la equiparación lineal y equipercentil bajo dicho diseño.  Se presentan consideraciones breves pero útiles con respecto a la aplicación de estos métodos bajo el diseño de grupo único.  El Capítulo 3 explica los fundamentos y métodos relacionados con la suavización de las puntuaciones equiparadas obtenicas con el método equipercentil.  Los métodos de suavizamiento corrigen las irregularidades en las distribuciones muestrales para mejorar los resultados de la equiparación.  Los autores describen dos métodos de pre-suavizamiento: (a) métodos log-lineales para puntuaciones observadas y (b) el método beta4 para las puntuaciones verdaderas.  También se describe el uso de splines en el post-suavizamiento, y se refiere brevemente al método de equiparación kernel, que utiliza métodos de pre-suavizamiento.  Especialmente importante es la discusión sobre la relación entre los métodos de suavizamiento y el error típico o estándar de la equiparación.  El Capítulo 4 hace referencia a los métodos lineales bajo el diseño de grupos no equivalentes. Los autores describen los métodos Tucker y Levine para puntuaciones observadas, y el método de Levine para puntuaciones verdaderas. En esta edición se extienden las comparaciones entre los métodos y las discusiones respecto de sus aplicaciones.  El Capítulo 5 se refiere a los métodos equipercentiles para el diseño de grupos no equivalentes. El contenido está estructurado de manera diferente respecto de la segunda edición, agrupando los métodos en dos categorías: (a) métodos de estimación de frecuencia, y (b) otros métodos, incluyendo el método equipercentil en cadena.  El Capítulo 6 hace referencia a los métodos de equiparación usando TRI, y a las aplicaciones que son únicas para este contexto.  Los autores revisan los conceptos, modelos — tanto dicotómicos como politómicos — y supuestos que son necesarios para comprender esta familia de métodos.  También explican la lógica de la equiparación usando métodos TRI, bajo diferentes diseños de recopilación de datos.  Se describen métodos TRI para puntuaciones observadas incluyendo: (a)media/media, (b) media/sigma, (c) Haebara, y (d) Stocking y Lord.  Luego, se describe el método TRI para puntuaciones verdaderas y su aplicación a las puntuaciones observadas.  Al igual que en los capítulos anteriores, los autores proporcionan comparaciones entre los métodos y fundamentos para escoger entre ellos, cuando resulte apropiado. Además, se proporciona una breve referencia a la equiparación Rasch. Por último, los autores describen estos métodos en el contexto de los modelos politómicos, con un nivel similar de detalle. El Capítulo 7 permanece esencialmente igual al de la edición anterior, y proporciona un tratamiento detallado del tema de los errores estándares (o típicos) de comparación. En particular, se refiere a  la estimación del error aleatorio (a diferencia del error sistemático).  El error estándar (o típico) de comparación es la desviación estándar de puntajes equiparados en una serie de  repeticiones hipotéticas, para cada puntuación de la escala.  Los autores introducen dos métodos para su estimación: (a) métodos bootstrap — incluyendo bootstrap paramétricos; y (b) algunas variaciones del método delta, que es un procedimiento analítico basado en series de Taylor.  La parte más interesante del capítulo es la aplicación de estos conceptos, como por ejemplo en la determinación de tamaños muestrales para controlar el error estándar de la equiparación.  El Capítulo 8 aborda temas de la equiparación que aparecen en contextos aplicados.  Este es el capítulo en el que los conceptos fundamentales cristalizan y en el que las preguntas que aparecen en el trasncurso previo, son respondidas.  Los autores se refieren en profundidad a los fundamentos para elegir entre diseños de recopilación de datos, tomando en cuenta las condiciones de administración y de desarrollo de las pruebas, supuestos estadísticos, y efectos.  Estos fundamentos incluyen consideraciones sobre la población y los tamaños muestrales.  Un análisis similar se proporciona para la elección de los métodos de equiparación, dadas las condiciones y los diseños de la recopilación de datos. También se proporcionan fundamentos para analizar los resultados de la equiparación, cuando se aplican métodos diferentes.  Además, se proporciona una guía paso a paso para realizar controles de calidad del proceso.  La última parte del capítulo se refiere a las condiciones que pueden amenazar la comparabilidad de los puntajes, tema relevante pues, cada vez más, las evaluaciones se entregan en múltiples versiones (por ejemplo usando ítemes de diverso formato) y modos de administración (por ejemplo, en computadores).  En esta edición, una sección más amplia sobre pruebas de respuestas construidas y de formatos mixtos incluye el contenido de la sección de comparabilitdad de evaluaciones de desempeño. El Capítulo 9 ofrece una amplia cobertura al tema del escalamiento. Las dos primeras secciones en esta edición, son nuevas.  La primera se refiere a la terminología básica del escalamiento, subrayando la complejidad del tema.  La segunda sección examina cuestiones relativas al escalamiento de pruebas de formatos mixtos, como las distintas ponderaciones para ítemes de distinto tipo, y sus efectos sobre las propiedades psicométricas de la prueba.  El resto del capítulo está estructurado de manera similar a la edición anterior.  Los autores se refieren a temas tales como las transformaciones que pueden ser aplicadas en puntajes escalados, sus fundamentos y consecuencias, o bien, los fundamentos y métodos para introducir información normativa.  Un breve inciso sobre cómo determinar el número de puntos en la escala es particularmente interesante para quienes crean nuevos sistemas de medición.  Los autores también se refieren a maneras de incorporar información del contenido de la prueba, así como al tema de puntajes poderados para las baterías de pruebas.  La última parte del capítulo aborda el tema del escalamiento vertical: (a) los diseños, (b) los métodos y la comparación de sus resultados, (c) el mantenimiento, (d) la investigación en torno al escalamiento vertical, y (e) las consideraciones sobre los modelos de crecimiento.  El Capítulo 10 abarca el tema del enlazamiento, abordando la terminología y los marcos conceptuales.  En esta edición, además de los marcos de referencia de Mislevy/Linn, los autores incluyen el marco de referencia de Holland y Dorans.  La última parte del capítulo está dedicada al tema de la invarianza, en gran parte basado en el trabajo de Dorans y Holland (2000). Los autores amplían el concepto, incluyendo más estadísticos para evaluar la invarianza en grupos de la población, y sus múltiples consideraciones.  Los autores subrayan la importancia de construir escalas que faciliten la interpretación de los puntajes y minimicen su tergiversación y, con ello, sus usos erróneos. Esta edición no incluyó el capítulo 11, el menos informativo de la segunda edición del libro (Eignor, 2006).  Para más información acerca de la edición anterior, la cual es muy similar, el lector puede referirse a Eignor (2006), Skaggs (2006), o Chiu, Carr y Li (2007). El libro es claramente útil para la instrucción. Los autores dedican gran parte del texto a demostrar las conexiones existentes entre la teoría y los supuestos para los diferentes métodos y diseños. Apoyan sus explicaciones con ejemplos detallados que el lector puede reproducir fácilmente.  Las referencias explícitas a los softwares correspondientes, permiten la aplicación directa del conocimiento a conjuntos de datos de interés. Además, cada capítulo incluye una larga lista de ejercicios con respuesta. El libro es también apto para apoyar la práctica psicométrica en contextos aplicados. El manuscrito abarca toda la información importante que se ha publicado en la literatura hasta la fecha.  El Capítulo 8 es especialmente importante en este escenario, ya que proporciona un análisis de fondo de temas de equiparación en contextos aplicados.  Esta edición cambió ligeramente el foco al incluir temas que se están volviendo cada vez más importantes en el área, tales como consideraciones respecto a pruebas de formato mixto o al uso de modelos de crecimiento. El libro se podría mejorar en algunos aspectos. Una sugerencia sería ampliar el tema del escalamiento. En particular, los temas de escalamiento vertical y de modelos de crecimiento merecen su propio capítulo. Otra sugerencia sería ampliar las referencias a consideraciones políticas en las discusiones.  Actualmente, muchos de los sistemas de medición de gran escala incluyen sistemas de medición nacionales, estatales o internacionales cuyas puntuaciones son utilizadas en decisiones de políticas públicas.  Referirse a las consecuencias que pueden tener en estos contextos los temas de equiparación, escalamiento o enlazamiento, podría aumentar la conciencia de su importancia y minimizar errores en la interpretación y uso de los puntajes. Este libro es una referencia esencial para el lector interesado en psicometría. Mientras que otros textos cubren en profundidad ciertos tópicos avanzados dentro de la equiparación  (véase von Davier, Holanda, y Thayer, 2004; Dorans, Pommerich, & Holland, 2007; von Davier, 2011), este libro sigue siendo la guía fundamental para la equiparación, el escalamiento y el enlazamiento. ReferenciasChiu, C., Carr, P., & Li, I. (2007).  A review of "Test Equating, Scaling, and Linking: Methods and practices".  Journal of Educational and Behavioral Statistics, 32(2), 223-228. Crocker, L., & Algina, J. (1986).  Introduction to classical and modern test theory.  Orlando, Fl.: Harcourt Brace Jovanovich. Dorans, N.J., & Holland, P.W. (2000).  Population invariance and the equitability of tests: Basic theory and the linear case.  Journal of Educational Measurement, 37(4), 281-306. Dorans, N. J., Pommerich, M., & Holland, P. W. (2007).  Linking and aligning scores and scales.  New York, NY: Springer. Eignor, D. R. (2006).  Test equating, scaling, and linking methods and practices, 2nd edition [Book review].  Journal of Educational Measurement,43(2), 169-172. Hambleton, R. K., Swaminathan, H., & Rogers, J. (1991).  Fundamentas of item response theory. Newbury Park, CA: Sage. Muñiz, J. (1990).  Teoría de respuesta a los ítems.  Madrid: Pirámide. Muñiz, J. (1994).  Teoría clásica de los tests.  Madrid: Pirámide. Skaggs, G. (2006).  Book review: Test equating, scaling, and linking (2nd ed.).  Applied Psychological Measurement, 30(6), 511-513. Von Davier, A. A. (2011).  Statistical models for test equating, scaling, and linking.  Nueva York, NY: Springer. Von Davier, A. A., Holland, P. W., & Thayer, D. T. (2004).  The kernel method of test equating.  Nueva York, NY: Springer-Verlag. http://dx.doi.org/10.7764/PEL.51.2.2014.13es-ES
dc.formatapplication/pdf
dc.formatapplication/pdf
dc.formattext/html
dc.formattext/html
dc.language
dc.publisherPontificia Universidad Católica de Chilees-ES
dc.relationhttp://pensamientoeducativo.uc.cl/index.php/pel/article/download/719/1965
dc.rightsThe Copyright of all communications published in Pensamiento Educativo. Revista de Investigación Educacional Latinoamericana, belong to Pontificia Universidad Católica de Chile. If the author requires to publish the article in another journal or book, he/she must request an authorization to the Editor in Chief of the journal. 
dc.rightsLos derechos de autor de todos los artículos publicados en Pensamiento Educativo. Revista de Investigación Educacional Latinoamericana, pertenecen a la Pontificia Universidad Católica de Chile. Si el autor desea publicar su artículo en otra revista o libro, debe solicitar autorización al Editor en Jefe de la revista
dc.sourcePensamiento Educativo. Revista de Investigación Educacional Latinoamericana; Vol 51, No 2 (2014); 168-171en-US
dc.sourcePensamiento Educativo. Revista de Investigación Educacional Latinoamericana; Vol 51, No 2 (2014); 168-171es-ES
dc.subjecten-US
dc.subjectes-ES
dc.titleBook Review. A review of the third edition of “Test Equating, Scaling, and Linking: Methods and Practices”en-US
dc.titleReseña de libro. Revisión de la tercera edición del libro “Equiparación de puntajes, escalamiento y enlazamiento: métodos y prácticas [Test Equating, Scaling, and Linking: Methods and Practices]”es-ES
dc.typeen-US
dc.typees-ES


This item appears in the following Collection(s)

Show simple item record