Introducción Sección Especial. El Modelo de Rasch: Nuevos desarrollos y aplicaciones en la ciencia de la medición objetiva
Special Section Introduction. Advances in Rasch Modeling: New Applications and Directions for Objective Measurement Science
Author
Duckor, Brent; San Jose State University, College of Education, California, EE.UU.
Santelices, María Verónica; Pontificia Universidad Católica de Chile
Brandt, Steffen; Art of Education, Statistical Analyses
Abstract
1Brent Duckor, 2María Verónica Santelices y 3Steffen Brandt 1College of Education, San Jose State University, California, EE.UU. 2Facultad de Educación, Pontificia Universidad Católica de Chile 3Art of Education, Statistical Analyses Hace más de 50 años, Georg Rasch contribuyó a la fundación del campo de la Teoría de Respuesta al Ítem con el modelo que lleva su nombre, caracterizada por el uso de un solo parámetro para modelar la relación entre la dificultad del ítem y la habilidad de una persona (Rasch, 1960/1980, 1977). Considerado durante mucho tiempo como el estándar de excelencia en la medición «objetiva», se han propuesto, aplicado e investigado numerosas extensiones del modelo de Rasch, para su utilización en pruebas educacionales y evaluación educacional. Según el Comité de Programa del Instituto de Medición Objetiva (2000), la medición «objetiva» es «la repetición de una cantidad unitaria que mantiene su tamaño… independientemente de cuál sea el instrumento… utilizado e independiente de a quién o qué persona o cosa se mida». El Modelo de Escalas de Clasificación, el Modelo de Crédito Parcial y el Modelo Logístico Multinomial de Coeficiente Aleatorio, son parte de la familia Rasch. Enfocados en un principio en logros de lectura, los modelos de Rasch se emplean hoy en día en campos tan diversos como atención médica, fisioterapia, enfermería, farmacéutica y deportes competitivos. El modelo de Rasch expone nuestra teoría de la estructura de cualquier variable latente a una rigurosa prueba científica al preguntar: «¿Los datos se ajustan al modelo?» (Wright & Master, 1980). Desde una perspectiva de elaboración de mediciones (Wilson, 2014), el marco del modelo de Rasch permite a los investigadores explorar la validez de las escalas, a partir de la construcción de una teoría y el contraste de dicha teoría con la evidencia del ordenamiento empírico de personas e ítems en un mapa de Wright. Muy en línea con la noción actual de validez como un argumento (Kane, 2015), el marco de Rasch ayuda a explorar la estructura interna del constructo y la validez de su contenido, ambos al mismo tiempo. Además, Wilson (2005) nos recuerda que el marco de Rasch propone una serie de principios básicos para la medición de personas y la calibración de ítems en una sola escala; lejos de ser solo otra técnica de cuantificación, este enfoque es fundamentalmente importante para las interpretaciones realizadas en la ciencia de la medición (Duckor, Draney, & Wilson, 2009). Para escoger y evaluar un modelo de medición, los investigadores deben pensar en forma espacial, en términos de un mapa geográfico. La idea de la «ubicación» de una respuesta al ítem con respecto a la ubicación de otra respuesta al ítem solo tiene sentido si dicho significado relativo es independiente a la ubicación del encuestado implicado. Es decir, la interpretación de ubicaciones relativas debe ser uniforme e independiente al lugar donde se encuentre el encuestado. Este requerimiento de invariabilidad corresponde a la idea de que una «pulgada representa una milla» o un «metro representa un kilómetro», en cualquier lugar de un mapa geográfico. Durante años, el modelo uniparamétrico (Rasch) ha enfrentado objeciones de los investigadores de la Teoría de la Respuesta al Ítem (TIR), que favorecen modelos más flexibles y de mejor ajuste a los datos. Algunos de los investigadores de la TIR (Birnbaum, 1968) han impulsado la inclusión de parámetros adicionales con el fin de, por ejemplo, ajustar la variación en discriminaciones de ítem (2PL) o la variación en probabilidades de adivinación (3PL). Mientras el modelo de Rasch requiere que todos los ítems discriminen de igual manera para poder definir la habilidad que se está midiendo, los modelos 2PL y 3PL permiten que la discriminación varíe entre ítems y se calcula recursivamente como parte del proceso de estimación. Esto también impacta la estimación del parámetro de dificultad del ítem, creando una acentuada diferencia en la forma en que las dificultades de los ítems de Rasch y 2PL/3PL se interpretan. Debido a que la discriminación de ítem es, al menos en parte, una propiedad de cómo una muestra particular de examinados interactúa con un ítem y no es exclusivamente una propiedad del ítem, y porque los examinados varían entre las pruebas, la consecuencia ineludible es que las puntuaciones calculadas al usar los modelos 2PL y 3PL no puede garantizarse que las puntuaciones sean generalizables entre pruebas tales como aquellas calculadas a partir de datos que están restringidos para ajustarse a las exigencias del modelo de Rasch. Así, aunque los modelos 2PL y 3PL podrían ajustarse mejor a los datos, el beneficio frecuentemente tiene un precio. Primero, la interpretación de las puntuaciones de las pruebas no es tan clara, puesto que los diferentes parámetros de discriminación de los ítems se traducen en distintas ponderaciones de los ítems en la puntuación final de la prueba, sin poder distinguir si esto se debe a una característica de un ítem o a una propiedad de la muestra. Segundo, el principio científico de poder verificar nuestras expectativas teóricas en relación a un constructo (en un marco de validez), se pierde si los investigadores no pueden falsificar sus hipótesis sobre la estructura que tendrán los datos. Además, estudios recientes (San Martín, González, & Tuerlinckx, 2015) han demostrado la no identificabilidad del modelo 3PL, examinando cómo, incluso después de fijar la dificultad, la discriminación y los parámetros de adivinación de un ítem, los parámetros de los ítems restantes no pueden identificarse utilizando las observaciones disponibles, no poseen una interpretación empírica y no pueden estimarse de forma imparcial y consistente. Estas razones explican por qué el modelo de Rasch aún se utiliza hoy en día y se mantiene como una herramienta importante entre los instrumentos de medición de los psicometristas y expertos en evaluación educacional. De acuerdo con las tradiciones establecidas por las series precedentes, Medición Objetiva: Teoría en Práctica (Vols. 1-5) y Avances en Medición de Rasch (Vols. 1-2), esta publicación se complace en presentar desarrollos tanto teóricos como prácticos de los modelos de medición de Rasch. Todos los papers incluidos en esta sección especial se presentaron originalmente en el Taller Internacional de Medición Objetiva 2014 (International Objective Measurement Workshop [IOMW]) en Filadelfia, Pensilvania, Estados Unidos. El IOMW es una conferencia bianual que precede a la conferencia de la Asociación Americana de Investigación Educacional (American Educational Research Association, AERA) y reúne a expertos de todo el mundo para compartir sus trabajos en las áreas de modelamiento usando el modelo de Rasch, psicometría y filosofía de la medición. Los manuscritos se solicitaron para mantener cierta coherencia temática, y cada texto fue sometido a una revisión ciega por al menos dos expertos. Los cinco artículos incluidos en esta sección especial «El Modelo de Rasch: Nuevos Desarrollos y Aplicaciones en la Ciencia de la Medición Objetiva», consideran el modelo de Rasch desde distintos ángulos y aplicaciones.El primer artículo de Andrich (2015), «Componentes de la varianza de escalas con una estructura de subescalas empleando dos cálculos de coeficiente α», aborda la problemática del análisis de dimensionalidad, el coeficiente alfa y la varianza de subescalas. Señala que las escalas construidas para medir una variable individual están compuestas por subescalas de ítems, que miden diferentes aspectos de la variable. Utilizando un estudio de simulación, el paper propone un método simple que se puede utilizar para proporcionar un resumen más exhaustivo de las propiedades de una escala con subescalas de aquel que es posible usando solo una estimación del coeficiente de confiabilidad. Demuestra que, con algunas hipótesis de simplificación y utilizando una estructura bifactorial, la razón de dos cálculos del coeficiente alfa, uno al nivel de los ítems y el otro al nivel de las subescalas, se puede usar para obtener (a) la proporción de varianza común verdadera, (b) la proporción de varianza única verdadera, (c) la proporción de varianza común verdadera relativa a la suma de las varianzas común verdadera y única, y (d) una correlación «resumen» entre subescalas corregida inmediatamente para la atenuación causada por el error. El artículo muestra cómo los especialistas en el modelo de Rasch pueden entregar nuevas luces en problemas tradicionales y planteamientos confiables para quienes utilizan el coeficiente alfa. El segundo artículo, realizado por Behizadeh y Engelhard (2015), «Evaluación válida de la escritura desde la perspectiva de las comunidades de investigación en escritura y medición», aborda problemas relacionados con la validez, validez consecuencial, evaluación de escritura y comunidades de práctica, con un foco particular en la teoría de medición de Rasch. El estudio analiza el concepto de validez en dos comunidades de práctica distintas: las comunidades de la investigación de la escritura y las comunidades de mediciones educativas. Destaca las contribuciones que la teoría de medición de Rasch (Rasch, 1960/1980) aporta para comprender y evaluar la validez. Al relacionar perspectivas técnicas y no técnicas sobre validez, los autores exploran puntos de consenso y convergencia en relación a la validez. Dicho estudio tiene implicancias para mejorar la investigación, la teoría y la práctica de la evaluación de la escritura tanto para académicos como para profesionales. El tercer artículo, elaborado por Fisher y Wilson (2015), «Construyendo una zona de intercambio productiva en la investigación y práctica de la evaluación educacional», explora los desafíos de la medición a través de diferentes contextos institucionales. Sostiene que diversos puntos de vista relacionados al acto de medir —desde el laboratorio de ciencias a la sala de clases al mercado— se pueden reconciliar con el uso de objetos de demarcación que admiten significados comunes. Los autores describen cómo ejemplos modelados psicométricamente, conocidos como mapas de constructos y mapas Wright, desarrollados en base al modelo de Rasch, funcionan como objetos de demarcación y pueden servir de base para analogías productivas en evaluación educativa a través de (a) la preservación de estructuras relacionales, (b) la realización de mapeos isomórficos entre sistemas y (c) el fomento de la sistematización, entendida como sistemas de mapeo de estructuras relacionales de orden superior. A través del uso del caso de BEAR Assessment System y su software adjunto, el artículo explora cómo dichas tecnologías sustentan las alianzas prácticas entre enseñanza, formulación de políticas, desarrollo de evaluación y currículum, psicometría y tecnología de la información. En el cuarto artículo, Korpershoek (2015) presenta «Estudio de confiabilidad y validez de la Escala de Manejo de Compromisos Identitarios de Utrecht, adaptada para medir procesos de formación de identidad de estudiantes en su universidad», que aborda los problemas de desarrollo del compromiso y la identidad en mediciones psicológicas. El artículo examina evidencia para la validez del constructo y la validez predictiva del marco de medición presentado por Crocetti, Rubini y Meeus (2008), desarrollado originalmente para cuantificar los procesos de la formación de la identidad (como el logro de compromisos contraídos) de individuos en diversos ámbitos. Usando un grupo de estudiantes universitarios y utilizando un modelo multidimensional de Rasch, el artículo analiza una versión adaptada de la Escala de Compromisos de Manejo de Identidad de Utrecht (U-MICS) para medir los procesos de formación de identidad de estudiantes universitarios, considerados parte de las identidades personales de los estudiantes en su universidad. Los resultados demostraron algunos signos de que la estructura interna puede representar los procesos de formación de la identidad de los estudiantes en la universidad, aunque ciertos ítems requieren mejoras adicionales para ajustarse al modelo multidimensional. El quinto artículo, realizado por Williamson (2015), «La medición del crecimiento académico contextualiza la complejidad del texto», aborda los desafíos y oportunidades para medir el desarrollo de la lectura. Al utilizar los principios fundamentales de Rasch para la medición objetiva específica, el artículo argumenta que la medida óptima del desarrollo académico de los estudiantes requiere una escala que sea unidimensional, continua, de intervalos iguales, evolutiva e invariable respecto a la ubicación y el tamaño de la unidad. Proporciona un ejemplo de la medición de Rasch validado empíricamente y que posee una teoría de constructo de lectura operacionalizado. Al utilizar la escala Lexile, el artículo ilustra un continuum de la complejidad del texto, en donde personas (lectores) e ítems (textos) se incluyen en una escala de «desarrollo académico» común. Además, el artículo explora avances recientes en políticas educativas (Estándares de Preparación para las Profesiones y la Universidad) en Estados Unidos que recomiendan una mayor exposición de los estudiantes a textos complejos. El autor advierte que el modelado paramétrico de curvas de crecimiento alternativo puede enmarcar de forma concreta y tangible las conversaciones sobre cómo los estudiantes podrían lograr dichas metas de preparación para las profesiones y para la universidad. Estos cinco artículos son ejemplos notables de la combinación del trabajo teórico y empírico que caracteriza a los análisis Rasch, y esperamos que motiven a los lectores a aprender más sobre los modelos de Rasch y sus usos potenciales en la elaboración de argumentos de validez basados en evidencias. Los artículos muestran cómo los conceptos del modelo de Rasch y su modelado estadístico son aplicables a una amplia gama de temas, que incluyen el desarrollo de instrumentos, programas de investigación innovadora y políticas públicas.Esperamos también que esta sección especial motive a los lectores a participar en la próxima conferencia IOMW que se realizará en Washington, D.C. en abril de 2016. Referencias Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee’s ability. En F. M. Lord, & M. R. Novick (Eds.), Statistical theories of mental test punctuations (pp. 395-479). Reading, MA: Addison-Wesley. Crocetti, E., Rubini, M., & Meeus, W. (2008). Capturing the dynamics of identity formation in various ethnic groups. Development and validation of a three-dimensional model. Journal of Adolescence, 31, 207-222. doi: 10.1016/j.adolescence.2007.09.002 Duckor, B., Draney, K., & Wilson, M. (2009). Measuring measuring: Toward a theory of proficiency with the Constructing Measures framework. Journal of Applied Measurement, 10(3), 296-319. Kane, M. T. (2015). Explicating validity. Assessment in Education: Principles, Policy & Practice. Recuperado de http://dx.doi.org/10.1080/0969594X.2015.1060192 Program Committee of the Objective Measurement Institute (2000). Definition of objective measurement. Recuperado de http://www.rasch.org/define.htm Rasch, G. (1960/1980). Probabilistic models for some intelligence and attainment tests. (Copenhagen, Danish Institute for Educational Research), expanded edition (1980) with foreword and afterword by B. D. Wright. Chicago: The University of Chicago Press. Rasch, G. (1977). On specific objectivity: An attempt at formalizing the request for generality and validity of scientific statements. The Danish Yearbook of Philosophy, 14, 58-93. San Martín, E., González, J., & Tuerlinckx, F. (2015). On the unidentifiability of the fixed-effects 3PL model. Psychometrika, 80(2), 450-467. doi: 10.1007/s11336-014-9404-2 Wilson, M. (2005). Constructing measures: An ítem response modeling approach. Mahwah, NJ: Lawrence Erlbaum Associates, Inc. Wilson, M. (2014). Considerations for measuring learning progressions where target learning is represented as a cycle. Pensamiento Educativo. Revista de Investigación Educacional Latinoamericana, 51(1), 156-174. doi: 10.7764/PEL.51.1.2014.12 Wright, B. D., & Masters, G. N. (1981). The measurement of knowledge and attitude. Chicago: Statistical Laboratory, Department of Education, University of Chicago. http://dx.doi.org/10.7764/PEL.52.2.2015.1 1Brent Duckor, 2María Verónica Santelices, and 3Steffen Brandt 1College of Education, San Jose State University, California, USA 2Faculty of Education, Pontificia Universidad Católica de Chile 3Art of Education, Statistical Analyses Over 50 years ago, Georg Rasch helped found the field of Item Response Theory with the model that bears his name, distinguished by the use of a single parameter to model the relationship between item difficulty and person ability (Rasch, 1960/1980, 1977). Long considered the gold standard in «objective» measurement, various extensions of the Rasch model have been proposed, applied, and investigated for use in educational testing and assessment settings. According to the Program Committee of the Objective Measurement Institute (2000), «objective» measurement is «the repetition of a unit amount that maintains its size…no matter which instrument…is used and no matter who or what relevant person or thing is measured.» The Rating Scale Model, the Partial Credit Model, and the Randomized Coefficient Multinomial Logit Model are all part of the Rasch family. Initially focused on reading achievement, Rasch models are now employed in such diverse fields as health care, physical therapy, nursing, pharmaceuticals, and competitive sports. The Rasch model puts our theory of the structure of any latent variable to a rigorous scientific test by asking: «Does the data fit the model?» (Wright & Master, 1980). From a constructing measures perspective (Wilson, 2014), the Rasch model framework allows researchers to explore the validity of the scales, starting from construct theory and contrasting that theory with the evidence of the empirical orderings of persons and items on a Wright map. Much in line with the current notion of the validity argument (Kane, 2015), the Rasch framework helps explore the internal structure of the construct and the validity of its content, both at the same time. In addition, Wilson (2005) reminds us that the Rasch framework puts forth a set of first principles for measuring persons and calibrating items on a single scale; far from being just another scaling technique, this approach is fundamentally important to the interpretations made in measurement science (Duckor, Draney, & Wilson, 2009). When choosing and evaluating a measurement model, researchers should think spatially, in terms of a geographic map. The idea of the «location» of an item response with respect to the location of another item response only makes sense if that relative meaning is independent of the location of the respondent involved. That is to say, the interpretation of relative locations needs to be uniform no matter where the actual respondent is. This invariance requirement corresponds to the idea that an «inch represents a mile» or a «meter represents a kilometer», wherever you are on a geographical map. Over the years, the one-parameter (Rasch) model has faced challenges from item response theorists (IRT) who favor more flexible models and better data fit. Some IRT researchers (Birnbaum, 1968) have pushed to include additional parameters in order, for example, to model variation in item discriminations (2PL) or variation in guessing probabilities (3PL). While the Rasch model requires that all items be equally discriminating in order to define the ability that is to be measured, the 2PL and 3PL models allow discrimination to vary across items and calculate it recursively as part of the estimation process. This also impacts the estimation of the item difficulty parameter, creating a sharp difference between how Rasch and 2PL/3PL item difficulties can be interpreted. Because item discrimination is at least in part a property of how a particular sample of examinees interacts with an item and is not exclusively a property of the item, and because examinees vary across tests, the inescapable consequence is that the scores calculated using the 2PL and 3PL models are not guaranteed to be as generalizable across tests as scores calculated from data that are constrained to fit the requirements of the Rasch model. Thus, although the 2PL and the 3PL may fit the data better, the gain often comes at a cost. First, the interpretation of the test scores is not as clear, since the different discrimination parameters of the items result in different weightings of the items in the test score; whether this is due to an item or a sample characteristic is unknown. Second, the scientific principle of checking on one’s theoretical expectations about a construct (in a validity framework) is lost if researchers cannot falsify hypotheses about data structure. Moreover, recent studies (San Martín, González, & Tuerlinkx, 2015) have shown the unidentifiability of the 3PL model, examining how, even after fixing the difficulty, the discrimination, and the guessing parameters of an item, the remaining items’ parameters are still unidentified by the observations, do not have an empirical interpretation, and cannot be unbiasedly and consistently estimated. These reasons explain why the Rasch model is still used today and remains an important tool in the psychometrician’s and educational measurement specialist’s toolkit. In accordance with the traditions established by the predecessor series, Objective Measurement: Theory into Practice (Vols. 1-5) and Advances in Rasch Measurement (Vols. 1-2), this journal is pleased to offer both the theoretical and practical applications of Rasch measurement models in this issue. All papers were originally presented at the International Objective Measurement Workshop (IOMW) 2014 in Philadelphia, PA, United States. The IOMW is a biennial conference, which takes place before the conference of the American Educational Research Association (AERA), and gathers experts from around the world to share their work in the areas of Rasch modeling, psychometrics, and philosophy of measurement. Manuscripts were solicited for thematic coherence and fit, and each of them was blind-reviewed by at least two experts. The five papers gathered for the special topic, «Advances in Rasch Modeling: New Applications and Directions», consider the Rasch model from different angles and applications. The first paper from Andrich (2015), «Components of Variance of Scales with a Subscale Structure using Two Calculations of Coefficient α», addresses the issue of analyzing dimensionality, the coefficient alpha, and subscales variance. It notes that scales constructed to measure a single variable are nevertheless composed of subscales of items, which measure different aspects of the variable. Using a simulation study, the paper proposes a simple method that can be used to provide a more comprehensive summary of the properties of a scale with subscales than is possible with an estimate of the reliability coefficient. It shows that, with some common simplifying assumptions and using a bifactor structure, the ratio of two calculations of the coefficient alpha, one at the level of the items and the other at the level of the subscales, can be used to obtain (a) the proportion of true common variance, (b) the proportion of the true unique variance, (c) the proportion of the true common variance relative to the sum of the true common and unique variances, and (d) the summary correlation among subscales immediately corrected for attenuation due to error. The paper shows how Rasch scholars can shed new light on traditional problems and approaches about reliability for those using the coefficient alpha. The second paper, by Behizadeh and Engelhard (2015), «What Is a Valid Writing Assessment from the Perspectives of the Writing and Measurement Communities?» addresses issues related to validity, consequential validity, writing assessment, and communities of practice, with a particular focus on Rasch measurement theory. The study examines the concept of validity in two distinct communities of practice: the writing research and educational measurement communities. It highlights the contributions that Rasch measurement theory (Rasch, 1960/1980) brings to understanding and evaluating validity. By connecting technical and non-technical perspectives on validity, the authors explore points of consensus and convergence regarding validity. This research has implications for improving research, theory, and practice in writing assessment for scholars and practitioners. The third paper, by Fisher and Wilson (2015), «Building a Productive Trading Zone in Educational Assessment Research and Practice» explores the challenges of measurement across different institutional contexts. It argues that diverse viewpoints regarding the act of measuring —from the science laboratory to the classroom to the marketplace— can be reconciled with the use of boundary objects that allow for shared meanings. The authors describe how psychometrically modeled exemplars known as construct maps and Wright maps, developed based on the Rasch model, function as boundary objects and can serve as a basis for productive analogies in educational assessment by (a) preserving relational structures, (b) making isomorphic mappings between systems, and (c) facilitating systematicity, understood as mapping systems of higher order relational structures. Using the case of the BEAR Assessment System and its accompanying software, the paper explores how such technologies support practical alliances of teaching, policy-making, assessment and curriculum development, psychometrics, and information technology. In the fourth paper, Korpershoek (2015) presents «An Investigation of the Reliability and Validity of the Utrecht-Management of Identity Commitments Scale Adapted to Measure Students' Identity Formation Processes at their University», which addresses issues of commitment and identity development processes in psychological measurement. The paper examines evidence for the construct validity and predictive validity of the measurement framework presented by Crocetti, Rubini, and Meeus (2008), which was originally developed to measure the identity formation processes (such as achieving commitments) of individuals in various domains. Drawing from a pool of university students and using a multidimensional Rasch model, the paper then explores an adapted version of the Utrecht-Management of Identity Commitments Scale (U-MICS) to measure university students’ identity formation processes, which are a part of students’ personal identities at their university. The results showed some signs that internal structure evidence can represent students’ identity formation processes at the university, although some items need further improvement to fit the multidimensional model better. The fifth paper, by Williamson (2015), «Measuring Academic Growth Contextualizes Text Complexity», addresses the challenges and opportunities for measuring growth in reading. Using Rasch first principles for specific objective measurement, the paper argues that optimal measurement of students’ academic growth requires a scale that is unidimensional, continuous, equal-interval, developmental, and invariant with respect to location and unit size. It provides an empirically validated example of Rasch measurement with an operationalized reading construct theory. Using the Lexile scale, the paper illustrates a text-complexity continuum, where persons (readers) and items (texts) are brought onto a common «academic growth» scale. The paper further explores recent educational policy developments (College and Career Readiness Standards) in the U.S. that recommend increasing students’ exposure to complex texts. The author notes that parametric modeling of alternative growth curves can better frame conversations about how exactly students might attain these particular college and career readiness goals. These five articles are fine examples of the combination of the theoretical and empirical work that characterizes the Rasch analyses, and we hope that they will motivate readers to learn more about the Rasch models and their potential uses for evidence-based validity arguments. They show how Rasch model concepts and statistical modeling are applicable to a broad range of issues, including instrument development, innovative research programs, and public policy. We look forward to readers joining the next IOMW conference to be held in Washington, D.C. in spring 2016. References Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee’s ability. In F. M. Lord, & M. R. Novick (Eds.), Statistical theories of mental test scores (pp. 395-479). Reading, MA: Addison-Wesley. Crocetti, E., Rubini, M., & Meeus, W. (2008). Capturing the dynamics of identity formation in various ethnic groups. Development and validation of a three-dimensional model. Journal of Adolescence, 31, 207-222. doi: 10.1016/j.adolescence.2007.09.002 Duckor, B., Draney, K., & Wilson, M. (2009). Measuring measuring: Toward a theory of proficiency with the Constructing Measures framework. Journal of Applied Measurement, 10(3), 296-319. Kane, M. T. (2015). Explicating validity. Assessment in Education: Principles, Policy & Practice. Retrieved from http://dx.doi.org/10.1080/0969594X.2015.1060192 Program Committee of the Objective Measurement Institute (2000). Definition of objective measurement. Retrieved from http://www.rasch.org/define.htm Rasch, G. (1960/1980). Probabilistic models for some intelligence and attainment tests. (Copenhagen, Danish Institute for Educational Research), expanded edition (1980) with foreword and afterword by B. D. Wright. Chicago: The University of Chicago Press. Rasch, G. (1977). On specific objectivity: An attempt at formalizing the request for generality and validity of scientific statements. The Danish Yearbook of Philosophy, 14, 58-93. San Martín, E., González, J., & Tuerlinkx, F. (2015). On the unidentifiability of the fixed-effects 3PL model. Psychometrika, 80(2), 450-467. doi: 10.1007/s11336-014-9404-2 Wilson, M. (2005). Constructing measures: An item response modeling approach. Mahwah, NJ: Lawrence Erlbaum Associates, Inc. Wilson, M. (2014). Considerations for measuring learning progressions where target learning is represented as a cycle. Pensamiento Educativo. Revista de Investigación Educacional Latinoamericana, 51(1), 156-174. doi: 10.7764/PEL.51.1.2014.12 Wright, B. D., & Masters, G. N. (1981). The measurement of knowledge and attitude. Chicago: Statistical Laboratory, Department of Education, University of Chicago. http://dx.doi.org/10.7764/PEL.52.2.2015.1