La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.

Application of factors in designing usability computerized adaptive testing (tai): a case study

Milton Maridueña Arroyave

Fecha de recepción: 2 de octubre/2012
Fecha de aceptación: 19 de noviembre/2012

La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.

Application of factors in designing usability computerized adaptive testing (tai): a case study

Milton Maridueña Arroyave[1]

Como citar: Maridueña, M. (2012). La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico. Revista Universidad De Guayaquil, 114(3), 7–20. DOI: https://doi.org/10.53591/rug.v114i3.462

Resumen

El diseño de sistemas informáticos debe ser guiado por un conjunto de conceptos, principios y técnicas, cuyo objetivo principal es el de minimizar o reducir las cargas cognitivas y de percepción por parte del usuario, es decir, que el resultado del proceso de diseño de lugar a un sistema (o herramienta) que demuestre un manejo fácil e intuitivo: en efecto, aseverar la “usabilidad” del sistema. Este objetivo, conseguido a través de un proceso reconocido como “centrado en el usuario”, es necesario no sólo para conseguir mejoras en la productividad del usuario y facilitar la utilización de los sistemas propiamente desarrollados, sino que es un aspecto vital y prácticamente obligatorio para el diseño de test adaptativos informatizados que incluyen personas con dependencia funcional. Un generador de TAI debe ser un software amigable, de fácil uso, intuitivo, portable, escalable, altamente configurable y fuertemente documentado, que al mismo tiempo dé respuesta a los objetivos propios de un test adaptativo basado en Teoría de Respuesta al Ítem (TRI); sistemas similares pecan en la calidad de sus interfaces y en la forma de interactuar con el usuario.

Palabras Clave: Usabilidad, Test Adaptativos Informatizados centrado en el Usuario

Summary

The computer systems design should be guided by a set of concepts, principles and techniques, whose main objective is to minimize or reduce cognitive load and user perception, ie the result of the design process rise to a system (or tool) that demonstrates an easy and intuitive: indeed, assert the “usabi lity” of the system. This goal, achieved through a process known as “user-centered”, it is necessary not only for improvements in user productivity and facilitate proper use of the systems developed, but it is a vital and practically mandatory for design of computerized adaptive tests that include people with functional dependence. A TAI generator software should be a friendly, easy to use, intuitive, portable, scalable, highly configurable and heavily documented, at the same time to respond to the specific objectives of an adaptive test based on Item Response Theory (IRT), similar systems fail the quality of its interfaces and how to interact with the user.

Keywords: Usability, Computerized Adaptive Test User Centered

Introducción

El test es sin duda el principal método utilizado en psicometría para medir las facultades intelectuales, tanto educativas como psicológicas. La aplicación de un test consiste en administrar una serie de preguntas o actividades denominadas ítems, que habitualmente tienen un formato de elección múltiple, con el fin de cuantificar para cada sujeto una variable de rasgo o habilidad, como la memoria, la capacidad de aplicar el conocimiento adquirido o la comprensión de textos.

Las teorías de test proporcionan métodos para la construcción de test y proveen de modelos matemáticos que facilitan la interpretación y validación de los resultados obtenidos.

Tradicionalmente, el ámbito profesional de la medición psicológica y educativa ha estado do- minado por la Teoría Clásica de los Test (TCT). Esta teoría surgió a partir de los trabajos de (SPEARMAN, 1904), si bien no fue hasta media- dos de los años sesenta cuando recibió su forma axiomática (NOVICK, 1966). La TCT se funda- menta en un modelo que establece una relación lineal entre la habilidad del examinado y la puntuación del test.

Concretamente, se considera que la puntuación empírica obtenida en la prueba (X) es igual a la suma de dos componentes hipotéticos y desconocidos a priori: la puntuación verdadera o habilidad del evaluando (V) y un cierto error de medida (e). Los inconvenientes más destacables de la TCT son, por una parte, que los supuestos que plantea no se pueden contrastar empíricamente, por otra, que las mediciones de habilidad obtenidas dependen de la naturaleza del test utilizado, y que, a la inversa, propiedades como la dificultad de una prueba están supeditadas a las características de los sujetos a quienes se les aplique.

La Teoría de Respuesta al Ítem (TRI) dará solución a estos (y otros) problemas de la TCT. Se trata de una teoría relativamente joven y en continua evolución (LORD, 1952); (RASCH, 1960); (LORD & NOVICK, Statistical theories of mental test scores, 1968); (HAMBLETON, SWAMINATHAN,

& ROGERS, 1991) cuyos modelos establecen una relación no lineal entre la habilidad del examinado y una serie de propiedades o parámetros de los ítems que componen el test.

Concretamente, estos modelos reflejan la probabilidad de que los sujetos acierten los ítems que se les administran durante la aplicación de una prueba de evaluación.

El modelo unidimensional más utilizado de los que ofrece la TRI es el logístico de tres pará- metros (3PL), cuya expresión da la Ecuación 1 (BIRNBAUM, 1968):

Ecuación 1 - Modelo Logístico de 3 Parámetros

Como puede observarse, según este modelo la probabilidad de que un examinado con habilidad acierte un ítem (esto es, P( )) sólo depende de tres características que son propias del ítem (el poder discriminativo a, la dificultad b, y el pseudoacierto o probabilidad de acierto al azar c) y de un factor de escalado D que, una vez establecido, es constante.

El parámetro de dificultad se corresponde con el valor de la habilidad donde la curva P () presenta su punto de inflexión. En este punto la probabilidad de una respuesta correcta se encuentra a medio camino entre el pseudoazar (adivinanza) y 1.0. La dificultad se establece utilizando la misma escala que se usa para medir la habilidad de los examinados, por lo general la que está de- finida en el intervalo (-4, 4) del eje horizontal, siendo el 0 su punto medio. Cuanto mayor es el valor del parámetro b, más difícil es el ítem, de modo que los ítems fáciles aparecerán en la par- te izquierda del eje, y los difíciles a la derecha.

Por su parte, el parámetro de poder discriminativo del ítem corresponde a la máxima pendiente de P (), la cual se alcanza precisamente en su punto de inflexión. Cuanto mayor es su valor, que difícilmente rebasa el intervalo (0.2, 2), más significante es el ítem a la hora de evaluar al examinado.

Finalmente, el pseudoazar se define como la probabilidad de que una persona con poca habilidad (región izquierda del eje horizontal) responda al ítem correctamente.

A continuación, en la sección 1.1 se expone el concepto de test adaptativo fundamentado en

la TRI; la sección 1.2, que está dedicada al estado del arte en el uso de este tipo de pruebas de evaluación, dará pie a la presentación de un Prototipo Generador de TAI, modelo en que se centrará la sección 2; finalmente, la sección 3 cerrará con las conclusiones y posibles líneas de trabajo futuro.

1.1 Test Adaptativos Informatizados (TAI)

Por estar orientada al ítem, la TRI permite obtener estimaciones de la habilidad de los sujetos que son independientes del conjunto específico de ítems que se haya administrado. Además, esta teoría ofrece un marco en el que, incluso aunque dos examinados hayan respondido series distintas de preguntas, sus puntuaciones se pue- den comparar directamente. Esta circunstancia, impensable en el contexto de la TCT, es la que ha impulsado el desarrollo cada vez más acentuado de test adaptativos basados en la TRI.

Los Test Adaptativos Informatizados (TAI) son la implementación de esta idea en un programa informático que automáticamente presenta los ítems, y recoge y evalúa las respuestas (WAINER & DORANS, 2000).

Se habla de adaptación en cuanto a que el test se genera dinámicamente dependiendo de las respuestas previas del examinado. Así, si el sujeto falla una pregunta (esto es, el ítem ha resultado ser difícil) la siguiente cuestión será considerablemente más fácil porque no parece razonable seguir insistiendo con preguntas de dificultad alta; y viceversa, como consecuencia de un acierto se administrará un ítem más difícil. La idea subyacente es la de que cuanto más se ajusten los ítems seleccionados a la habilidad real del alumno, tanto más útil será la información que aporten sus respuestas.

Los elementos que forman un TAI son un algo- ritmo de selección de ítems, un criterio de finalización del test, un método para estimar la habilidad en base a las respuestas recopiladas hasta el momento, y un banco o base de datos que almacene los ítems calibrados según el modelo de la TRI que se vaya a utilizar. El algoritmo que define el funcionamiento de un TAI (MUÑIZ, 1997), es un procedimiento iterativo (Figura 1) que, partiendo de una estimación inicial de la habilidad del examinado, primero evalúa todos

los ítems que no han sido utilizados aún en el test con el fin de seleccionar el mejor con respecto a la estimación de la habilidad actual; después administra el ítem elegido y recoge la respuesta; acto seguido computa una nueva estimación de habilidad considerando las respuestas a todos los ítems utilizados hasta el momento; y sigue repitiendo los pasos anteriores hasta satisfacer el criterio de parada establecido. En general, un TAI puede finalizar porque se ha alcanzado un nivel concreto de precisión en la estimación de habilidad, porque se ha utilizado un número de ítems determinado, o porque se ha superado el tiempo límite definido.

Figura 1 - Algoritmo de Administración del TAI

La eficiencia de un TAI depende de dos procesos complementarios y estrechamente vinculados: el método estadístico utilizado para estimar la habilidad y el criterio de selección de ítems. Es fundamental que las estimaciones de la habilidad del examinado que realice el TAI sean precisas, pues en ellas se basa el correcto funciona- miento del test. Los métodos más utilizados son los de máxima verosimilitud (LORD, Applications of item response theory to practical testing problems, 1980) y los bayesianos (VAN DER LINDEN & GLAS, 2010). Por su parte, la selección del siguiente ítem, que se lleva a cabo bajo la suposición de que la estimación de la habilidad del evaluando es precisa, es la tarea responsable de que el TAI sea adaptativo.

En este contexto cabe destacar el criterio de máxima información (LORD, 1980), que consiste en seleccionar, de entre los que aún no han sido administrados, el ítem que proporciona más in- formación para el nivel de habilidad estimado en cada momento. La información aportada por un ítem (I ()) sólo depende de las propiedades del modelo, concretamente de la curva característica

del ítem P () y de su primera derivada con respecto a, y se define como (BIRNBAUM, 1968):

Ecuación 2 – Función de Información del Item

La idea subyacente al criterio de máxima in- formación es que cuanto más informativo es un ítem para un valor concreto, tanto más precisa hace, después de haber sido administrado, la nueva estimación de la habilidad del examinado; o dicho de otro modo, menos error produce en dicha estimación. Con el fin de evitar que los ítems más informativos se apliquen sistemáticamente en todas las evaluaciones, y en con- secuencia los menos valiosos no se administren nunca, todo método de selección de ítems suele implementar algún procedimiento para controlar la sobrexposición de los ítems (OLEA & PONSODA, 2003).

Cuando finaliza la aplicación del TAI se dispone de una aproximación del nivel de habilidad del examinado. No obstante, para que dicha estimación sea precisa y fiable, es necesario que el banco de ítems que se haya utilizado esté calibrado según alguno de los modelos de la TRI. Esto significa que las características que definen sus ítems (en el caso del modelo 3PL, dificultad, discriminación y pseudoazar) deben ser conocidas, por ejemplo, por haber sido estimadas mediante algún proceso estadístico (HAMBLETON & SWAMINATHAN, tem Response Theory: Principles and Aplications, 1985).

1.2 Estado del Arte

La idea original de los TAI fundamentados en la TRI data de comienzos de los años setenta (LORD, 1970), y fue implementada por vez primera durante los ochenta a partir del sistema Computerized Adaptive Screening Test de la armada estadounidense, precursor de lo que a día de hoy se conoce como CAT-ASVAB (SEGALL & MORENO, 1997).

En 1990 sólo se administraron unos pocos cien- tos de TAI, pero esta cifra se incrementó en 1999 hasta superar el millón de aplicaciones,

por lo que el crecimiento en la utilización de tests adaptativos se sigue estimando exponencial (WAINER, 2000). De hecho, en la actualidad existen multitud de instituciones y programas estandarizados de evaluación que incluyen TAI basados en TRI, como el National Assessment of Educational Progress o el Educational Testing Service (ETS), en cuyo marco se desarrollan varios de los más importantes programas de evaluación adaptativa (ROJAS TEJADA, 2001), como el Test Of English as Foreign Language (TOEFL), que se administra en casi 90 países.

Semejante aumento en la aplicación de TAI se debe principalmente a las ventajas que ofrecen sobre los test tradicionales de lápiz y papel basados en la TCT: entre otras, requieren menos tiempo de administración, realizan estimaciones de habilidad más precisas, y dotan al test de mayor seguridad (OLEA & PONSODA, 2003). No es de extrañar, por tanto, que el catálogo de ámbitos en los que a día de hoy se utilizan los TAI sea tan extenso, y que abarque campos como la medición de aptitudes intelectuales, la selección de personal y las pruebas de admisión, certificación o evaluación educativa.

Prácticamente todas las implementaciones de TAI que se han desarrollado se utilizan a gran escala, y, en la mayor parte de los casos, con fines comerciales. De hecho, apenas se conocen aplicaciones gratuitas para realizar tests adaptativos experimentales o a pequeña escala, entre las que cabe mencionar DEMOTAC (RENOM, 1993) y ADTEST (PONSODA, OLEA, & REVUELTA,

1994) como ejemplos representativos.

Muchas veces son los propios psicómetras quienes elaboran herramientas generadoras de TAI para uso propio, para que su alumnado pueda crear pequeños test durante las prácticas en clase, o con algún otro fin experimental. En estos casos, pese a ser muy eficientes en los cálculos y estimaciones de habilidad, los productos finales suelen ofrecer interfaces de usuario muy pobres. Por lo general se trata de software desarrollado en lenguajes de programación imperativa tradicionales (como C, Fortran o Pascal) que limitan la configurabilidad del programa, los formatos de entrada y la interfaz de comunicación. En concreto, no siempre se ofrece la posibilidad de utilizar el ratón como dispositivo de entrada, las pantallas se suelen basar íntegramente en inter- faces de matriz de texto al estilo de MS-DOS, y el usuario se ve por lo general obligado a utilizar ficheros de texto ASCII con un formato concreto

(establecido de antemano y que no siempre resulta intuitivo) para almacenar su banco de ítems calibrado.

Este documento presenta un “Prototipo Generador de TAI”, un modelo de fácil manejo que aportará fundamentalmente mejoras en la inter- faz de usuario, utilidades de ayuda y el incremento de posibilidades de configuración, no sólo a nivel de aplicación informática sino también como generador de Test. Se trata de un prototipo muy orientado al usuario, escalable, portable y de fácil manejo que generará TAI a partir de un banco de ítems calibrado según el modelo de tres parámetros. Un sencillo patrón de interfaz gráfica e interactiva dirige las principales operaciones, lo que, junto con una alta configurabilidad en las opciones y preferencias del usuario, facilita su utilización.

2. Metodología. - Caso Práctico de Usabilidad en un Prototipo Generador de TAI

Este prototipo basado en las Reglas de Oro de la Usabilidad (NIELSEN, 1993), deberá desarrollarse en un lenguaje de programación orientado a objetos que facilite la construcción de aplicaciones que interactuarán con cualquier tipo de base de datos, simplificando la creación de interfaces de usuario basadas en ventanas, y permitiendo el uso del ratón sobre elementos gráficos dotados de funcionalidad (como botones, listas desplegables o menús). Además, esta herramienta será portable, lo que significa que podrá ejecutarse en cualquier plataforma, con independencia de cuál sea el sistema operativo usado (LOPEZ CUADRADO, 2008).

Se trata de un prototipo muy sencillo de utilizar, pues lo único que se necesitará es que el evaluador especifique la ubicación de la tabla con los ítems calibrados según el modelo 3PL, para que el sistema genere de modo sencillo e intuitivo test adaptativos. Dicha tabla puede estar alma- cenada en cualquier gestor de bases de datos.

Desde el punto de vista de programación, la herramienta es fácilmente escalable, pues se su diseño contará con estructuras abiertas y poco solapadas, de manera que la inclusión en el fu- turo de nuevas funcionalidades y opciones de configuración resulte sencilla.

Esta herramienta prototipo, incorporará un novedoso sistema de simulación que automática-

mente calibrará su funcionamiento y ofrecerá resultados para un posterior análisis. Asimismo, permitirá la generación de archivos de texto con históricos de sesión y la presentación de resultados en diversos formatos que pueden complementarse.

El sistema generador de TAI proporcionará siete módulos o pantallas de presentación. El paso de una sección a otra podrá darse mediante los botones establecidos en cada pantalla para ello, aunque también podrá efectuarse a través de la barra de menú. Esta barra, común para toda la aplicación, facilitará la navegación por las distintas opciones y brindará acceso a las funcionalidades más importantes.

A continuación, se presentarán en detalle las características y funcionalidades principales de cada uno de los siete módulos que compondrán el sistema Generador de TAI (Figura 2), y que serán: pantalla de presentación, preferencias, simulación, configuración del TAI, aplicación o administración del test, presentación de resultados y ayuda.

Figura 2 – Pantallas del Prototipo GENERADOR DE TAI

2.1. La Pantalla de Presentación

La pantalla de presentación (figura 3) es la vía de entrada a la aplicación, y permite acceder al resto de elementos y funcionalidades que ofrece el Prototipo.

Opcionalmente puede especificarse en ella un nombre de usuario con el que posteriormente se personalicen los informes y resultados de los test.

2.2. Configuración de Preferencias

En esta sección (Figura 4) el usuario podrá con- figurar las distintas opciones que ofrece la herramienta. Con el fin de evitar problemas en el funcionamiento del Generador, la pantalla de preferencias establecerá un estricto control sobre los datos que proporcionará el usuario, en particular, como se verá enseguida, sobre la ubicación del banco de ítems. Todas las posibilidades que podrán establecerse en este punto del programa son:

• El tipo de ítems a utilizar: de momento sólo se incluye la posibilidad de utilizar preguntas de elección múltiple con tres o cuatro posibilidades de respuesta, que por otra par- te son los más utilizados en las pruebas de evaluación mediante test.

• La ubicación de los datos: especificación de la base de datos en la que se encuentran los ítems del banco y sus parámetros a, b y c., Esta herramienta incorporará un sistema de comprobación del formato de las tablas, que

mostrará un aviso ante cualquier anomalía, lo que facilitará la gestión y mantenimiento de las mismas.

• Restricciones de accesibilidad: El Prototipo Generador permitirá restringir el acceso a las opciones de configuración de los test, así como al menú de preferencias, por ejemplo, para poder realizar numerosas pruebas con un mismo patrón de con- figuración y evitará que los examinados modifiquen los valores establecidos para la aplicación de los TAI. Para ello, se establecerá una contraseña que se guardará en un formato cifrado con el fin de impedir su decodificación a partir del fichero que la almacenará.

• Establecimiento de los valores por defecto: se facilitará la configuración de los TAI que se vayan a realizar directamente desde la pantalla de presentación. También se permitirá especificar el nombre que el generador dará a los archivos históricos de resultados.

• Opciones de simulación: proporcionará el acceso al módulo de simulación y a sus opciones de configuración, elementos de los que se hablará a continuación.

Figura 4 – Ventana de preferencias del Prototipo

2.3. Módulo de Simulación

Esta pantalla será accesible desde la ventana de preferencias, servirá para testear el funciona- miento de la herramienta en términos de precisión o error en las estimaciones. Este subproceso será el encargado tanto de recoger las opciones de la propia simulación como de la ejecución de la misma.

El funcionamiento de las simulaciones es muy sencillo: el sistema generará automáticamente una muestra de sujetos cuyas habilidades establece a priori; después simulará la administración de un TAI a cada uno de estos sujetos virtuales, por lo que como resultado obtendrá una estimación para cada una de las habilidades que ha determinado previamente; por último, una comparación entre las habilidades establecidas en el inicio y las estimaciones recién obtenidas dará al usuario una idea de lo preciso que es el TAI que se ha aplicado a los sujetos simulados.

Los aspectos que pueden configurarse en lo concerniente a la simulación serán el tipo de test a administrar, el método de selección

del primer ítem, el método de selección de los ítems sucesivos, y el criterio de parada. Estos parámetros de configuración se describirán con detalle en el siguiente epígrafe, pues son exactamente los mismos que se han definido para la administración de los TAI. Es en lo relativo al formato de los resultados donde surgen las diferencias, dado que el módulo de simulación elabora automáticamente un tipo de informe de salida más específico que los que se pueden obtener tras la aplicación de un TAI. En efecto, una vez finalizada una sesión de simulación, los resultados de las administraciones efectuadas se almacenarán, de modo transparente al usuario, en un archivo tabulado de texto plano que facilitará su futura importación por par- te de programas de cálculo numérico o análisis estadístico como el paquete SPSS. Entre los resultados computados se encuentran la raíz del error cuadrático medio (RSME), el sesgo (BIAS) y el error estándar (SE) de las estimaciones de habilidad obtenidas durante el proceso de simulación, no sólo para todo el intervalo de habilidades considerado ([- 4, 4]), sino también para diferentes subintervalos

de tamaño 0.2 (concretamente, [-4,

-3.8), [-3.8, -3.6), etcétera). La Ecuación 3 muestra las fórmulas utilizadas para calcular los índices de precisión del algoritmo TAI utilizado durante la simulación.

Ecuación 3 – Métricas de Precisión de la Simulación

En todas estas fórmulas, N es el número de sujetos simulados del intervalo o subintervalo considerado a los que se les ha aplicado un TAI, la habilidad (establecida de antemano por el propio módulo de simulación) del sujeto k-ésimo, y * la estimación que el TAI ha computado para la habilidad del sujeto k-ésimo. En el caso ideal en el que el algoritmo de aplicación de la prueba resultase absolutamente preciso, estos dos últimos valores serían idénticos.

La administración simulada de TAI se efectuará utilizando varios cientos de sujetos con niveles de habilidad distribuidos uniformemente a lo largo del intervalo [-4, 4], a quienes se les aplicarán los test siguiendo la configuración especificada, y tomando ítems de un banco que puede ser generado íntegramente por Generador o extraído de una base de datos externa. Para el primer caso, la propia herramienta crea un banco de 3000 ítems cuyos parámetros siguen una distribución uniforme (por defecto, U(0.4, 1.4) el de discriminación, U(-4, 4) el de dificultad y U(0, 0.2) el de pseudoazar).

2.4. Configuración del TAI

Si bien es posible comenzar la administración de un TAI directamente desde la pantalla de presentación (en cuyo caso se utilizarán los valores que estén establecidos por defecto), lo más habitual será hacerlo después de haber visitado la pantalla de configuración del TAI (Figura 5). Este módulo, en el que se han invertido grandes esfuerzos para favorecer la escalabilidad de la aplicación (esto es, la inclusión futura de nuevas funcionalidades), permite establecer los métodos y criterios a seguir durante la posterior administración de los TAI. Al igual que ocurre en el módulo de preferencias (y en general, en cualquier pantalla en la que el usuario ha de introducir algún dato), a la hora de capturar esta información el prototipo realizará un control exhaustivo de los datos de entrada.

El objetivo será evitar la inserción de valores no deseados o inválidos, por lo que, en el supuesto en que se diere uno de estos casos, el sistema mostrará por pantalla un aviso individualizado y automáticamente restaurará el valor erróneo a uno aceptable (por ejemplo, al asignado por defecto).

En el módulo de configuración del TAI podrá especificarse:

• El tipo de prueba a desarrollar: en este momento se ofrecerán tres tipos de test, a saber, TAI fácil (en el que los ítems que se presentan tienen menor dificultad que la óptima con el fin de reducir la ansiedad del examinado), TAI clásico (en el que se sigue estrictamente el método de máxima información) y TAI difícil (en el que los ítems son ligeramente más difíciles de lo esperable).

• El método de selección del primer ítem: con el propósito de que el algoritmo de aplicación del TAI disponga de una estimación inicial de la habilidad del examinado, el usuario deberá establecer un valor numérico exacto, o en su defecto especificar un rango de valores para que sea el sistema quien elija aleatoriamente la habilidad de partida dentro de dicho intervalo.

• El método de selección de los siguientes ítems: se trata del criterio de máxima información, que puede combinarse con uno de los métodos de control de sobrexposición de los ítems que se han implementado, y que son el 5-4-3-2-1, el randomesque y el progresivo (OLEA & PONSODA, 2003).

• El criterio de parada: puede especificarse si el algoritmo de aplicación del TAI debe finalizar tras la administración de un número específico de ítems (criterio de longitud fija), cuando se ha alcanzado una precisión determinada (criterio de longitud variable), o como resultado de una combinación de ambos (criterio mixto). De modo complementario, es posible definir un tiempo máximo para la conclusión de la prueba.

• Existirán cinco formas distintas de mostrar los resultados, ninguna de ellas excluyente del resto. Se trata de la habilidad pura (estimada), una transformación a la escala [0,10], un gráfico de evolución, un histórico y el porcentaje de aciertos. Aunque es en la pantalla de configuración donde se especifica cuál o cuáles de los diferentes formatos se desea para visualizar los resultados, tras la finalización de cada prueba se le da al usuario nuevamente la posibilidad de elegir entre los cinco modos de presentación.

2.5. Administración del TAI

Tanto si se ha establecido una configuración específica como si se van a utilizar los valores por defecto, la aplicación del TAI tiene lugar en una serie de pantallas en las que, a partir de la configuración determinada para el test actual, se mostrarán los ítems apropiados para la evaluación y se recogerán las respuestas del examinado LOPEZ CUADRADO, J., & ARMENDARIZ, A. J. (2006).

Mientras que el usuario se limitará a seleccionar la respuesta que considera correcta para cada uno de los ítems que el Prototipo Generador le presentará, el sistema procesará las operaciones necesarias para la ejecución del algoritmo de administración del TAI. Las tareas concretas que realizará este módulo son las que se enumeran a continuación:

• Seleccionar el ítem más adecuado: atendiendo a los criterios de selección de ítems establecidos en la configuración del test, se seleccionará del banco de ítems el siguiente que se va a mostrar. Esta tarea, que dependerá de la estimación actual de la habilidad del examinado, de los ítems que ya han sido administrados y de si se requiere o no la utilización de métodos de control de sobrexposición, se anticipará a la respuesta del usuario, ya que efectuará los cálculos durante los segundos que tardará el examinado en responder a cada ítem. De esta manera se conseguirá que el proceso no afecte a la interacción con el sistema (en concreto, ralentizando la presentación de los ítems), y mucho antes de que el evaluando responda un ítem el Prototipo Generador ya tendrá decidido cuál va a ser el siguiente que le presentará si acierta, y cuál si elige una respuesta incorrecta.

• Recalcular la habilidad estimada del sujeto:

dado que la selección del siguiente ítem a administrar requiere conocer de antemano la estimación de habilidad actual del sujeto, esta tarea, que sólo depende de las características de los ítems administrados hasta el momento y de sus respuestas, se incluye en la anterior. Por lo tanto, el sistema podrá conocer con antelación no sólo qué ítem deberá administrar a continuación tanto si el sujeto acierta el actual como si no, sino que además puede disponer del nuevo valor de habilidad estimado para cada caso. Para obtenerlo este Sistema Generador utilizará el método de máxima verosimilitud con la optimización propuesta por (HERRANDO, 1989), evitando así divergencias en el proceso de cálculo al suponer de ante- mano que el sujeto ha respondido correcta- mente un ítem considerablemente fácil y ha fallado uno de dificultad extrema.

• Comprobar los criterios de parada: antes de

realizar los cálculos precisos para la selección de ítems y actualización de la habilidad estimada para el examinado, el sistema deberá comprobar si es necesario o no administrar un nuevo ítem, o lo que es lo mismo, detectar si hay que dar por concluido el TAI. Esta tarea se intercalará en el proceso de selección de ítems, mediante la inclusión de rutinas que permiten controlar si se cumple alguno de los criterios de finalización establecidos en la fase de configuración. Si se identifica el final del TAI, se invocará al módulo de presentación de resultados (del que se hablará en el siguiente epígrafe) para que muestre al usuario su evolución y/ o puntuación.

• Informar al usuario: además del enuncia- do y las posibles respuestas de los ítems, y dependiendo de qué criterios de parada se hayan habilitado en la configuración de la prueba, el módulo de aplicación del TAI también deberá presentar a la examinada información relativa al estado de cumplimiento de los criterios de finalización.

Concretamente, el Prototipo Generador mostrará, en la parte superior derecha de la pantalla, el número de ítems respondidos sobre el total (si el TAI es de longitud fija), un mensaje avisando de que el test está a punto de finalizar (cuando el error de la estimación actual de habilidad está próximo al máximo permitido en los TAI de longitud variable) y, en la esquina inferior derecha, los minutos restantes para la finalización del test (en el caso de que se haya establecido un tiempo límite). Estos mensajes pueden ir acompañados de un color: verde si aún quedan bastantes ítems por administrar; amarillo si presumiblemente faltan unos pocos; y rojo si el final de la prueba es inminente.

3. Presentación de Resultados

Una vez finalizada la administración del TAI por el cumplimiento de alguna de las condiciones de parada, se da paso a la interfaz de presentación de resultados de la prueba. Antes de proceder a la visualización de los mismos se da la oportunidad al examinado de modificar los formatos de presentación de resultados que haya selecciona- dos en la configuración por defecto de los test, y que son:

• Habilidad pura: se trata de la estimación final obtenida por el sistema, y que vendrá representada como un número real dentro de la escala [-4, 4].

• Transformación al intervalo [0,10]: consiste en obtener un escalado de la habilidad pura con el fin de ofrecer una visión más familiar del resultado del TAI.

• Gráfico de evolución: este formato de presentación utilizará un modelo matemático a partir del que se obtiene un diagrama (Figura 6) en el que se mostrará la evolución del valor estimado de la habilidad del examinado a lo largo de la administración del test.

• Porcentaje de aciertos: también se ofrece la posibilidad de visualizar este índice, pese a no ser el más apropiado para evaluar la habilidad en los TAI, ya que, independientemente de la destreza de los examinados, siempre rondará el 50-60%.

Figura 10 – Sistema de Ayuda Temática

Conclusiones

Este artículo ha presentado un Prototipo, un generador de test adaptativos informatizados para utilizarlos a pequeña escala o en entornos experimentales por un usuario, si bien pueden existir varias instancias del programa, cada una de ellas operada por una persona.

Este prototipo generador de Test, será una herramienta muy amigable, gráfica, de fácil e intuitivo manejo, portable a cualquier plataforma y altamente configurable, y que como novedad incluye un módulo de simulación que permite al usuario evaluar los errores de medida producidos tras la aplicación con diferentes configuraciones de los test.

Siendo una herramienta cuyo diseño se centrará en el usuario, se tributará a la reducción de desarrollos innecesarios (por la detección de errores en forma temprana), a la mayor calidad del producto entregado siendo más eficiente.

Es un sistema que será especialmente diseñado para facilitar la inclusión de nuevas funcionalidades y opciones en el futuro.

• En primer lugar, se prevé ampliar el catálogo de formatos de ítems, para que los test no se limiten a utilizar preguntas de elección múltiple de tres o cuatro posibilidades de respuesta.

• Por otra parte, se considera la posibilidad de guardar automáticamente información del usuario entre sesiones.

• Al mismo tiempo, está prevista la inclusión de otros tipos de tests adaptativos, como los Test Autoadaptados Informatizados (ROCKLIN, O’DONNELL, & HOLST, 1995), en los que se le ofrece al examinado la oportunidad de decidir si el siguiente ítem a administrar será más fácil o más difícil.

• Otra de las líneas de desarrollo futuras es la de añadir más métodos de control de la sobrexposición de los ítems, en particular el método progresivo generalizado (EGGEN, 2001), y alguna de sus variantes.

• Por último, también se ha contempla la posibilidad de orientar la herramienta hacia un uso basado en web.

Bibliografía

Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinees ability. Addison-Wesley.

Eggen, T. H. (2001). Overexposure and underexposure of items in computerized testing. Measurement and Research Reports, 1.

Hambleton, R. K., & Swaminathan, H. (1985). tem Response Theory: Principles and Aplications. Boston: Kluwer.

Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory. California, USA.: Sage Publications Inc.

Herrando, S. (1989). Tests adaptativos computerizados: una sencilla solución al problema de la estimación con puntuaciones perfectas y cero. II Conferencia Española de Biometría. Biometric Society, Segovia. Segovia.

Lopez Cuadrado, J. (2008). Evaluación mediante test adaptativos informatizados en el contexto de un sistema adaptativo para el aprendizaje de la lengua. Lenguajes y Sistemas Informáticos (pág. 401). San Sebastián: Univ. País Vasco.

Lopez Cuadrado, J., & Armendariz, A. J. (2006). Obtención de estimaciones de los parámetros durante la calibración de un banco de ítems. University of the Basque Country (UPV/EHU/LSI/TR 13-2006), 271.

Lord, F. (1952). A Theory of Test Scores. (Psychometric Monograph No. 7). Richmond, VA:

Lord, F. (1980). Applications of item response theory to practical testing problems. Erlbaum Associates.

Lord, F., & Novick, M. (1968). Statistical theories of mental test scores. Addison-Wesley Pub. Co.

Muñiz, J. (1997). Introducción a la Teoría de Respuesta a Los ítems.

Nielsen, J. (1993). Usability Engineering. AP Professional.

Novick, M. R. (1966). The axioms and principal results of classical test theory. Journal of Mathe- matical Psychology Volume 3, Issue 1, February 1966, Pages 1-18.

Olea, J., & PONSODA, V. (2003). Tests adaptativos informatizados. Madrid: UNED Ediciones.

Ponsoda, V., Olea, J., & Revuelta, J. (1994). ADTEST: a computer-adaptive test based on the maximum information principle. Educational and Psychological Measurement, 680-686.

Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen, Danish Institute for Educational Research: The University of Chicago Press.

Renom, J. (1993). Tests Adaptativos Computarizados: Fundamentos y Aplicaciones. Barcelona: PPU.

Rocklin, T. R., O’donnell, & Holst, P. M. (1995). Effects and underlying mechanisms of self- adapted testing. Journal of Educational Psychology, 103-116.

Rojas Tejada, A. (2001). Pasado, presente y futuro de los Tests Adaptativos Informatizados. Psicothema, 685-690.

Segall, D. O., & Moreno, K. E. (1997). Computerized Adaptive Testing: From inquiry to operation. Washington D.C.: American Psychological Association.

Spearman, C. (1904). “general intelligence,” objectively determined and measured. American Journal of Psychology 15, 201-293.

Van Der Linden, W. J., & Glas, C. W. (2010). Elements of adaptative testing. Londres: Springer New York Dordrecht Heiderberg London.

Wainer, H., & Dorans, N. (2000). Computerized Adaptive Testing: A Primer. Taylor & Francis Group.

[1]Ingeniero. Máster en Docencia Universitaria, Universidad de Guayaquil, Ecuador. Correo electrónico: milton.mariduenaa@fcmf.ug.edu.ec