La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.

Ing. Milton Maridueña Arroyave.

Application of factors in designing usability computerized adaptive testing (tai): a case study.

Resumen

El diseño de sistemas informáticos debe ser guiado por un conjunto de conceptos, principios y técni - cas, cuyo objetivo principal es el de minimizar ó reducir las cargas cognitiva y de percepción por parte del usuario, es decir, que el resultado del proceso de diseño de lugar a un sistema (o herramienta) que demuestre un manejo fácil e intuitivo: en efecto, aseverar la “usabilidad” del sistema. Este objetivo, conseguido a través de un proceso reconocido como “centrado en el usuario”, es necesario no sólo para conseguir mejoras en la productividad del usuario y facilitar la utilización de los sistemas propia - mente desarrollados, sino que es un aspecto vital y prácticamente obligatorio para el diseño de test adaptativos informatizados que incluyen personas con dependencia funcional. Un generador de TAI debe ser un software amigable, de fácil uso, intuitivo, portable, escalable, altamente configurable y fuertemente documentado, que al mismo tiempo dé respuesta a los objetivos propios de un test adaptativo basado en Teoría de Respuesta al Item (TRI); sistemas similares pecan en la calidad de sus interfaces y en la forma de interactuar con el usuario.

Palabras Claves: Usabilidad, Test Adaptativos Informatizados centrado en el Usuario

Summary

The computer systems design should be guided by a set of concepts, principles and techniques, whose main objective is to minimize or reduce cognitive load and user perception, ie the result of the design process rise to a system (or tool) that demonstrates an easy and intuitive: indeed, assert the “usabi - lity” of the system. This goal, achieved through a process known as “user-centered”, it is necessary not only for improvements in user productivity and facilitate proper use of the systems developed, but it is a vital and practically mandatory for design of computerized adaptive tests that include people with functional dependence. A TAI generator software should be a friendly, easy to use, intuitive, portable, scalable, highly configurable and heavily documented, at the same time to respond to the specific objectives of an adaptive test based on Item Response Theory (IRT), similar systems fail the quality of its interfaces and how to interact with the user.

Keywords: Usability, Computerized Adaptive Test User Centered

Revista de la Universidad de Guayaquil

Nº 114, Septiembre - Diciembre 2012, pp. 5 - 18

ISSN 1019 - 6161

Revista de la Universidad de Guayaquil Nº 114, Septiembre - Diciembre 2012, ISSN 1019 - 6161

7


INVESTIGACIÓN

Introducción

El test es sin duda el principal método utilizado en psicometría para medir las facultades inte - lectuales, tanto educativas como psicológicas. La aplicación de un test consiste en administrar una serie de preguntas o actividades denomina- das ítems, que habitualmente tienen un formato de elección múltiple, con el fin de cuantificar para cada sujeto una variable de rasgo o habili- dad, como la memoria, la capacidad de aplicar el conocimiento adquirido o la comprensión de textos.

Las teorías de test proporcionan métodos para la construcción de tests y proveen de modelos matemáticos que facilitan la interpretación y validación de los resultados obtenidos.


Tradicionalmente, el ámbito profesional de la medición psicológica y educativa ha estado do- minado por la Teoría Clásica de los Test (TCT). Esta teoría surgió a partir de los trabajos de (SPEARMAN, 1904), si bien no fue hasta media - dos de los años sesenta cuando recibió su forma axiomática (NOVICK, 1966). La TCT se funda - menta en un modelo que establece una relación lineal entre la habilidad del examinado y la pun- tuación del test.

Concretamente, se considera que la puntua- ción empírica obtenida en la prueba (X) es igual a la suma de dos componentes hipoté- ticos y desconocidos a priori: la puntuación verdadera o habilidad del evaluando (V) y un cierto error de medida (e). Los inconvenien- tes más destacables de la TCT son, por una parte, que los supuestos que plantea no se pueden contrastar empíricamente, por otra, que las mediciones de habilidad obtenidas dependen de la naturaleza del test utilizado, y que, a la inversa, propiedades como la difi - cultad de una prueba están supeditadas a las características de los sujetos a quienes se les aplique.

La Teoría de Respuesta al Ítem (TRI) dará solu- ción a estos (y otros) problemas de la TCT. Se trata de una teoría relativamente joven y en continua evolución (LORD, 1952); (RASCH, 1960); (LORD & NOVICK, Statistical theories of mental test scores, 1968); (HAMBLETON, SWAMINATHAN, & ROGERS, 1991) cuyos modelos establecen una relación no lineal entre la habilidad del exami- nado y una serie de propiedades o parámetros de los ítems que componen el test.

Concretamente, estos modelos reflejan la pro - babilidad de que los sujetos acierten los ítems que se les administran durante la aplicación de una prueba de evaluación.

El modelo unidimensional más utilizado de los que ofrece la TRI es el logístico de tres pará - metros (3PL), cuya expresión da la Ecuación 1 (BIRNBAUM, 1968):

Ecuación 1 - Modelo Logístico de 3 Parámetros

Como puede observarse, según este modelo la probabilidad de que un examinado con habilidad acierte un ítem (esto es, P( )) sólo depende de tres características que son propias del ítem (el poder discriminativo a, la dificultad b, y el pseu - doacierto o probabilidad de acierto al azar c) y de un factor de escalado D que, una vez estable - cido, es constante.

El parámetro de dificultad se corresponde con el valor de la habilidad donde la curva P( ) presenta su punto de inflexión. En este punto la proba - bilidad de una respuesta correcta se encuentra a medio camino entre el pseudoazar (adivinan- za) y 1.0. La dificultad se establece utilizando la misma escala que se usa para medir la habilidad de los examinados, por lo general la que está de- finida en el intervalo (-4, 4) del eje horizontal, siendo el 0 su punto medio. Cuanto mayor es el valor del parámetro b, más difícil es el ítem, de modo que los ítems fáciles aparecerán en la par - te izquierda del eje , y los difíciles a la derecha.

Por su parte, el parámetro de poder discrimina- tivo del ítem corresponde a la máxima pendien- te de P( ), la cual se alcanza precisamente en su punto de inflexión. Cuanto mayor es su va - lor, que difícilmente rebasa el intervalo (0.2, 2), más significante es el ítem a la hora de evaluar al examinado.

Finalmente, el pseudoazar se define como la probabilidad de que una persona con poca ha- bilidad (región izquierda del eje horizontal) res- ponda al ítem correctamente.

A continuación en la sección 1.1 se expone el concepto de test adaptativo fundamentado en

8

Revista de la Universidad de Guayaquil Nº 114, Septiembre - Diciembre 2012, ISSN 1019 - 6161

La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.

la TRI; la sección 1.2, que está dedicada al es - tado del arte en el uso de este tipo de pruebas de evaluación, dará pie a la presentación de un Prototipo Generador de TAI, modelo en que se centrará la sección 2; finalmente, la sección 3 cerrará con las conclusiones y posibles líneas de trabajo futuro.

1.1 Test Adaptativos

Informatizados (TAI)

Por estar orientada al ítem, la TRI permite ob- tener estimaciones de la habilidad de los sujetos que son independientes del conjunto específico de ítems que se haya administrado. Además, esta teoría ofrece un marco en el que, incluso aunque dos examinados hayan respondido series distintas de preguntas, sus puntuaciones se pue- den comparar directamente. Esta circunstancia, impensable en el contexto de la TCT, es la que ha impulsado el desarrollo cada vez más acen- tuado de test adaptativos basados en la TRI.

Los Tests Adaptativos Informatizados (TAI) son la implementación de esta idea en un programa informático que automáticamente presenta los ítems, y recoge y evalúa las respuestas (WAINER & DORANS, 2000).


Se habla de adaptación en cuanto a que el test se genera dinámicamente dependiendo de las respuestas previas del examinado. Así, si el sujeto falla una pregunta (esto es, el ítem ha resultado ser difícil) la siguiente cuestión será considerablemente más fácil porque no parece razonable seguir insistiendo con preguntas de di- ficultad alta; y viceversa, como consecuencia de un acierto se administrará un ítem más difícil. La idea subyacente es la de que cuanto más se ajus- ten los ítems seleccionados a la habilidad real del alumno, tanto más útil será la información que aporten sus respuestas.

Los elementos que forman un TAI son un algo - ritmo de selección de ítems, un criterio de fi - nalización del test, un método para estimar la habilidad en base a las respuestas recopiladas hasta el momento, y un banco o base de datos que almacene los ítems calibrados según el mo- delo de la TRI que se vaya a utilizar. El algoritmo que define el funcionamiento de un TAI (MUÑIZ, 1997), es un procedimiento iterativo (Figura 1) que, partiendo de una estimación inicial de la habilidad del examinado, primero evalúa todos

los ítems que no han sido utilizados aún en el test con el fin de seleccionar el mejor con respecto a la estimación de la habilidad actual; después administra el ítem elegido y recoge la respues- ta; acto seguido computa una nueva estimación de habilidad considerando las respuestas a todos los ítems utilizados hasta el momento; y sigue repitiendo los pasos anteriores hasta satisfacer el criterio de parada establecido. En general, un TAI puede finalizar porque se ha alcanzado un nivel concreto de precisión en la estimación de habilidad, porque se ha utilizado un número de ítems determinado, o porque se ha superado el tiempo límite definido.

Figura 1 - Algoritmo de Administración del TAI

La eficiencia de un TAI depende de dos procesos complementarios y estrechamente vinculados: el método estadístico utilizado para estimar la habilidad y el criterio de selección de ítems. Es fundamental que las estimaciones de la habili - dad del examinado que realice el TAI sean preci- sas, pues en ellas se basa el correcto funciona - miento del test. Los métodos más utilizados son los de máxima verosimilitud (LORD, Applications of item response theory to practical testing pro - blems, 1980) y los bayesianos (VAN DER LINDEN & GLAS, 2010). Por su parte, la selección del si- guiente ítem, que se lleva a cabo bajo la supo- sición de que la estimación de la habilidad del evaluando es precisa, es la tarea responsable de que el TAI sea adaptativo.

En este contexto cabe destacar el criterio de máxima información (LORD, 1980), que consiste en seleccionar, de entre los que aún no han sido administrados, el ítem que proporciona más in- formación para el nivel de habilidad estimado en cada momento. La información aportada por un ítem (I( )) sólo depende de las propiedades del modelo,concretamente de la curva característi-

Revista de la Universidad de Guayaquil Nº 114, Septiembre - Diciembre 2012, ISSN 1019 - 6161

9


INVESTIGACIÓN

ca del ítem P( ) y de su primera derivada con res- pecto a , y se define como (BIRNBAUM, 1968):


Ecuación 2 – Función de Información del Item

La idea subyacente al criterio de máxima in- formación es que cuanto más informativo es un ítem para un valor concreto, tanto más preci- sa hace, después de haber sido administrado, la nueva estimación de la habilidad del examinado; o dicho de otro modo, menos error produce en dicha estimación. Con el fin de evitar que los ítems más informativos se apliquen sistemáti - camente en todas las evaluaciones, y en con- secuencia los menos valiosos no se administren nunca, todo método de selección de ítems suele implementar algún procedimiento para contro- lar la sobrexposición de los ítems (OLEA & PON- SODA, 2003).

Cuando finaliza la aplicación del TAI se dispone de una aproximación del nivel de habilidad del examinado. No obstante, para que dicha esti- mación sea precisa y fiable, es necesario que el banco de ítems que se haya utilizado esté ca- librado según alguno de los modelos de la TRI. Esto significa que las características que definen sus ítems (en el caso del modelo 3PL, dificultad, discriminación y pseudoazar) deben ser conoci- das, por ejemplo, por haber sido estimadas me- diante algún proceso estadístico (HAMBLETON & SWAMINATHAN, tem Response Theory: Principles and Aplications, 1985).

1.2 Estado del Arte

La idea original de los TAI fundamentados en la TRI data de comienzos de los años setenta (LORD, 1970), y fue implementada por vez pri - mera durante los ochenta a partir del sistema Computerized Adaptive Screening Test de la ar- mada estadounidense, precursor de lo que a día de hoy se conoce como CAT-ASVAB (SEGALL & MORENO, 1997).

En 1990 sólo se administraron unos pocos cien- tos de TAI, pero esta cifra se incrementó en 1999 hasta superar el millón de aplicaciones,

por lo que el crecimiento en la utilización de tests adaptativos se sigue estimando exponen- cial (WAINER, 2000). De hecho, en la actualidad existen multitud de instituciones y programas estandarizados de evaluación que incluyen TAI basados en TRI, como el National Assessment of Educational Progress o el Educational Testing Service (ETS), en cuyo marco se desarrollan va- rios de los más importantes programas de eva- luación adaptativa (ROJAS TEJADA, 2001), como el Test Of English as Foreign Language (TOEFL), que se administra en casi 90 países.

Semejante aumento en la aplicación de TAI se debe principalmente a las ventajas que ofrecen sobre los test tradicionales de lápiz y papel ba- sados en la TCT: entre otras, requieren menos tiempo de administración, realizan estimaciones de habilidad más precisas, y dotan al test de ma- yor seguridad (OLEA & PONSODA, 2003). No es de extrañar, por tanto, que el catálogo de ámbitos en los que a día de hoy se utilizan los TAI sea tan extenso, y que abarque campos como la medi- ción de aptitudes intelectuales, la selección de personal y las pruebas de admisión, certificación o evaluación educativa.

Prácticamente todas las implementaciones de TAI que se han desarrollado se utilizan a gran escala, y, en la mayor parte de los casos, con fines comerciales. De hecho, apenas se conocen aplicaciones gratuitas para realizar tests adap- tativos experimentales o a pequeña escala, en- tre las que cabe mencionar DEMOTAC (RENOM, 1993) y ADTEST (PONSODA, OLEA, & REVUELTA, 1994) como ejemplos representativos.

Muchas veces son los propios psicómetras quie- nes elaboran herramientas generadoras de TAI para uso propio, para que su alumnado pueda crear pequeños test durante las prácticas en cla- se, o con algún otro fin experimental. En estos casos, pese a ser muy eficientes en los cálculos y estimaciones de habilidad, los productos finales suelen ofrecer interfaces de usuario muy pobres. Por lo general se trata de software desarrollado en lenguajes de programación imperativa tradi- cionales (como C, Fortran o Pascal) que limitan la configurabilidad del programa, los formatos de entrada y la interfaz de comunicación. En concreto, no siempre se ofrece la posibilidad de utilizar el ratón como dispositivo de entrada, las pantallas se suelen basar íntegramente en inter- faces de matriz de texto al estilo de MS-DOS, y el usuario se ve por lo general obligado a utilizar ficheros de texto ASCII con un formato concre -

10

Revista de la Universidad de Guayaquil Nº 114, Septiembre - Diciembre 2012, ISSN 1019 - 6161

La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.

to (establecido de antemano y que no siempre resulta intuitivo) para almacenar su banco de ítems calibrado.

Este documento presenta un “Prototipo Gene- rador de TAI”, un modelo de fácil manejo que aportará fundamentalmente mejoras en la inter - faz de usuario, utilidades de ayuda y el incre - mento de posibilidades de configuración, no sólo a nivel de aplicación informática sino también como generador de Test. Se trata de un prototi- po muy orientado al usuario, escalable, portable y de fácil manejo que generará TAI a partir de un banco de ítems calibrado según el modelo de tres parámetros. Un sencillo patrón de interfaz gráfica e interactiva dirige las principales opera - ciones, lo que, junto con una alta configurabili - dad en las opciones y preferencias del usuario, facilita su utilización.

2. Metodología.- Caso Práctico de Usabilidad en un Prototipo Generador de TAI

Este prototipo basado en las Reglas de Oro de la Usabilidad (NIELSEN, 1993), deberá desarrollarse en un lenguaje de programación orientado a ob- jetos que facilite la construcción de aplicaciones que interactuarán con cualquier tipo de base de datos, simplificando la creación de interfaces de usuario basadas en ventanas, y permitiendo el uso del ratón sobre elementos gráficos dotados de fun - cionalidad (como botones, listas desplegables o menús). Además, esta herramienta será portable, lo que significa que podrá ejecutarse en cualquier plataforma, con independencia de cuál sea el sis - tema operativo usado (LOPEZ CUADRADO, 2008).

Se trata de un prototipo muy sencillo de utilizar, pues lo único que se necesitará es que el evalua- dor especifique la ubicación de la tabla con los ítems calibrados según el modelo 3PL, para que el sistema genere de modo sencillo e intuitivo test adaptativos. Dicha tabla puede estar alma- cenada en cualquier gestor de bases de datos.


Desde el punto de vista de programación, la he- rramienta es fácilmente escalable, pues se su diseño contará con estructuras abiertas y poco solapadas, de manera que la inclusión en el fu - turo de nuevas funcionalidades y opciones de configuración resulte sencilla.

Esta herramienta prototipo, incorporará un no- vedoso sistema de simulación que automática-

mente calibrará su funcionamiento y ofrecerá resultados para un posterior análisis. Asimismo, permitirá la generación de archivos de texto con históricos de sesión y la presentación de resul- tados en diversos formatos que pueden comple - mentarse.

El sistema generador de TAI proporcionará sie- te módulos o pantallas de presentación. El paso de una sección a otra podrá darse mediante los botones establecidos en cada pantalla para ello, aunque también podrá efectuarse a través de la barra de menú. Esta barra, común para toda la aplicación, facilitará la navegación por las dis - tintas opciones y brindará acceso a las funciona - lidades más importantes.

A continuación se presentarán en detalle las características y funcionalidades principales de cada uno de los siete módulos que compondrán el sistema Generador de TAI (Figura 2), y que serán: pantalla de presentación, preferencias, simulación, configuración del TAI, aplicación o administración del test, presentación de resul- tados y ayuda.

Figura 2 – Pantallas del Prototipo GENERADOR DE TAI

2.1. La Pantalla de Presentación

La pantalla de presentación (figura 3) es la vía de entrada a la aplicación, y permite acceder al resto de elementos y funcionalidades que ofrece el Prototipo.

Opcionalmente puede especificarse en ella un nombre de usuario con el que posteriormente se personalicen los informes y resultados de los test.

Revista de la Universidad de Guayaquil Nº 114, Septiembre - Diciembre 2012, ISSN 1019 - 6161

11


INVESTIGACIÓN


Figura 3 – Pantalla de Presentación del Prototipo

2.2. Configuración de

Preferencias

En esta sección (Figura 4) el usuario podrá con- figurar las distintas opciones que ofrece la he - rramienta. Con el fin de evitar problemas en el funcionamiento del Generador, la pantalla de preferencias establecerá un estricto control so - bre los datos que proporcionará el usuario, en particular, como se verá enseguida, sobre la ubi- cación del banco de ítems. Todas las posibilida- des que podrán establecerse en este punto del programa son:

• El tipo de ítems a utilizar: de momento sólo se incluye la posibilidad de utilizar pregun- tas de elección múltiple con tres o cuatro posibilidades de respuesta, que por otra par- te son los más utilizados en las pruebas de evaluación mediante test.

• La ubicación de los datos: especificación de la base de datos en la que se encuentran los ítems del banco y sus parámetros a, b y c., Esta herramienta incorporará un sistema de comprobación del formato de las tablas, que

12 RevistaSeptiembrede la- UniversidadDiciembre 2012,de GuayaquilISSN 1019Nº- 6161 114,

mostrará un aviso ante cualquier anomalía, lo que facilitará la gestión y mantenimiento de las mismas.

• Restricciones de accesibilidad: El Prototi - po Generador permitirá restringir el acce- so a las opciones de configuración de los test, así como al menú de preferencias, por ejemplo para poder realizar numero- sas pruebas con un mismo patrón de con- figuración y evitará que los examinados modifiquen los valores establecidos para la aplicación de los TAI. Para ello, se estable- cerá una contraseña que se guardará en un formato cifrado con el fin de impedir su decodificación a partir del fichero que la almacenará.

• Establecimiento de los valores por defecto: se facilitará la configuración de los TAI que se vayan a realizar directamente desde la pantalla de presentación. También se permi- tirá especificar el nombre que el generador dará a los archivos históricos de resultados. • Opciones de simulación: proporcionará el acceso al módulo de simulación y a sus op- ciones de configuración, elementos de los que se hablará a continuación.

La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.


Figura 4 – Ventana de preferencias del Prototipo

2.3. Módulo de Simulación

Esta pantalla será accesible desde la ventana de preferencias, servirá para testear el funciona - miento de la herramienta en términos de preci- sión o error en las estimaciones. Este subproceso será el encargado tanto de recoger las opciones de la propia simulación como de la ejecución de la misma.

El funcionamiento de las simulaciones es muy sencillo: el sistema generará automáticamente una muestra de sujetos cuyas habilidades esta- blece a priori; después simulará la administra - ción de un TAI a cada uno de estos sujetos vir- tuales, por lo que como resultado obtendrá una estimación para cada una de las habilidades que ha determinado previamente; por último, una comparación entre las habilidades establecidas en el inicio y las estimaciones recién obtenidas dará al usuario una idea de lo preciso que es el TAI que se ha aplicado a los sujetos simulados.

Los aspectos que pueden configurarse en lo concerniente a la simulación serán el tipo de test a administrar, el método de selección

del primer ítem, el método de selección de los ítems sucesivos, y el criterio de parada. Estos parámetros de configuración se descri - birán con detalle en el siguiente epígrafe, pues son exactamente los mismos que se han definido para la administración de los TAI. Es en lo relativo al formato de los resulta - dos donde surgen las diferencias, dado que el módulo de simulación elabora automática- mente un tipo de informe de salida más es - pecífico que los que se pueden obtener tras la aplicación de un TAI. En efecto, una vez fi - nalizada una sesión de simulación, los resul- tados de las administraciones efectuadas se almacenarán, de modo transparente al usua- rio, en un archivo tabulado de texto plano que facilitará su futura importación por par - te de programas de cálculo numérico o aná- lisis estadístico como el paquete SPSS. Entre los resultados computados se encuentran la raíz del error cuadrático medio (RSME), el sesgo (BIAS) y el error estándar (SE) de las estimaciones de habilidad obtenidas durante el proceso de simulación, no sólo para todo el intervalo de habilidades considerado ([- 4, 4]), sino también para diferentes subin -

Revista de la Universidad de Guayaquil Nº 114, Septiembre - Diciembre 2012, ISSN 1019 - 6161

13


INVESTIGACIÓN

tervalos de tamaño 0.2 (concretamente, [-4, -3.8), [-3.8, -3.6), etcétera). La Ecuación 3 muestra las fórmulas utilizadas para calcular los índices de precisión del algoritmo TAI uti- lizado durante la simulación.




Ecuación 3 – Métricas de Precisión de la Simulación

En todas estas fórmulas, N es el número de sujetos simulados del intervalo o subintervalo considerado a los que se les ha aplicado un TAI, la habilidad (establecida de antemano por el propio módulo de simulación) del sujeto k-ésimo, y * la estimación que el TAI ha com - putado para la habilidad del sujeto k-ésimo. En el caso ideal en el que el algoritmo de apli- cación de la prueba resultase absolutamente preciso, estos dos últimos valores serían idén- ticos.

La administración simulada de TAI se efec - tuará utilizando varios cientos de sujetos con niveles de habilidad distribuidos unifor - memente a lo largo del intervalo [-4, 4], a quienes se les aplicarán los test siguiendo la configuración especificada, y tomando ítems de un banco que puede ser generado íntegra- mente por Generador o extraído de una base de datos externa. Para el primer caso, la pro- pia herramienta crea un banco de 3000 ítems cuyos parámetros siguen una distribución uni- forme (por defecto, U(0.4, 1.4) el de discri - minación, U(-4, 4) el de dificultad y U(0, 0.2) el de pseudoazar).

2.4. Configuración del TAI

Si bien es posible comenzar la administración de un TAI directamente desde la pantalla de pre- sentación (en cuyo caso se utilizarán los valo- res que estén establecidos por defecto), lo más habitual será hacerlo después de haber visitado la pantalla de configuración del TAI (Figura 5). Este módulo, en el que se han invertido gran- des esfuerzos para favorecer la escalabilidad de la aplicación (esto es, la inclusión futura de nuevas funcionalidades), permite establecer los métodos y criterios a seguir durante la posterior administración de los TAI. Al igual que ocurre en el módulo de preferencias (y en general, en cualquier pantalla en la que el usuario ha de in- troducir algún dato), a la hora de capturar esta información el prototipo realizará un control ex - haustivo de los datos de entrada.

El objetivo será evitar la inserción de valores no deseados o inválidos, por lo que, en el supuesto en que se diere uno de estos casos, el sistema mostrará por pantalla un aviso individualizado y automáticamente restaurará el valor erróneo a uno aceptable (por ejemplo, al asignado por defecto).

En el módulo de configuración del TAI podrá especificarse:

• El tipo de prueba a desarrollar: en este momento se ofrecerán tres tipos de test, a saber, TAI fácil (en el que los ítems que se presentan tienen menor dificultad que la óptima con el fin de reducir la ansiedad del examinado), TAI clásico (en el que se sigue estrictamente el método de máxima información) y TAI difícil (en el que los ítems son ligeramente más difíciles de lo esperable).

• El método de selección del primer ítem: con el propósito de que el algoritmo de apli- cación del TAI disponga de una estimación inicial de la habilidad del examinado, el usuario deberá establecer un valor numérico exacto, o en su defecto especificar un ran - go de valores para que sea el sistema quien elija aleatoriamente la habilidad de partida dentro de dicho intervalo.

• El método de selección de los siguientes ítems: se trata del criterio de máxima infor - mación, que puede combinarse con uno de los métodos de control de sobrexposición de los ítems que se han implementado, y que son el 5-4-3-2-1, el randomesque y el pro- gresivo (OLEA & PONSODA, 2003).

14

Revista de la Universidad de Guayaquil Nº 114, Septiembre - Diciembre 2012, ISSN 1019 - 6161

La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.


• El criterio de parada: puede especificarse si el algoritmo de aplicación del TAI debe finalizar tras la administración de un número específico de ítems (criterio de longitud fija), cuando se ha alcanzado una precisión determinada (criterio de longitud variable), o como resultado de una combinación de ambos (criterio mixto). De modo complementario, es posible definir un tiempo máximo para la conclusión de la prueba.

• Existirán cinco formas distintas de mostrar los resultados, ninguna de ellas excluyen- te del resto. Se trata de la habilidad pura ( estimada), una transformación a la escala [0,10], un gráfico de evolución, un histórico y el porcentaje de aciertos. Aunque es en la pantalla de configuración donde se especifi - ca cuál o cuáles de los diferentes formatos se desea para visualizar los resultados, tras la finalización de cada prueba se le da al usuario nuevamente la posibilidad de elegir entre los cinco modos de presentación.

2.5. Administración del TAI

Tanto si se ha establecido una configuración específica como si se van a utilizar los valores por defecto, la aplicación del TAI tiene lugar en una serie de pantallas en las que, a partir de la configuración determinada para el test actual, se mostrarán los ítems apropiados para la eva- luación y se recogerán las respuestas del exami- nado LOPEZ CUADRADO, J., & ARMENDARIZ, A. J. (2006).

Mientras que el usuario se limitará a selec- cionar la respuesta que considera correcta para cada uno de los ítems que el Prototipo Generador le presentará, el sistema proce- sará las operaciones necesarias para la eje- cución del algoritmo de administración del TAI. Las tareas concretas que realizará este módulo son las que se enumeran a continua- ción:


Figura 5 - Pantalla de Configuración del TAI

Revista de la Universidad de Guayaquil Nº 114, Septiembre - Diciembre 2012, ISSN 1019 - 6161

15


INVESTIGACIÓN

• Seleccionar el ítem más adecuado: aten - diendo a los criterios de selección de ítems establecidos en la configuración del test, se seleccionará del banco de ítems el siguiente que se va a mostrar. Esta tarea, que depen- derá de la estimación actual de la habilidad del examinado, de los ítems que ya han sido administrados y de si se requiere o no la utili- zación de métodos de control de sobrexposi- ción, se anticipará a la respuesta del usuario, ya que efectuará los cálculos durante los se - gundos que tardará el examinado en respon- der a cada ítem. De esta manera se consegui- rá que el proceso no afecte a la interacción con el sistema (en concreto, ralentizando la presentación de los ítems), y mucho antes de que el evaluando responda un ítem el Proto- tipo Generador ya tendrá decidido cuál va a ser el siguiente que le presentará si acierta, y cuál si elige una respuesta incorrecta.

• Recalcular la habilidad estimada del sujeto: dado que la selección del siguiente ítem a administrar requiere conocer de antemano la estimación de habilidad actual del sujeto, esta tarea, que sólo depende de las características de los ítems administrados hasta el momento y de sus respuestas, se incluye en la anterior. Por lo tanto, el sistema podrá conocer con an- telación no sólo qué ítem deberá administrar a continuación tanto si el sujeto acierta el ac- tual como si no, sino que además puede dis- poner del nuevo valor de habilidad estimado para cada caso. Para obtenerlo este Sistema Generador utilizará el método de máxima ve- rosimilitud con la optimización propuesta por (HERRANDO, 1989), evitando así divergencias en el proceso de cálculo al suponer de ante- mano que el sujeto ha respondido correcta- mente un ítem considerablemente fácil y ha fallado uno de dificultad extrema.

• Comprobar los criterios de parada: antes de realizar los cálculos precisos para la selección de ítems y actualización de la habilidad esti- mada para el examinado, el sistema deberá comprobar si es necesario o no administrar un nuevo ítem, o lo que es lo mismo, detectar si hay que dar por concluido el TAI. Esta tarea se intercalará en el proceso de selección de ítems, mediante la inclusión de rutinas que permiten controlar si se cumple alguno de los criterios de finalización establecidos en la fase de configuración. Si se identifica el final del TAI, se invocará al módulo de presenta- ción de resultados (del que se hablará en el siguiente epígrafe) para que muestre al usua - rio su evolución y/ o puntuación.

• Informar al usuario: además del enuncia - do y las posibles respuestas de los ítems, y dependiendo de qué criterios de parada se hayan habilitado en la configuración de la prueba, el módulo de aplicación del TAI tam- bién deberá presentar al examinado infor - mación relativa al estado de cumplimiento de los criterios de finalización.

Concretamente, el Prototipo Generador mostra- rá, en la parte superior derecha de la pantalla, el número de ítems respondidos sobre el total (si el TAI es de longitud fija), un mensaje avisando de que el test está a punto de finalizar (cuando el error de la estimación actual de habilidad está próximo al máximo permitido en los TAI de lon- gitud variable) y, en la esquina inferior derecha, los minutos restantes para la finalización del test (en el caso de que se haya establecido un tiempo límite). Estos mensajes pueden ir acompañados de un color: verde si aún quedan bastantes ítems por administrar; amarillo si presumiblemente faltan unos pocos; y rojo si el final de la prueba es inminente.

3. Presentación de Resultados

Una vez finalizada la administración del TAI por el cumplimiento de alguna de las condiciones de parada, se da paso a la interfaz de presentación de resultados de la prueba. Antes de proceder a la visualización de los mismos se da la oportuni- dad al examinado de modificar los formatos de presentación de resultados que haya selecciona- dos en la configuración por defecto de los test, y que son:

• Habilidad pura: se trata de la estimación fi - nal obtenida por el sistema, y que vendrá representada como un número real dentro de la escala [-4, 4].

• Transformación al intervalo [0,10]: consiste en obtener un escalado de la habilidad pura con el fin de ofrecer una visión más familiar del resultado del TAI.

• Gráfico de evolución: este formato de pre - sentación utilizará un modelo matemático a partir del que se obtiene un diagrama (Figu- ra 6) en el que se mostrará la evolución del valor estimado de la habilidad del examina- do a lo largo de la administración del test. • Porcentaje de aciertos: también se ofrece la posibilidad de visualizar este índice, pese a no ser el más apropiado para evaluar la habilidad en los TAI, ya que, independien- temente de la destreza de los examinados, siempre rondará el 50-60%.

16

Revista de la Universidad de Guayaquil Nº 114, Septiembre - Diciembre 2012, ISSN 1019 - 6161

La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.


Figura 6 – Gráfico de Evolución de la Habilidad

• Históricos de evolución: Esta herramienta permitirá elaborar dos formatos de docu - mento (tabulado y comentado) para recoger los ítems administrados durante la aplica- ción del TAI, así como las sucesivas (re)esti- maciones de habilidad y los errores de me- dida asociados. El histórico tabulado (Figura 7) utiliza un algoritmo que encasilla toda la información ajustando la longitud del texto a los diferentes anchos de columna, mien -

tras que el histórico comentado (Figura 8) reproduce la administración del TAI en una secuencia de acciones.

Ambos tipos de histórico de aplicación del test pueden, además de visualizarse por pantalla, ser almacenados en disco en un archivo con formato de texto plano, cuyo nombre (*.txt) será depen - diente de lo que se haya especificado en las pre - ferencias del Prototipo Generador.


Figura 7 – Histórico Tabulado

Revista de la Universidad de Guayaquil Nº 114, Septiembre - Diciembre 2012, ISSN 1019 - 6161

17


INVESTIGACIÓN


Figura 8 – Histórico Comentado

3.1 Sistema de Ayuda

La aplicación estará dotada de un sistema de ayuda que tiene como finalidad solventar las du - das que el usuario pueda tener en algún punto de la interacción con el sistema.

Por una parte, la ayuda podrá mostrarse de modo contextual a través de una serie de boto- nes que hay habilitados en determinados puntos


Figura 9 – Ayuda Contextual del TAI

18 RevistaSeptiembrede la- UniversidadDiciembre 2012,de GuayaquilISSN 1019Nº- 6161 114,

de la pantalla para tal efecto. Cuando el usuario pulsa uno de ellos, una ventana le mostrará la información concreta acerca del tema relacio - nado con el elemento junto al que se encuentra dicho botón (Figura 9). La ayuda contextual se habrá definido básicamente para cada una de las opciones de configuración, para los aspectos técnicos relacionados con la naturaleza del TAI, y para los formatos de presentación de resulta - dos que ofrece el sistema.

La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.

Asimismo, también se incluirá un módulo de ayuda temática (Figura 10), habilitada en todo momento durante la interacción con el sistema, que se encontrará accesible en la barra de menú de la aplicación.

Este componente ofrecerá al usuario la po - sibilidad de navegar por los contenidos de

ayuda, que se encontrarán organizados por temas según las diferentes funcionalidades del Generador (preferencias, configuración, simulación, test y resultados). Este tipo de ayuda estará dirigida al usuario inexperto, con lo que se espera posibilitar el uso de esta herramienta por un amplio colectivo de usuarios.


Figura 10 – Sistema de Ayuda Temática

Conclusiones

Este artículo ha presentado un Prototipo, un ge- nerador de test adaptativos informatizados para utilizarlos a pequeña escala o en entornos expe- rimentales por un usuario, si bien pueden existir varias instancias del programa, cada una de ellas operada por una persona.

Este prototipo generador de Test, será una herra- mienta muy amigable, gráfica, de fácil e intuitivo manejo, portable a cualquier plataforma y alta - mente configurable, y que como novedad incluye un módulo de simulación que permite al usuario eva- luar los errores de medida producidos tras la apli- cación con diferentes configuraciones de los test.

Siendo una herramienta cuyo diseño se centrará en el usuario, se tributará a la reducción de de- sarrollos innecesarios (por la detección de erro- res en forma temprana), a la mayor calidad del producto entregado siendo más eficiente.

Es un sistema que será especialmente diseñado para facilitar la inclusión de nuevas funcionali - dades y opciones en el futuro.

• En primer lugar, se prevé ampliar el catálogo de formatos de ítems, para que los test no se limiten a utilizar preguntas de elección múltiple de tres o cuatro posibilidades de respuesta.

• Por otra parte, se considera la posibilidad de guardar automáticamente información del usuario entre sesiones.

• Al mismo tiempo, está prevista la inclu- sión de otros tipos de tests adaptativos, como los Test Autoadaptados Informati - zados (ROCKLIN, O’DONNELL, & HOLST, 1995), en los que se le ofrece al exami - nado la oportunidad de decidir si el si- guiente ítem a administrar será más fácil o más difícil.

• Otra de las líneas de desarrollo futuras es la de añadir más métodos de control de la sobrexposición de los ítems, en particular el método progresivo genera- lizado (EGGEN, 2001), y alguna de sus variantes.

• Por último, también se ha contempla la po- sibilidad de orientar la herramienta hacia un uso basado en web.

Revista de la Universidad de Guayaquil Nº 114, Septiembre - Diciembre 2012, ISSN 1019 - 6161

19


INVESTIGACIÓN

Bibliografía

1. BIRNBAUM, A. (1968). Some latent trait models and their use in inferring an examinees ability. Addison-Wesley.

2. EGGEN, T. H. (2001). Overexposure and underexposure of items in computerized testing. Measu - rement and Research Reports, 1.

3. HAMBLETON, R. K., & SWAMINATHAN, H. (1985). tem Response Theory: Principles and Aplications. Boston: Kluwer.

4. HAMBLETON, R. K., SWAMINATHAN, H., & ROGERS, H. J. (1991). Fundamentals of Item Response Theory. California, USA.: Sage Publications Inc.

5. HERRANDO, S. (1989). Tests adaptativos computerizados: una sencilla solución al problema de la estimación con puntuaciones perfectas y cero. II Conferencia Española de Biometría. Biometric Society, Segovia. Segovia.

6. LOPEZ CUADRADO, J. (2008). Evaluación mediante test adaptativos informatizados en el contexto de un sistema adaptativo para el aprendizaje de la lengua. Lenguajes y Sistemas Informáticos (pág. 401). San Sebastián: Univ. País Vasco.

7. LOPEZ CUADRADO, J., & ARMENDARIZ, A. J. (2006). Obtención de estimaciones de los parámetros durante la calibración de un banco de ítems. University of the Basque Country (UPV/EHU/LSI/TR 13-2006), 271.

8. LORD, F. (1952). A Theory of Test Scores. (Psychometric Monograph No. 7). Richmond, VA:.

9. LORD, F. (1980). Applications of item response theory to practical testing problems. Erlbaum As - sociates.

10. LORD, F., & NOVICK, M. (1968). Statistical theories of mental test scores. Addison-Wesley Pub. Co. 11. MUÑIZ, J. (1997). Introducción a la Teoría de Respuesta a Los ítems.

12. NIELSEN, J. (1993). Usability Engineering. AP Professional.

13. NOVICK, M. R. (1966). The axioms and principal results of classical test theory. Journal of Mathe - matical Psychology Volume 3, Issue 1, February 1966, Pages 1-18.

14. OLEA, J., & PONSODA, V. (2003). Tests adaptativos informatizados. Madrid: UNED Ediciones.

15. PONSODA, V., OLEA, J., & REVUELTA, J. (1994). ADTEST: A COMPUTER-ADAPTIVE TEST BASED ON THE MAXIMUM INFORMATION PRINCIPLE. Educational and Psychological Measurement, 680-686. 16. RASCH, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen, Danish Institute for Educational Research: The University of Chicago Press.

17. RENOM, J. (1993). Tests Adaptativos Computarizados: Fundamentos y Aplicaciones . Barcelona: PPU.

18. ROCKLIN, T. R., O’DONNELL, & HOLST, P. M. (1995). Effects and underlying mechanisms of self- adapted testing. Journal of Educational Psychology, 103-116.

19. ROJAS TEJADA, A. (2001). Pasado, presente y futuro de los Tests Adaptativos Informatizados. Psi - cothema, 685-690.

20. SEGALL, D. O., & MORENO, K. E. (1997). Computerized Adaptive Testing: From inquiry to opera - tion. Washington D.C.: American Psychological Association.

21. SPEARMAN, C. (1904). “GENERAL INTELLIGENCE,” OBJECTIVELY DETERMINED AND MEASURED. American Journal of Psychology 15, 201-293.

22. VAN DER LINDEN, W. J., & GLAS, C. W. (2010). ELEMENTS OF ADAPTATIVE TESTING. Londres: Sprin - ger New York Dordrecht Heiderberg London.

23. WAINER, H., & DORANS, N. (2000). Computerized Adaptive Testing: A Primer. Taylor & Francis Group.

Artículo recibido: 02/10/2012

Fecha aprobado: 19/11/2012


Ing. Milton Rafael Maridueña Arroyave.

Doctorante de la Universidad Cienfuegos, Doctorante Universidad de Ciencias Informáticas, Cuba. Máster en Docencia Universitaria e Investigación Educativa por la Universidad de Guayaquil. Investigador y consultor informático por la Universidad de Guayaquil en el proyecto de “Autoeva - luación y Acreditación de las instituciones de Educación Superior.

Email: milton.mariduenaa@fcmf.ug.edu.ec

20

Revista de la Universidad de Guayaquil Nº 114, Septiembre - Diciembre 2012, ISSN 1019 - 6161