Revista de la Universidad de Guayaquil Nº 114,

Septiembre - Diciembre 2012, ISSN 1019 - 6161

La aplicación de factores de usabilidad en el

diseño de tests adaptativos informatizados

(tai): un caso práctico.

Resumen

El diseño de sistemas informáticos debe ser guiado por un conjunto de conceptos, principios y técni-

cas, cuyo objetivo principal es el de minimizar ó reducir las cargas cognitiva y de percepción por parte

del usuario, es decir, que el resultado del proceso de diseño de lugar a un sistema (o herramienta) que

demuestre un manejo fácil e intuitivo: en efecto, aseverar la “usabilidad” del sistema. Este objetivo,

conseguido a través de un proceso reconocido como “centrado en el usuario”, es necesario no sólo

para conseguir mejoras en la productividad del usuario y facilitar la utilización de los sistemas propia-

mente desarrollados, sino que es un aspecto vital y prácticamente obligatorio para el diseño de test

adaptativos informatizados que incluyen personas con dependencia funcional. Un generador de TAI

debe ser un software amigable, de fácil uso, intuitivo, portable, escalable, altamente congurable

y fuertemente documentado, que al mismo tiempo dé respuesta a los objetivos propios de un test

adaptativo basado en Teoría de Respuesta al Item (TRI); sistemas similares pecan en la calidad de sus

interfaces y en la forma de interactuar con el usuario.

Palabras Claves: Usabilidad, Test Adaptativos Informatizados centrado en el Usuario

Summary

The computer systems design should be guided by a set of concepts, principles and techniques, whose

main objective is to minimize or reduce cognitive load and user perception, ie the result of the design

process rise to a system (or tool) that demonstrates an easy and intuitive: indeed, assert the “usabi-

lity” of the system. This goal, achieved through a process known as “user-centered”, it is necessary

not only for improvements in user productivity and facilitate proper use of the systems developed, but

it is a vital and practically mandatory for design of computerized adaptive tests that include people

with functional dependence. A TAI generator software should be a friendly, easy to use, intuitive,

portable, scalable, highly congurable and heavily documented, at the same time to respond to the

specic objectives of an adaptive test based on Item Response Theory (IRT), similar systems fail the

quality of its interfaces and how to interact with the user.

Keywords: Usability, Computerized Adaptive Test User Centered

Ing. Milton Maridueña Arroyave.

Revista de la Universidad de Guayaquil

Nº 114, Septiembre - Diciembre 2012, pp. 5 - 18

ISSN 1019 - 6161

Application of factors in designing usability computerized

adaptive testing (tai): a case study.

INVESTIGACIÓN

Revista de la Universidad de Guayaquil Nº 114,

Septiembre - Diciembre 2012, ISSN 1019 - 6161

Introducción

El test es sin duda el principal método utilizado

en psicometría para medir las facultades inte-

lectuales, tanto educativas como psicológicas.

La aplicación de un test consiste en administrar

una serie de preguntas o actividades denomina-

das ítems, que habitualmente tienen un formato

de elección múltiple, con el n de cuanticar

para cada sujeto una variable de rasgo o habili-

dad, como la memoria, la capacidad de aplicar

el conocimiento adquirido o la comprensión de

textos.

Las teorías de test proporcionan métodos para

la construcción de tests y proveen de modelos

matemáticos que facilitan la interpretación y

validación de los resultados obtenidos.

Tradicionalmente, el ámbito profesional de la

medición psicológica y educativa ha estado do-

minado por la Teoría Clásica de los Test (TCT).

Esta teoría surgió a partir de los trabajos de

(SPEARMAN, 1904), si bien no fue hasta media-

dos de los años sesenta cuando recibió su forma

axiomática (NOVICK, 1966). La TCT se funda-

menta en un modelo que establece una relación

lineal entre la habilidad del examinado y la pun-

tuación del test.

Concretamente, se considera que la puntua-

ción empírica obtenida en la prueba (X) es

igual a la suma de dos componentes hipoté-

ticos y desconocidos a priori: la puntuación

verdadera o habilidad del evaluando (V) y un

cierto error de medida (e). Los inconvenien-

tes más destacables de la TCT son, por una

parte, que los supuestos que plantea no se

pueden contrastar empíricamente, por otra,

que las mediciones de habilidad obtenidas

dependen de la naturaleza del test utilizado,

y que, a la inversa, propiedades como la difi-

cultad de una prueba están supeditadas a las

características de los sujetos a quienes se les

aplique.

La Teoría de Respuesta al Ítem (TRI) dará solu-

ción a estos (y otros) problemas de la TCT. Se

trata de una teoría relativamente joven y en

continua evolución (LORD, 1952); (RASCH, 1960);

(LORD & NOVICK, Statistical theories of mental

test scores, 1968); (HAMBLETON, SWAMINATHAN,

& ROGERS, 1991) cuyos modelos establecen una

relación no lineal entre la habilidad del exami-

nado y una serie de propiedades o parámetros de

los ítems que componen el test.

Concretamente, estos modelos reejan la pro-

babilidad de que los sujetos acierten los ítems

que se les administran durante la aplicación de

una prueba de evaluación.

El modelo unidimensional más utilizado de los

que ofrece la TRI es el logístico de tres pará-

metros (3PL), cuya expresión da la Ecuación 1

(BIRNBAUM, 1968):

Ecuación 1 - Modelo Logístico de 3 Parámetros

Como puede observarse, según este modelo la

probabilidad de que un examinado con habilidad

acierte un ítem (esto es, P( )) sólo depende de

tres características que son propias del ítem (el

poder discriminativo a, la dicultad b, y el pseu-

doacierto o probabilidad de acierto al azar c) y

de un factor de escalado D que, una vez estable-

cido, es constante.

El parámetro de dicultad se corresponde con el

valor de la habilidad donde la curva P( ) presenta

su punto de inexión. En este punto la proba-

bilidad de una respuesta correcta se encuentra

a medio camino entre el pseudoazar (adivinan-

za) y 1.0. La dicultad se establece utilizando la

misma escala que se usa para medir la habilidad

de los examinados, por lo general la que está de-

nida en el intervalo (-4, 4) del eje horizontal,

siendo el 0 su punto medio. Cuanto mayor es el

valor del parámetro b, más difícil es el ítem, de

modo que los ítems fáciles aparecerán en la par-

te izquierda del eje , y los difíciles a la derecha.

Por su parte, el parámetro de poder discrimina-

tivo del ítem corresponde a la máxima pendien-

te de P( ), la cual se alcanza precisamente en

su punto de inexión. Cuanto mayor es su va-

lor, que difícilmente rebasa el intervalo (0.2, 2),

más signicante es el ítem a la hora de evaluar

al examinado.

Finalmente, el pseudoazar se dene como la

probabilidad de que una persona con poca ha-

bilidad (región izquierda del eje horizontal) res-

ponda al ítem correctamente.

A continuación en la sección 1.1 se expone el

concepto de test adaptativo fundamentado en

Revista de la Universidad de Guayaquil Nº 114,

Septiembre - Diciembre 2012, ISSN 1019 - 6161

La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.

la TRI; la sección 1.2, que está dedicada al es-

tado del arte en el uso de este tipo de pruebas

de evaluación, dará pie a la presentación de un

Prototipo Generador de TAI, modelo en que se

centrará la sección 2; nalmente, la sección 3

cerrará con las conclusiones y posibles líneas de

trabajo futuro.

1.1 Test Adaptativos

Informatizados (TAI)

Por estar orientada al ítem, la TRI permite ob-

tener estimaciones de la habilidad de los sujetos

que son independientes del conjunto especíco

de ítems que se haya administrado. Además,

esta teoría ofrece un marco en el que, incluso

aunque dos examinados hayan respondido series

distintas de preguntas, sus puntuaciones se pue-

den comparar directamente. Esta circunstancia,

impensable en el contexto de la TCT, es la que

ha impulsado el desarrollo cada vez más acen-

tuado de test adaptativos basados en la TRI.

Los Tests Adaptativos Informatizados (TAI) son

la implementación de esta idea en un programa

informático que automáticamente presenta los

ítems, y recoge y evalúa las respuestas (WAINER

& DORANS, 2000).

Se habla de adaptación en cuanto a que el test

se genera dinámicamente dependiendo de las

respuestas previas del examinado. Así, si el

sujeto falla una pregunta (esto es, el ítem ha

resultado ser difícil) la siguiente cuestión será

considerablemente más fácil porque no parece

razonable seguir insistiendo con preguntas de di-

cultad alta; y viceversa, como consecuencia de

un acierto se administrará un ítem más difícil. La

idea subyacente es la de que cuanto más se ajus-

ten los ítems seleccionados a la habilidad real

del alumno, tanto más útil será la información

que aporten sus respuestas.

Los elementos que forman un TAI son un algo-

ritmo de selección de ítems, un criterio de -

nalización del test, un método para estimar la

habilidad en base a las respuestas recopiladas

hasta el momento, y un banco o base de datos

que almacene los ítems calibrados según el mo-

delo de la TRI que se vaya a utilizar. El algoritmo

que dene el funcionamiento de un TAI (MUÑIZ,

1997), es un procedimiento iterativo (Figura 1)

que, partiendo de una estimación inicial de la

habilidad del examinado, primero evalúa todos

los ítems que no han sido utilizados aún en el test

con el n de seleccionar el mejor con respecto

a la estimación de la habilidad actual; después

administra el ítem elegido y recoge la respues-

ta; acto seguido computa una nueva estimación

de habilidad considerando las respuestas a todos

los ítems utilizados hasta el momento; y sigue

repitiendo los pasos anteriores hasta satisfacer

el criterio de parada establecido. En general, un

TAI puede nalizar porque se ha alcanzado un

nivel concreto de precisión en la estimación de

habilidad, porque se ha utilizado un número de

ítems determinado, o porque se ha superado el

tiempo límite denido.

Figura 1 - Algoritmo de Administración del TAI

La eciencia de un TAI depende de dos procesos

complementarios y estrechamente vinculados:

el método estadístico utilizado para estimar la

habilidad y el criterio de selección de ítems. Es

fundamental que las estimaciones de la habili-

dad del examinado que realice el TAI sean preci-

sas, pues en ellas se basa el correcto funciona-

miento del test. Los métodos más utilizados son

los de máxima verosimilitud (LORD, Applications

of item response theory to practical testing pro-

blems, 1980) y los bayesianos (VAN DER LINDEN

& GLAS, 2010). Por su parte, la selección del si-

guiente ítem, que se lleva a cabo bajo la supo-

sición de que la estimación de la habilidad del

evaluando es precisa, es la tarea responsable de

que el TAI sea adaptativo.

En este contexto cabe destacar el criterio de

máxima información (LORD, 1980), que consiste

en seleccionar, de entre los que aún no han sido

administrados, el ítem que proporciona más in-

formación para el nivel de habilidad estimado en

cada momento. La información aportada por un

ítem (I( )) sólo depende de las propiedades del

modelo,concretamente de la curva característi-

INVESTIGACIÓN

Revista de la Universidad de Guayaquil Nº 114,

Septiembre - Diciembre 2012, ISSN 1019 - 6161

ca del ítem P( ) y de su primera derivada con res-

pecto a , y se dene como (BIRNBAUM, 1968):

Ecuación 2 – Función de Información del Item

La idea subyacente al criterio de máxima in-

formación es que cuanto más informativo es un

ítem para un valor concreto, tanto más preci-

sa hace, después de haber sido administrado, la

nueva estimación de la habilidad del examinado;

o dicho de otro modo, menos error produce en

dicha estimación. Con el n de evitar que los

ítems más informativos se apliquen sistemáti-

camente en todas las evaluaciones, y en con-

secuencia los menos valiosos no se administren

nunca, todo método de selección de ítems suele

implementar algún procedimiento para contro-

lar la sobrexposición de los ítems (OLEA & PON-

SODA, 2003).

Cuando naliza la aplicación del TAI se dispone

de una aproximación del nivel de habilidad del

examinado. No obstante, para que dicha esti-

mación sea precisa y able, es necesario que el

banco de ítems que se haya utilizado esté ca-

librado según alguno de los modelos de la TRI.

Esto signica que las características que denen

sus ítems (en el caso del modelo 3PL, dicultad,

discriminación y pseudoazar) deben ser conoci-

das, por ejemplo, por haber sido estimadas me-

diante algún proceso estadístico (HAMBLETON &

SWAMINATHAN, tem Response Theory: Principles

and Aplications, 1985).

1.2 Estado del Arte

La idea original de los TAI fundamentados en

la TRI data de comienzos de los años setenta

(LORD, 1970), y fue implementada por vez pri-

mera durante los ochenta a partir del sistema

Computerized Adaptive Screening Test de la ar-

mada estadounidense, precursor de lo que a día

de hoy se conoce como CAT-ASVAB (SEGALL &

MORENO, 1997).

En 1990 sólo se administraron unos pocos cien-

tos de TAI, pero esta cifra se incrementó en

1999 hasta superar el millón de aplicaciones,

por lo que el crecimiento en la utilización de

tests adaptativos se sigue estimando exponen-

cial (WAINER, 2000). De hecho, en la actualidad

existen multitud de instituciones y programas

estandarizados de evaluación que incluyen TAI

basados en TRI, como el National Assessment

of Educational Progress o el Educational Testing

Service (ETS), en cuyo marco se desarrollan va-

rios de los más importantes programas de eva-

luación adaptativa (ROJAS TEJADA, 2001), como

el Test Of English as Foreign Language (TOEFL),

que se administra en casi 90 países.

Semejante aumento en la aplicación de TAI se

debe principalmente a las ventajas que ofrecen

sobre los test tradicionales de lápiz y papel ba-

sados en la TCT: entre otras, requieren menos

tiempo de administración, realizan estimaciones

de habilidad más precisas, y dotan al test de ma-

yor seguridad (OLEA & PONSODA, 2003). No es de

extrañar, por tanto, que el catálogo de ámbitos

en los que a día de hoy se utilizan los TAI sea tan

extenso, y que abarque campos como la medi-

ción de aptitudes intelectuales, la selección de

personal y las pruebas de admisión, certicación

o evaluación educativa.

Prácticamente todas las implementaciones de

TAI que se han desarrollado se utilizan a gran

escala, y, en la mayor parte de los casos, con

nes comerciales. De hecho, apenas se conocen

aplicaciones gratuitas para realizar tests adap-

tativos experimentales o a pequeña escala, en-

tre las que cabe mencionar DEMOTAC (RENOM,

1993) y ADTEST (PONSODA, OLEA, & REVUELTA,

1994) como ejemplos representativos.

Muchas veces son los propios psicómetras quie-

nes elaboran herramientas generadoras de TAI

para uso propio, para que su alumnado pueda

crear pequeños test durante las prácticas en cla-

se, o con algún otro n experimental. En estos

casos, pese a ser muy ecientes en los cálculos y

estimaciones de habilidad, los productos nales

suelen ofrecer interfaces de usuario muy pobres.

Por lo general se trata de software desarrollado

en lenguajes de programación imperativa tradi-

cionales (como C, Fortran o Pascal) que limitan

la congurabilidad del programa, los formatos

de entrada y la interfaz de comunicación. En

concreto, no siempre se ofrece la posibilidad de

utilizar el ratón como dispositivo de entrada, las

pantallas se suelen basar íntegramente en inter-

faces de matriz de texto al estilo de MS-DOS, y

el usuario se ve por lo general obligado a utilizar

cheros de texto ASCII con un formato concre-

Revista de la Universidad de Guayaquil Nº 114,

Septiembre - Diciembre 2012, ISSN 1019 - 6161

La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.

to (establecido de antemano y que no siempre

resulta intuitivo) para almacenar su banco de

ítems calibrado.

Este documento presenta un “Prototipo Gene-

rador de TAI”, un modelo de fácil manejo que

aportará fundamentalmente mejoras en la inter-

faz de usuario, utilidades de ayuda y el incre-

mento de posibilidades de conguración, no sólo

a nivel de aplicación informática sino también

como generador de Test. Se trata de un prototi-

po muy orientado al usuario, escalable, portable

y de fácil manejo que generará TAI a partir de

un banco de ítems calibrado según el modelo de

tres parámetros. Un sencillo patrón de interfaz

gráca e interactiva dirige las principales opera-

ciones, lo que, junto con una alta congurabili-

dad en las opciones y preferencias del usuario,

facilita su utilización.

2. Metodología.- Caso Práctico

de Usabilidad en un Prototipo

Generador de TAI

Este prototipo basado en las Reglas de Oro de la

Usabilidad (NIELSEN, 1993), deberá desarrollarse

en un lenguaje de programación orientado a ob-

jetos que facilite la construcción de aplicaciones

que interactuarán con cualquier tipo de base de

datos, simplicando la creación de interfaces de

usuario basadas en ventanas, y permitiendo el uso

del ratón sobre elementos grácos dotados de fun-

cionalidad (como botones, listas desplegables o

menús). Además, esta herramienta será portable,

lo que signica que podrá ejecutarse en cualquier

plataforma, con independencia de cuál sea el sis-

tema operativo usado (LOPEZ CUADRADO, 2008).

Se trata de un prototipo muy sencillo de utilizar,

pues lo único que se necesitará es que el evalua-

dor especique la ubicación de la tabla con los

ítems calibrados según el modelo 3PL, para que

el sistema genere de modo sencillo e intuitivo

test adaptativos. Dicha tabla puede estar alma-

cenada en cualquier gestor de bases de datos.

Desde el punto de vista de programación, la he-

rramienta es fácilmente escalable, pues se su

diseño contará con estructuras abiertas y poco

solapadas, de manera que la inclusión en el fu-

turo de nuevas funcionalidades y opciones de

conguración resulte sencilla.

Esta herramienta prototipo, incorporará un no-

vedoso sistema de simulación que automática-

Figura 2 – Pantallas del Prototipo GENERADOR DE TAI

mente calibrará su funcionamiento y ofrecerá

resultados para un posterior análisis. Asimismo,

permitirá la generación de archivos de texto con

históricos de sesión y la presentación de resul-

tados en diversos formatos que pueden comple-

mentarse.

El sistema generador de TAI proporcionará sie-

te módulos o pantallas de presentación. El paso

de una sección a otra podrá darse mediante los

botones establecidos en cada pantalla para ello,

aunque también podrá efectuarse a través de la

barra de menú. Esta barra, común para toda la

aplicación, facilitará la navegación por las dis-

tintas opciones y brindará acceso a las funciona-

lidades más importantes.

A continuación se presentarán en detalle las

características y funcionalidades principales de

cada uno de los siete módulos que compondrán

el sistema Generador de TAI (Figura 2), y que

serán: pantalla de presentación, preferencias,

simulación, conguración del TAI, aplicación o

administración del test, presentación de resul-

tados y ayuda.

2.1. La Pantalla de Presentación

La pantalla de presentación (gura 3) es la vía

de entrada a la aplicación, y permite acceder al

resto de elementos y funcionalidades que ofrece

el Prototipo.

Opcionalmente puede especicarse en ella un

nombre de usuario con el que posteriormente

se personalicen los informes y resultados de los

test.

INVESTIGACIÓN

Revista de la Universidad de Guayaquil Nº 114,

Septiembre - Diciembre 2012, ISSN 1019 - 6161

2.2.Conguraciónde

Preferencias

En esta sección (Figura 4) el usuario podrá con-

gurar las distintas opciones que ofrece la he-

rramienta. Con el n de evitar problemas en el

funcionamiento del Generador, la pantalla de

preferencias establecerá un estricto control so-

bre los datos que proporcionará el usuario, en

particular, como se verá enseguida, sobre la ubi-

cación del banco de ítems. Todas las posibilida-

des que podrán establecerse en este punto del

programa son:

• El tipo de ítems a utilizar: de momento sólo

se incluye la posibilidad de utilizar pregun-

tas de elección múltiple con tres o cuatro

posibilidades de respuesta, que por otra par-

te son los más utilizados en las pruebas de

evaluación mediante test.

• La ubicación de los datos: especicación de

la base de datos en la que se encuentran los

ítems del banco y sus parámetros a, b y c.,

Esta herramienta incorporará un sistema de

comprobación del formato de las tablas, que

mostrará un aviso ante cualquier anomalía,

lo que facilitará la gestión y mantenimiento

de las mismas.

• Restricciones de accesibilidad: El Prototi-

po Generador permitirá restringir el acce-

so a las opciones de conguración de los

test, así como al menú de preferencias,

por ejemplo para poder realizar numero-

sas pruebas con un mismo patrón de con-

guración y evitará que los examinados

modiquen los valores establecidos para la

aplicación de los TAI. Para ello, se estable-

cerá una contraseña que se guardará en un

formato cifrado con el n de impedir su

decodicación a partir del chero que la

almacenará.

• Establecimiento de los valores por defecto:

se facilitará la conguración de los TAI que

se vayan a realizar directamente desde la

pantalla de presentación. También se permi-

tirá especicar el nombre que el generador

dará a los archivos históricos de resultados.

• Opciones de simulación: proporcionará el

acceso al módulo de simulación y a sus op-

ciones de conguración, elementos de los

que se hablará a continuación.

Figura 3 – Pantalla de Presentación del Prototipo

Revista de la Universidad de Guayaquil Nº 114,

Septiembre - Diciembre 2012, ISSN 1019 - 6161

La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.

2.3. Módulo de Simulación

Esta pantalla será accesible desde la ventana de

preferencias, servirá para testear el funciona-

miento de la herramienta en términos de preci-

sión o error en las estimaciones. Este subproceso

será el encargado tanto de recoger las opciones

de la propia simulación como de la ejecución de

la misma.

El funcionamiento de las simulaciones es muy

sencillo: el sistema generará automáticamente

una muestra de sujetos cuyas habilidades esta-

blece a priori; después simulará la administra-

ción de un TAI a cada uno de estos sujetos vir-

tuales, por lo que como resultado obtendrá una

estimación para cada una de las habilidades que

ha determinado previamente; por último, una

comparación entre las habilidades establecidas

en el inicio y las estimaciones recién obtenidas

dará al usuario una idea de lo preciso que es el

TAI que se ha aplicado a los sujetos simulados.

Los aspectos que pueden configurarse en lo

concerniente a la simulación serán el tipo de

test a administrar, el método de selección

del primer ítem, el método de selección de

los ítems sucesivos, y el criterio de parada.

Estos parámetros de configuración se descri-

birán con detalle en el siguiente epígrafe,

pues son exactamente los mismos que se han

definido para la administración de los TAI.

Es en lo relativo al formato de los resulta-

dos donde surgen las diferencias, dado que

el módulo de simulación elabora automática-

mente un tipo de informe de salida más es-

pecífico que los que se pueden obtener tras

la aplicación de un TAI. En efecto, una vez fi-

nalizada una sesión de simulación, los resul-

tados de las administraciones efectuadas se

almacenarán, de modo transparente al usua-

rio, en un archivo tabulado de texto plano

que facilitará su futura importación por par-

te de programas de cálculo numérico o aná-

lisis estadístico como el paquete SPSS. Entre

los resultados computados se encuentran la

raíz del error cuadrático medio (RSME), el

sesgo (BIAS) y el error estándar (SE) de las

estimaciones de habilidad obtenidas durante

el proceso de simulación, no sólo para todo

el intervalo de habilidades considerado ([-

4, 4]), sino también para diferentes subin-

Figura 4 – Ventana de preferencias del Prototipo

INVESTIGACIÓN

Revista de la Universidad de Guayaquil Nº 114,

Septiembre - Diciembre 2012, ISSN 1019 - 6161

tervalos de tamaño 0.2 (concretamente, [-4,

-3.8), [-3.8, -3.6), etcétera). La Ecuación 3

muestra las fórmulas utilizadas para calcular

los índices de precisión del algoritmo TAI uti-

lizado durante la simulación.

Ecuación 3 – Métricas de Precisión de la Simulación

En todas estas fórmulas, N es el número de

sujetos simulados del intervalo o subintervalo

considerado a los que se les ha aplicado un

TAI, la habilidad (establecida de antemano

por el propio módulo de simulación) del sujeto

k-ésimo, y * la estimación que el TAI ha com-

putado para la habilidad del sujeto k-ésimo.

En el caso ideal en el que el algoritmo de apli-

cación de la prueba resultase absolutamente

preciso, estos dos últimos valores serían idén-

ticos.

La administración simulada de TAI se efec-

tuará utilizando varios cientos de sujetos

con niveles de habilidad distribuidos unifor-

memente a lo largo del intervalo [-4, 4], a

quienes se les aplicarán los test siguiendo la

configuración especificada, y tomando ítems

de un banco que puede ser generado íntegra-

mente por Generador o extraído de una base

de datos externa. Para el primer caso, la pro-

pia herramienta crea un banco de 3000 ítems

cuyos parámetros siguen una distribución uni-

forme (por defecto, U(0.4, 1.4) el de discri-

minación, U(-4, 4) el de dificultad y U(0, 0.2)

el de pseudoazar).

2.4.ConguracióndelTAI

Si bien es posible comenzar la administración de

un TAI directamente desde la pantalla de pre-

sentación (en cuyo caso se utilizarán los valo-

res que estén establecidos por defecto), lo más

habitual será hacerlo después de haber visitado

la pantalla de conguración del TAI (Figura 5).

Este módulo, en el que se han invertido gran-

des esfuerzos para favorecer la escalabilidad

de la aplicación (esto es, la inclusión futura de

nuevas funcionalidades), permite establecer los

métodos y criterios a seguir durante la posterior

administración de los TAI. Al igual que ocurre

en el módulo de preferencias (y en general, en

cualquier pantalla en la que el usuario ha de in-

troducir algún dato), a la hora de capturar esta

información el prototipo realizará un control ex-

haustivo de los datos de entrada.

El objetivo será evitar la inserción de valores no

deseados o inválidos, por lo que, en el supuesto

en que se diere uno de estos casos, el sistema

mostrará por pantalla un aviso individualizado

y automáticamente restaurará el valor erróneo

a uno aceptable (por ejemplo, al asignado por

defecto).

En el módulo de conguración del TAI podrá

especicarse:

• El tipo de prueba a desarrollar: en este

momento se ofrecerán tres tipos de test,

a saber, TAI fácil (en el que los ítems que

se presentan tienen menor dicultad que

la óptima con el n de reducir la ansiedad

del examinado), TAI clásico (en el que se

sigue estrictamente el método de máxima

información) y TAI difícil (en el que los

ítems son ligeramente más difíciles de lo

esperable).

• El método de selección del primer ítem: con

el propósito de que el algoritmo de apli-

cación del TAI disponga de una estimación

inicial de la habilidad del examinado, el

usuario deberá establecer un valor numérico

exacto, o en su defecto especicar un ran-

go de valores para que sea el sistema quien

elija aleatoriamente la habilidad de partida

dentro de dicho intervalo.

• El método de selección de los siguientes

ítems: se trata del criterio de máxima infor-

mación, que puede combinarse con uno de

los métodos de control de sobrexposición de

los ítems que se han implementado, y que

son el 5-4-3-2-1, el randomesque y el pro-

gresivo (OLEA & PONSODA, 2003).

Revista de la Universidad de Guayaquil Nº 114,

Septiembre - Diciembre 2012, ISSN 1019 - 6161

La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.

• El criterio de parada: puede especicarse si el

algoritmo de aplicación del TAI debe nalizar

tras la administración de un número especíco

de ítems (criterio de longitud ja), cuando se ha

alcanzado una precisión determinada (criterio

de longitud variable), o como resultado de una

combinación de ambos (criterio mixto). De modo

complementario, es posible denir un tiempo

máximo para la conclusión de la prueba.

• Existirán cinco formas distintas de mostrar

los resultados, ninguna de ellas excluyen-

te del resto. Se trata de la habilidad pura

( estimada), una transformación a la escala

[0,10], un gráco de evolución, un histórico

y el porcentaje de aciertos. Aunque es en la

pantalla de conguración donde se especi-

ca cuál o cuáles de los diferentes formatos

se desea para visualizar los resultados, tras

la nalización de cada prueba se le da al

usuario nuevamente la posibilidad de elegir

entre los cinco modos de presentación.

2.5. Administración del TAI

Tanto si se ha establecido una conguración

especíca como si se van a utilizar los valores

por defecto, la aplicación del TAI tiene lugar en

una serie de pantallas en las que, a partir de la

conguración determinada para el test actual,

se mostrarán los ítems apropiados para la eva-

luación y se recogerán las respuestas del exami-

nado LOPEZ CUADRADO, J., & ARMENDARIZ, A.

J. (2006).

Mientras que el usuario se limitará a selec-

cionar la respuesta que considera correcta

para cada uno de los ítems que el Prototipo

Generador le presentará, el sistema proce-

sará las operaciones necesarias para la eje-

cución del algoritmo de administración del

TAI. Las tareas concretas que realizará este

módulo son las que se enumeran a continua-

ción:

Figura 5 - Pantalla de Conguración del TAI

INVESTIGACIÓN

Revista de la Universidad de Guayaquil Nº 114,

Septiembre - Diciembre 2012, ISSN 1019 - 6161

• Seleccionar el ítem más adecuado: aten-

diendo a los criterios de selección de ítems

establecidos en la conguración del test, se

seleccionará del banco de ítems el siguiente

que se va a mostrar. Esta tarea, que depen-

derá de la estimación actual de la habilidad

del examinado, de los ítems que ya han sido

administrados y de si se requiere o no la utili-

zación de métodos de control de sobrexposi-

ción, se anticipará a la respuesta del usuario,

ya que efectuará los cálculos durante los se-

gundos que tardará el examinado en respon-

der a cada ítem. De esta manera se consegui-

rá que el proceso no afecte a la interacción

con el sistema (en concreto, ralentizando la

presentación de los ítems), y mucho antes de

que el evaluando responda un ítem el Proto-

tipo Generador ya tendrá decidido cuál va a

ser el siguiente que le presentará si acierta, y

cuál si elige una respuesta incorrecta.

• Recalcular la habilidad estimada del sujeto:

dado que la selección del siguiente ítem a

administrar requiere conocer de antemano la

estimación de habilidad actual del sujeto, esta

tarea, que sólo depende de las características

de los ítems administrados hasta el momento

y de sus respuestas, se incluye en la anterior.

Por lo tanto, el sistema podrá conocer con an-

telación no sólo qué ítem deberá administrar

a continuación tanto si el sujeto acierta el ac-

tual como si no, sino que además puede dis-

poner del nuevo valor de habilidad estimado

para cada caso. Para obtenerlo este Sistema

Generador utilizará el método de máxima ve-

rosimilitud con la optimización propuesta por

(HERRANDO, 1989), evitando así divergencias

en el proceso de cálculo al suponer de ante-

mano que el sujeto ha respondido correcta-

mente un ítem considerablemente fácil y ha

fallado uno de dicultad extrema.

• Comprobar los criterios de parada: antes de

realizar los cálculos precisos para la selección

de ítems y actualización de la habilidad esti-

mada para el examinado, el sistema deberá

comprobar si es necesario o no administrar un

nuevo ítem, o lo que es lo mismo, detectar si

hay que dar por concluido el TAI. Esta tarea

se intercalará en el proceso de selección de

ítems, mediante la inclusión de rutinas que

permiten controlar si se cumple alguno de

los criterios de nalización establecidos en la

fase de conguración. Si se identica el nal

del TAI, se invocará al módulo de presenta-

ción de resultados (del que se hablará en el

siguiente epígrafe) para que muestre al usua-

rio su evolución y/ o puntuación.

• Informar al usuario: además del enuncia-

do y las posibles respuestas de los ítems, y

dependiendo de qué criterios de parada se

hayan habilitado en la conguración de la

prueba, el módulo de aplicación del TAI tam-

bién deberá presentar al examinado infor-

mación relativa al estado de cumplimiento

de los criterios de nalización.

Concretamente, el Prototipo Generador mostra-

rá, en la parte superior derecha de la pantalla,

el número de ítems respondidos sobre el total (si

el TAI es de longitud ja), un mensaje avisando

de que el test está a punto de nalizar (cuando

el error de la estimación actual de habilidad está

próximo al máximo permitido en los TAI de lon-

gitud variable) y, en la esquina inferior derecha,

los minutos restantes para la nalización del test

(en el caso de que se haya establecido un tiempo

límite). Estos mensajes pueden ir acompañados

de un color: verde si aún quedan bastantes ítems

por administrar; amarillo si presumiblemente

faltan unos pocos; y rojo si el nal de la prueba

es inminente.

3. Presentación de Resultados

Una vez nalizada la administración del TAI por

el cumplimiento de alguna de las condiciones de

parada, se da paso a la interfaz de presentación

de resultados de la prueba. Antes de proceder a

la visualización de los mismos se da la oportuni-

dad al examinado de modicar los formatos de

presentación de resultados que haya selecciona-

dos en la conguración por defecto de los test,

y que son:

• Habilidad pura: se trata de la estimación -

nal obtenida por el sistema, y que vendrá

representada como un número real dentro

de la escala [-4, 4].

• Transformación al intervalo [0,10]: consiste

en obtener un escalado de la habilidad pura

con el n de ofrecer una visión más familiar

del resultado del TAI.

• Gráco de evolución: este formato de pre-

sentación utilizará un modelo matemático a

partir del que se obtiene un diagrama (Figu-

ra 6) en el que se mostrará la evolución del

valor estimado de la habilidad del examina-

do a lo largo de la administración del test.

• Porcentaje de aciertos: también se ofrece

la posibilidad de visualizar este índice, pese

a no ser el más apropiado para evaluar la

habilidad en los TAI, ya que, independien-

temente de la destreza de los examinados,

siempre rondará el 50-60%.

Revista de la Universidad de Guayaquil Nº 114,

Septiembre - Diciembre 2012, ISSN 1019 - 6161

La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.

• Históricos de evolución: Esta herramienta

permitirá elaborar dos formatos de docu-

mento (tabulado y comentado) para recoger

los ítems administrados durante la aplica-

ción del TAI, así como las sucesivas (re)esti-

maciones de habilidad y los errores de me-

dida asociados. El histórico tabulado (Figura

7) utiliza un algoritmo que encasilla toda la

información ajustando la longitud del texto

a los diferentes anchos de columna, mien-

tras que el histórico comentado (Figura 8)

reproduce la administración del TAI en una

secuencia de acciones.

Ambos tipos de histórico de aplicación del test

pueden, además de visualizarse por pantalla, ser

almacenados en disco en un archivo con formato

de texto plano, cuyo nombre (*.txt) será depen-

diente de lo que se haya especicado en las pre-

ferencias del Prototipo Generador.

Figura 6 – Gráco de Evolución de la Habilidad

Figura 7 – Histórico Tabulado

INVESTIGACIÓN

Revista de la Universidad de Guayaquil Nº 114,

Septiembre - Diciembre 2012, ISSN 1019 - 6161

3.1 Sistema de Ayuda

La aplicación estará dotada de un sistema de

ayuda que tiene como nalidad solventar las du-

das que el usuario pueda tener en algún punto

de la interacción con el sistema.

Por una parte, la ayuda podrá mostrarse de

modo contextual a través de una serie de boto-

nes que hay habilitados en determinados puntos

de la pantalla para tal efecto. Cuando el usuario

pulsa uno de ellos, una ventana le mostrará la

información concreta acerca del tema relacio-

nado con el elemento junto al que se encuentra

dicho botón (Figura 9). La ayuda contextual se

habrá denido básicamente para cada una de

las opciones de conguración, para los aspectos

técnicos relacionados con la naturaleza del TAI,

y para los formatos de presentación de resulta-

dos que ofrece el sistema.

Figura 8 – Histórico Comentado

Figura 9 – Ayuda Contextual del TAI

Revista de la Universidad de Guayaquil Nº 114,

Septiembre - Diciembre 2012, ISSN 1019 - 6161

La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.

Asimismo, también se incluirá un módulo de

ayuda temática (Figura 10), habilitada en todo

momento durante la interacción con el sistema,

que se encontrará accesible en la barra de menú

de la aplicación.

Este componente ofrecerá al usuario la po-

sibilidad de navegar por los contenidos de

ayuda, que se encontrarán organizados por

temas según las diferentes funcionalidades

del Generador (preferencias, configuración,

simulación, test y resultados). Este tipo de

ayuda estará dirigida al usuario inexperto,

con lo que se espera posibilitar el uso de

esta herramienta por un amplio colectivo de

usuarios.

Figura 10 – Sistema de Ayuda Temática

Conclusiones

Este artículo ha presentado un Prototipo, un ge-

nerador de test adaptativos informatizados para

utilizarlos a pequeña escala o en entornos expe-

rimentales por un usuario, si bien pueden existir

varias instancias del programa, cada una de ellas

operada por una persona.

Este prototipo generador de Test, será una herra-

mienta muy amigable, gráca, de fácil e intuitivo

manejo, portable a cualquier plataforma y alta-

mente congurable, y que como novedad incluye un

módulo de simulación que permite al usuario eva-

luar los errores de medida producidos tras la apli-

cación con diferentes conguraciones de los test.

Siendo una herramienta cuyo diseño se centrará

en el usuario, se tributará a la reducción de de-

sarrollos innecesarios (por la detección de erro-

res en forma temprana), a la mayor calidad del

producto entregado siendo más eciente.

Es un sistema que será especialmente diseñado

para facilitar la inclusión de nuevas funcionali-

dades y opciones en el futuro.

• En primer lugar, se prevé ampliar el catálogo

de formatos de ítems, para que los test no

se limiten a utilizar preguntas de elección

múltiple de tres o cuatro posibilidades de

respuesta.

• Por otra parte, se considera la posibilidad de

guardar automáticamente información del

usuario entre sesiones.

• Al mismo tiempo, está prevista la inclu-

sión de otros tipos de tests adaptativos,

como los Test Autoadaptados Informati-

zados (ROCKLIN, O’DONNELL, & HOLST,

1995), en los que se le ofrece al exami-

nado la oportunidad de decidir si el si-

guiente ítem a administrar será más fácil

o más difícil.

• Otra de las líneas de desarrollo futuras

es la de añadir más métodos de control

de la sobrexposición de los ítems, en

particular el método progresivo genera-

lizado (EGGEN, 2001), y alguna de sus

variantes.

• Por último, también se ha contempla la po-

sibilidad de orientar la herramienta hacia un

uso basado en web.

INVESTIGACIÓN

Revista de la Universidad de Guayaquil Nº 114,

Septiembre - Diciembre 2012, ISSN 1019 - 6161

Bibliografía

1. BIRNBAUM, A. (1968). Some latent trait models and their use in inferring an examinees ability.

Addison-Wesley.

2. EGGEN, T. H. (2001). Overexposure and underexposure of items in computerized testing. Measu-

rement and Research Reports, 1.

3. HAMBLETON, R. K., & SWAMINATHAN, H. (1985). tem Response Theory: Principles and Aplications.

Boston: Kluwer.

4. HAMBLETON, R. K., SWAMINATHAN, H., & ROGERS, H. J. (1991). Fundamentals of Item Response

Theory. California, USA.: Sage Publications Inc.

5. HERRANDO, S. (1989). Tests adaptativos computerizados: una sencilla solución al problema de la

estimación con puntuaciones perfectas y cero. II Conferencia Española de Biometría. Biometric

Society, Segovia. Segovia.

6. LOPEZ CUADRADO, J. (2008). Evaluación mediante test adaptativos informatizados en el contexto

de un sistema adaptativo para el aprendizaje de la lengua. Lenguajes y Sistemas Informáticos

(pág. 401). San Sebastián: Univ. País Vasco.

7. LOPEZ CUADRADO, J., & ARMENDARIZ, A. J. (2006). Obtención de estimaciones de los parámetros

durante la calibración de un banco de ítems. University of the Basque Country (UPV/EHU/LSI/TR

13-2006), 271.

8. LORD, F. (1952). A Theory of Test Scores. (Psychometric Monograph No. 7). Richmond, VA:.

9. LORD, F. (1980). Applications of item response theory to practical testing problems. Erlbaum As-

sociates.

10. LORD, F., & NOVICK, M. (1968). Statistical theories of mental test scores. Addison-Wesley Pub. Co.

11. MUÑIZ, J. (1997). Introducción a la Teoría de Respuesta a Los ítems.

12. NIELSEN, J. (1993). Usability Engineering. AP Professional.

13. NOVICK, M. R. (1966). The axioms and principal results of classical test theory. Journal of Mathe-

matical Psychology Volume 3, Issue 1, February 1966, Pages 1-18.

14. OLEA, J., & PONSODA, V. (2003). Tests adaptativos informatizados. Madrid: UNED Ediciones.

15. PONSODA, V., OLEA, J., & REVUELTA, J. (1994). ADTEST: A COMPUTER-ADAPTIVE TEST BASED ON

THE MAXIMUM INFORMATION PRINCIPLE. Educational and Psychological Measurement, 680-686.

16. RASCH, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen,

Danish Institute for Educational Research: The University of Chicago Press.

17. RENOM, J. (1993). Tests Adaptativos Computarizados: Fundamentos y Aplicaciones . Barcelona:

PPU.

18. ROCKLIN, T. R., O’DONNELL, & HOLST, P. M. (1995). Effects and underlying mechanisms of self-

adapted testing. Journal of Educational Psychology, 103-116.

19. ROJAS TEJADA, A. (2001). Pasado, presente y futuro de los Tests Adaptativos Informatizados. Psi-

cothema, 685-690.

20. SEGALL, D. O., & MORENO, K. E. (1997). Computerized Adaptive Testing: From inquiry to opera-

tion. Washington D.C.: American Psychological Association.

21. SPEARMAN, C. (1904). “GENERAL INTELLIGENCE,” OBJECTIVELY DETERMINED AND MEASURED.

American Journal of Psychology 15, 201-293.

22. VAN DER LINDEN, W. J., & GLAS, C. W. (2010). ELEMENTS OF ADAPTATIVE TESTING. Londres: Sprin-

ger New York Dordrecht Heiderberg London.

23. WAINER, H., & DORANS, N. (2000). Computerized Adaptive Testing: A Primer. Taylor & Francis

Group.

Ing. Milton Rafael Maridueña Arroyave.

Doctorante de la Universidad Cienfuegos, Doctorante Universidad de Ciencias Informáticas, Cuba.

Máster en Docencia Universitaria e Investigación Educativa por la Universidad de Guayaquil.

Investigador y consultor informático por la Universidad de Guayaquil en el proyecto de “Autoeva-

luación y Acreditación de las instituciones de Educación Superior.

Email: milton.mariduenaa@fcmf.ug.edu.ec

Artículo recibido: 02/10/2012

Fecha aprobado: 19/11/2012