7
Revista de la Universidad de Guayaquil Nº 114,
Septiembre - Diciembre 2012, ISSN 1019 - 6161
La aplicación de factores de usabilidad en el
diseño de tests adaptativos informatizados
(tai): un caso práctico.
Resumen
El diseño de sistemas informáticos debe ser guiado por un conjunto de conceptos, principios y técni-
cas, cuyo objetivo principal es el de minimizar ó reducir las cargas cognitiva y de percepción por parte
del usuario, es decir, que el resultado del proceso de diseño de lugar a un sistema (o herramienta) que
demuestre un manejo fácil e intuitivo: en efecto, aseverar la “usabilidad” del sistema. Este objetivo,
conseguido a través de un proceso reconocido como “centrado en el usuario”, es necesario no sólo
para conseguir mejoras en la productividad del usuario y facilitar la utilización de los sistemas propia-
mente desarrollados, sino que es un aspecto vital y prácticamente obligatorio para el diseño de test
adaptativos informatizados que incluyen personas con dependencia funcional. Un generador de TAI
debe ser un software amigable, de fácil uso, intuitivo, portable, escalable, altamente congurable
y fuertemente documentado, que al mismo tiempo respuesta a los objetivos propios de un test
adaptativo basado en Teoría de Respuesta al Item (TRI); sistemas similares pecan en la calidad de sus
interfaces y en la forma de interactuar con el usuario.
Palabras Claves: Usabilidad, Test Adaptativos Informatizados centrado en el Usuario
Summary
The computer systems design should be guided by a set of concepts, principles and techniques, whose
main objective is to minimize or reduce cognitive load and user perception, ie the result of the design
process rise to a system (or tool) that demonstrates an easy and intuitive: indeed, assert the “usabi-
lity” of the system. This goal, achieved through a process known as “user-centered”, it is necessary
not only for improvements in user productivity and facilitate proper use of the systems developed, but
it is a vital and practically mandatory for design of computerized adaptive tests that include people
with functional dependence. A TAI generator software should be a friendly, easy to use, intuitive,
portable, scalable, highly congurable and heavily documented, at the same time to respond to the
specic objectives of an adaptive test based on Item Response Theory (IRT), similar systems fail the
quality of its interfaces and how to interact with the user.
Keywords: Usability, Computerized Adaptive Test User Centered
Ing. Milton Maridueña Arroyave.
Revista de la Universidad de Guayaquil
Nº 114, Septiembre - Diciembre 2012, pp. 5 - 18
ISSN 1019 - 6161
Application of factors in designing usability computerized
adaptive testing (tai): a case study.
INVESTIGACIÓN
8
Revista de la Universidad de Guayaquil Nº 114,
Septiembre - Diciembre 2012, ISSN 1019 - 6161
Introducción
El test es sin duda el principal método utilizado
en psicometría para medir las facultades inte-
lectuales, tanto educativas como psicológicas.
La aplicación de un test consiste en administrar
una serie de preguntas o actividades denomina-
das ítems, que habitualmente tienen un formato
de elección múltiple, con el n de cuanticar
para cada sujeto una variable de rasgo o habili-
dad, como la memoria, la capacidad de aplicar
el conocimiento adquirido o la comprensión de
textos.
Las teorías de test proporcionan métodos para
la construcción de tests y proveen de modelos
matemáticos que facilitan la interpretación y
validación de los resultados obtenidos.
Tradicionalmente, el ámbito profesional de la
medición psicológica y educativa ha estado do-
minado por la Teoría Clásica de los Test (TCT).
Esta teoría surgió a partir de los trabajos de
(SPEARMAN, 1904), si bien no fue hasta media-
dos de los años sesenta cuando recibió su forma
axiomática (NOVICK, 1966). La TCT se funda-
menta en un modelo que establece una relación
lineal entre la habilidad del examinado y la pun-
tuación del test.
Concretamente, se considera que la puntua-
ción empírica obtenida en la prueba (X) es
igual a la suma de dos componentes hipoté-
ticos y desconocidos a priori: la puntuación
verdadera o habilidad del evaluando (V) y un
cierto error de medida (e). Los inconvenien-
tes más destacables de la TCT son, por una
parte, que los supuestos que plantea no se
pueden contrastar empíricamente, por otra,
que las mediciones de habilidad obtenidas
dependen de la naturaleza del test utilizado,
y que, a la inversa, propiedades como la difi-
cultad de una prueba están supeditadas a las
características de los sujetos a quienes se les
aplique.
La Teoría de Respuesta al Ítem (TRI) dará solu-
ción a estos (y otros) problemas de la TCT. Se
trata de una teoría relativamente joven y en
continua evolución (LORD, 1952); (RASCH, 1960);
(LORD & NOVICK, Statistical theories of mental
test scores, 1968); (HAMBLETON, SWAMINATHAN,
& ROGERS, 1991) cuyos modelos establecen una
relación no lineal entre la habilidad del exami-
nado y una serie de propiedades o parámetros de
los ítems que componen el test.
Concretamente, estos modelos reejan la pro-
babilidad de que los sujetos acierten los ítems
que se les administran durante la aplicación de
una prueba de evaluación.
El modelo unidimensional más utilizado de los
que ofrece la TRI es el logístico de tres pará-
metros (3PL), cuya expresión da la Ecuación 1
(BIRNBAUM, 1968):
Ecuación 1 - Modelo Logístico de 3 Parámetros
Como puede observarse, según este modelo la
probabilidad de que un examinado con habilidad
acierte un ítem (esto es, P( )) sólo depende de
tres características que son propias del ítem (el
poder discriminativo a, la dicultad b, y el pseu-
doacierto o probabilidad de acierto al azar c) y
de un factor de escalado D que, una vez estable-
cido, es constante.
El parámetro de dicultad se corresponde con el
valor de la habilidad donde la curva P( ) presenta
su punto de inexión. En este punto la proba-
bilidad de una respuesta correcta se encuentra
a medio camino entre el pseudoazar (adivinan-
za) y 1.0. La dicultad se establece utilizando la
misma escala que se usa para medir la habilidad
de los examinados, por lo general la que está de-
nida en el intervalo (-4, 4) del eje horizontal,
siendo el 0 su punto medio. Cuanto mayor es el
valor del parámetro b, más difícil es el ítem, de
modo que los ítems fáciles aparecerán en la par-
te izquierda del eje , y los difíciles a la derecha.
Por su parte, el parámetro de poder discrimina-
tivo del ítem corresponde a la máxima pendien-
te de P( ), la cual se alcanza precisamente en
su punto de inexión. Cuanto mayor es su va-
lor, que difícilmente rebasa el intervalo (0.2, 2),
más signicante es el ítem a la hora de evaluar
al examinado.
Finalmente, el pseudoazar se dene como la
probabilidad de que una persona con poca ha-
bilidad (región izquierda del eje horizontal) res-
ponda al ítem correctamente.
A continuación en la sección 1.1 se expone el
concepto de test adaptativo fundamentado en
9
Revista de la Universidad de Guayaquil Nº 114,
Septiembre - Diciembre 2012, ISSN 1019 - 6161
La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.
la TRI; la sección 1.2, que está dedicada al es-
tado del arte en el uso de este tipo de pruebas
de evaluación, dará pie a la presentación de un
Prototipo Generador de TAI, modelo en que se
centrará la sección 2; nalmente, la sección 3
cerrará con las conclusiones y posibles líneas de
trabajo futuro.
1.1 Test Adaptativos
Informatizados (TAI)
Por estar orientada al ítem, la TRI permite ob-
tener estimaciones de la habilidad de los sujetos
que son independientes del conjunto especíco
de ítems que se haya administrado. Además,
esta teoría ofrece un marco en el que, incluso
aunque dos examinados hayan respondido series
distintas de preguntas, sus puntuaciones se pue-
den comparar directamente. Esta circunstancia,
impensable en el contexto de la TCT, es la que
ha impulsado el desarrollo cada vez más acen-
tuado de test adaptativos basados en la TRI.
Los Tests Adaptativos Informatizados (TAI) son
la implementación de esta idea en un programa
informático que automáticamente presenta los
ítems, y recoge y evalúa las respuestas (WAINER
& DORANS, 2000).
Se habla de adaptación en cuanto a que el test
se genera dinámicamente dependiendo de las
respuestas previas del examinado. Así, si el
sujeto falla una pregunta (esto es, el ítem ha
resultado ser difícil) la siguiente cuestión será
considerablemente más fácil porque no parece
razonable seguir insistiendo con preguntas de di-
cultad alta; y viceversa, como consecuencia de
un acierto se administrará un ítem más difícil. La
idea subyacente es la de que cuanto más se ajus-
ten los ítems seleccionados a la habilidad real
del alumno, tanto más útil será la información
que aporten sus respuestas.
Los elementos que forman un TAI son un algo-
ritmo de selección de ítems, un criterio de -
nalización del test, un método para estimar la
habilidad en base a las respuestas recopiladas
hasta el momento, y un banco o base de datos
que almacene los ítems calibrados según el mo-
delo de la TRI que se vaya a utilizar. El algoritmo
que dene el funcionamiento de un TAI (MUÑIZ,
1997), es un procedimiento iterativo (Figura 1)
que, partiendo de una estimación inicial de la
habilidad del examinado, primero evalúa todos
los ítems que no han sido utilizados aún en el test
con el n de seleccionar el mejor con respecto
a la estimación de la habilidad actual; después
administra el ítem elegido y recoge la respues-
ta; acto seguido computa una nueva estimación
de habilidad considerando las respuestas a todos
los ítems utilizados hasta el momento; y sigue
repitiendo los pasos anteriores hasta satisfacer
el criterio de parada establecido. En general, un
TAI puede nalizar porque se ha alcanzado un
nivel concreto de precisión en la estimación de
habilidad, porque se ha utilizado un número de
ítems determinado, o porque se ha superado el
tiempo límite denido.
Figura 1 - Algoritmo de Administración del TAI
La eciencia de un TAI depende de dos procesos
complementarios y estrechamente vinculados:
el método estadístico utilizado para estimar la
habilidad y el criterio de selección de ítems. Es
fundamental que las estimaciones de la habili-
dad del examinado que realice el TAI sean preci-
sas, pues en ellas se basa el correcto funciona-
miento del test. Los métodos más utilizados son
los de máxima verosimilitud (LORD, Applications
of item response theory to practical testing pro-
blems, 1980) y los bayesianos (VAN DER LINDEN
& GLAS, 2010). Por su parte, la selección del si-
guiente ítem, que se lleva a cabo bajo la supo-
sición de que la estimación de la habilidad del
evaluando es precisa, es la tarea responsable de
que el TAI sea adaptativo.
En este contexto cabe destacar el criterio de
máxima información (LORD, 1980), que consiste
en seleccionar, de entre los que aún no han sido
administrados, el ítem que proporciona más in-
formación para el nivel de habilidad estimado en
cada momento. La información aportada por un
ítem (I( )) sólo depende de las propiedades del
modelo,concretamente de la curva característi-
INVESTIGACIÓN
10
Revista de la Universidad de Guayaquil Nº 114,
Septiembre - Diciembre 2012, ISSN 1019 - 6161
ca del ítem P( ) y de su primera derivada con res-
pecto a , y se dene como (BIRNBAUM, 1968):
Ecuación 2 – Función de Información del Item
La idea subyacente al criterio de máxima in-
formación es que cuanto más informativo es un
ítem para un valor concreto, tanto más preci-
sa hace, después de haber sido administrado, la
nueva estimación de la habilidad del examinado;
o dicho de otro modo, menos error produce en
dicha estimación. Con el n de evitar que los
ítems más informativos se apliquen sistemáti-
camente en todas las evaluaciones, y en con-
secuencia los menos valiosos no se administren
nunca, todo método de selección de ítems suele
implementar algún procedimiento para contro-
lar la sobrexposición de los ítems (OLEA & PON-
SODA, 2003).
Cuando naliza la aplicación del TAI se dispone
de una aproximación del nivel de habilidad del
examinado. No obstante, para que dicha esti-
mación sea precisa y able, es necesario que el
banco de ítems que se haya utilizado esté ca-
librado según alguno de los modelos de la TRI.
Esto signica que las características que denen
sus ítems (en el caso del modelo 3PL, dicultad,
discriminación y pseudoazar) deben ser conoci-
das, por ejemplo, por haber sido estimadas me-
diante algún proceso estadístico (HAMBLETON &
SWAMINATHAN, tem Response Theory: Principles
and Aplications, 1985).
1.2 Estado del Arte
La idea original de los TAI fundamentados en
la TRI data de comienzos de los años setenta
(LORD, 1970), y fue implementada por vez pri-
mera durante los ochenta a partir del sistema
Computerized Adaptive Screening Test de la ar-
mada estadounidense, precursor de lo que a día
de hoy se conoce como CAT-ASVAB (SEGALL &
MORENO, 1997).
En 1990 sólo se administraron unos pocos cien-
tos de TAI, pero esta cifra se incrementó en
1999 hasta superar el millón de aplicaciones,
por lo que el crecimiento en la utilización de
tests adaptativos se sigue estimando exponen-
cial (WAINER, 2000). De hecho, en la actualidad
existen multitud de instituciones y programas
estandarizados de evaluación que incluyen TAI
basados en TRI, como el National Assessment
of Educational Progress o el Educational Testing
Service (ETS), en cuyo marco se desarrollan va-
rios de los más importantes programas de eva-
luación adaptativa (ROJAS TEJADA, 2001), como
el Test Of English as Foreign Language (TOEFL),
que se administra en casi 90 países.
Semejante aumento en la aplicación de TAI se
debe principalmente a las ventajas que ofrecen
sobre los test tradicionales de lápiz y papel ba-
sados en la TCT: entre otras, requieren menos
tiempo de administración, realizan estimaciones
de habilidad más precisas, y dotan al test de ma-
yor seguridad (OLEA & PONSODA, 2003). No es de
extrañar, por tanto, que el catálogo de ámbitos
en los que a día de hoy se utilizan los TAI sea tan
extenso, y que abarque campos como la medi-
ción de aptitudes intelectuales, la selección de
personal y las pruebas de admisión, certicación
o evaluación educativa.
Prácticamente todas las implementaciones de
TAI que se han desarrollado se utilizan a gran
escala, y, en la mayor parte de los casos, con
nes comerciales. De hecho, apenas se conocen
aplicaciones gratuitas para realizar tests adap-
tativos experimentales o a pequeña escala, en-
tre las que cabe mencionar DEMOTAC (RENOM,
1993) y ADTEST (PONSODA, OLEA, & REVUELTA,
1994) como ejemplos representativos.
Muchas veces son los propios psicómetras quie-
nes elaboran herramientas generadoras de TAI
para uso propio, para que su alumnado pueda
crear pequeños test durante las prácticas en cla-
se, o con algún otro n experimental. En estos
casos, pese a ser muy ecientes en los cálculos y
estimaciones de habilidad, los productos nales
suelen ofrecer interfaces de usuario muy pobres.
Por lo general se trata de software desarrollado
en lenguajes de programación imperativa tradi-
cionales (como C, Fortran o Pascal) que limitan
la congurabilidad del programa, los formatos
de entrada y la interfaz de comunicación. En
concreto, no siempre se ofrece la posibilidad de
utilizar el ratón como dispositivo de entrada, las
pantallas se suelen basar íntegramente en inter-
faces de matriz de texto al estilo de MS-DOS, y
el usuario se ve por lo general obligado a utilizar
cheros de texto ASCII con un formato concre-
11
Revista de la Universidad de Guayaquil Nº 114,
Septiembre - Diciembre 2012, ISSN 1019 - 6161
La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.
to (establecido de antemano y que no siempre
resulta intuitivo) para almacenar su banco de
ítems calibrado.
Este documento presenta un “Prototipo Gene-
rador de TAI”, un modelo de fácil manejo que
aportará fundamentalmente mejoras en la inter-
faz de usuario, utilidades de ayuda y el incre-
mento de posibilidades de conguración, no sólo
a nivel de aplicación informática sino también
como generador de Test. Se trata de un prototi-
po muy orientado al usuario, escalable, portable
y de fácil manejo que generará TAI a partir de
un banco de ítems calibrado según el modelo de
tres parámetros. Un sencillo patrón de interfaz
gráca e interactiva dirige las principales opera-
ciones, lo que, junto con una alta congurabili-
dad en las opciones y preferencias del usuario,
facilita su utilización.
2. Metodología.- Caso Práctico
de Usabilidad en un Prototipo
Generador de TAI
Este prototipo basado en las Reglas de Oro de la
Usabilidad (NIELSEN, 1993), deberá desarrollarse
en un lenguaje de programación orientado a ob-
jetos que facilite la construcción de aplicaciones
que interactuarán con cualquier tipo de base de
datos, simplicando la creación de interfaces de
usuario basadas en ventanas, y permitiendo el uso
del ratón sobre elementos grácos dotados de fun-
cionalidad (como botones, listas desplegables o
menús). Además, esta herramienta será portable,
lo que signica que podrá ejecutarse en cualquier
plataforma, con independencia de cuál sea el sis-
tema operativo usado (LOPEZ CUADRADO, 2008).
Se trata de un prototipo muy sencillo de utilizar,
pues lo único que se necesitará es que el evalua-
dor especique la ubicación de la tabla con los
ítems calibrados según el modelo 3PL, para que
el sistema genere de modo sencillo e intuitivo
test adaptativos. Dicha tabla puede estar alma-
cenada en cualquier gestor de bases de datos.
Desde el punto de vista de programación, la he-
rramienta es fácilmente escalable, pues se su
diseño contará con estructuras abiertas y poco
solapadas, de manera que la inclusión en el fu-
turo de nuevas funcionalidades y opciones de
conguración resulte sencilla.
Esta herramienta prototipo, incorporará un no-
vedoso sistema de simulación que automática-
Figura 2 – Pantallas del Prototipo GENERADOR DE TAI
mente calibrará su funcionamiento y ofrecerá
resultados para un posterior análisis. Asimismo,
permitirá la generación de archivos de texto con
históricos de sesión y la presentación de resul-
tados en diversos formatos que pueden comple-
mentarse.
El sistema generador de TAI proporcionará sie-
te módulos o pantallas de presentación. El paso
de una sección a otra podrá darse mediante los
botones establecidos en cada pantalla para ello,
aunque también podrá efectuarse a través de la
barra de menú. Esta barra, común para toda la
aplicación, facilitará la navegación por las dis-
tintas opciones y brindará acceso a las funciona-
lidades más importantes.
A continuación se presentarán en detalle las
características y funcionalidades principales de
cada uno de los siete módulos que compondrán
el sistema Generador de TAI (Figura 2), y que
serán: pantalla de presentación, preferencias,
simulación, conguración del TAI, aplicación o
administración del test, presentación de resul-
tados y ayuda.
2.1. La Pantalla de Presentación
La pantalla de presentación (gura 3) es la vía
de entrada a la aplicación, y permite acceder al
resto de elementos y funcionalidades que ofrece
el Prototipo.
Opcionalmente puede especicarse en ella un
nombre de usuario con el que posteriormente
se personalicen los informes y resultados de los
test.
INVESTIGACIÓN
12
Revista de la Universidad de Guayaquil Nº 114,
Septiembre - Diciembre 2012, ISSN 1019 - 6161
2.2.Conguraciónde
Preferencias
En esta sección (Figura 4) el usuario podrá con-
gurar las distintas opciones que ofrece la he-
rramienta. Con el n de evitar problemas en el
funcionamiento del Generador, la pantalla de
preferencias establecerá un estricto control so-
bre los datos que proporcionará el usuario, en
particular, como se verá enseguida, sobre la ubi-
cación del banco de ítems. Todas las posibilida-
des que podrán establecerse en este punto del
programa son:
El tipo de ítems a utilizar: de momento sólo
se incluye la posibilidad de utilizar pregun-
tas de elección múltiple con tres o cuatro
posibilidades de respuesta, que por otra par-
te son los más utilizados en las pruebas de
evaluación mediante test.
La ubicación de los datos: especicación de
la base de datos en la que se encuentran los
ítems del banco y sus parámetros a, b y c.,
Esta herramienta incorporará un sistema de
comprobación del formato de las tablas, que
mostrará un aviso ante cualquier anomalía,
lo que facilitará la gestión y mantenimiento
de las mismas.
Restricciones de accesibilidad: El Prototi-
po Generador permitirá restringir el acce-
so a las opciones de conguración de los
test, así como al menú de preferencias,
por ejemplo para poder realizar numero-
sas pruebas con un mismo patrón de con-
guración y evitará que los examinados
modiquen los valores establecidos para la
aplicación de los TAI. Para ello, se estable-
cerá una contraseña que se guardará en un
formato cifrado con el n de impedir su
decodicación a partir del chero que la
almacenará.
Establecimiento de los valores por defecto:
se facilitará la conguración de los TAI que
se vayan a realizar directamente desde la
pantalla de presentación. También se permi-
tirá especicar el nombre que el generador
dará a los archivos históricos de resultados.
Opciones de simulación: proporcionará el
acceso al módulo de simulación y a sus op-
ciones de conguración, elementos de los
que se hablará a continuación.
Figura 3 – Pantalla de Presentación del Prototipo
13
Revista de la Universidad de Guayaquil Nº 114,
Septiembre - Diciembre 2012, ISSN 1019 - 6161
La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.
2.3. Módulo de Simulación
Esta pantalla será accesible desde la ventana de
preferencias, servirá para testear el funciona-
miento de la herramienta en términos de preci-
sión o error en las estimaciones. Este subproceso
será el encargado tanto de recoger las opciones
de la propia simulación como de la ejecución de
la misma.
El funcionamiento de las simulaciones es muy
sencillo: el sistema generará automáticamente
una muestra de sujetos cuyas habilidades esta-
blece a priori; después simulará la administra-
ción de un TAI a cada uno de estos sujetos vir-
tuales, por lo que como resultado obtendrá una
estimación para cada una de las habilidades que
ha determinado previamente; por último, una
comparación entre las habilidades establecidas
en el inicio y las estimaciones recién obtenidas
dará al usuario una idea de lo preciso que es el
TAI que se ha aplicado a los sujetos simulados.
Los aspectos que pueden configurarse en lo
concerniente a la simulación serán el tipo de
test a administrar, el método de selección
del primer ítem, el método de selección de
los ítems sucesivos, y el criterio de parada.
Estos parámetros de configuración se descri-
birán con detalle en el siguiente epígrafe,
pues son exactamente los mismos que se han
definido para la administración de los TAI.
Es en lo relativo al formato de los resulta-
dos donde surgen las diferencias, dado que
el módulo de simulación elabora automática-
mente un tipo de informe de salida más es-
pecífico que los que se pueden obtener tras
la aplicación de un TAI. En efecto, una vez fi-
nalizada una sesión de simulación, los resul-
tados de las administraciones efectuadas se
almacenarán, de modo transparente al usua-
rio, en un archivo tabulado de texto plano
que facilitará su futura importación por par-
te de programas de cálculo numérico o aná-
lisis estadístico como el paquete SPSS. Entre
los resultados computados se encuentran la
raíz del error cuadrático medio (RSME), el
sesgo (BIAS) y el error estándar (SE) de las
estimaciones de habilidad obtenidas durante
el proceso de simulación, no sólo para todo
el intervalo de habilidades considerado ([-
4, 4]), sino también para diferentes subin-
Figura 4 – Ventana de preferencias del Prototipo
INVESTIGACIÓN
14
Revista de la Universidad de Guayaquil Nº 114,
Septiembre - Diciembre 2012, ISSN 1019 - 6161
tervalos de tamaño 0.2 (concretamente, [-4,
-3.8), [-3.8, -3.6), etcétera). La Ecuación 3
muestra las fórmulas utilizadas para calcular
los índices de precisión del algoritmo TAI uti-
lizado durante la simulación.
Ecuación 3 – Métricas de Precisión de la Simulación
En todas estas fórmulas, N es el número de
sujetos simulados del intervalo o subintervalo
considerado a los que se les ha aplicado un
TAI, la habilidad (establecida de antemano
por el propio módulo de simulación) del sujeto
k-ésimo, y * la estimación que el TAI ha com-
putado para la habilidad del sujeto k-ésimo.
En el caso ideal en el que el algoritmo de apli-
cación de la prueba resultase absolutamente
preciso, estos dos últimos valores serían idén-
ticos.
La administración simulada de TAI se efec-
tuará utilizando varios cientos de sujetos
con niveles de habilidad distribuidos unifor-
memente a lo largo del intervalo [-4, 4], a
quienes se les aplicarán los test siguiendo la
configuración especificada, y tomando ítems
de un banco que puede ser generado íntegra-
mente por Generador o extraído de una base
de datos externa. Para el primer caso, la pro-
pia herramienta crea un banco de 3000 ítems
cuyos parámetros siguen una distribución uni-
forme (por defecto, U(0.4, 1.4) el de discri-
minación, U(-4, 4) el de dificultad y U(0, 0.2)
el de pseudoazar).
2.4.ConguracióndelTAI
Si bien es posible comenzar la administración de
un TAI directamente desde la pantalla de pre-
sentación (en cuyo caso se utilizarán los valo-
res que estén establecidos por defecto), lo más
habitual será hacerlo después de haber visitado
la pantalla de conguración del TAI (Figura 5).
Este módulo, en el que se han invertido gran-
des esfuerzos para favorecer la escalabilidad
de la aplicación (esto es, la inclusión futura de
nuevas funcionalidades), permite establecer los
métodos y criterios a seguir durante la posterior
administración de los TAI. Al igual que ocurre
en el módulo de preferencias (y en general, en
cualquier pantalla en la que el usuario ha de in-
troducir algún dato), a la hora de capturar esta
información el prototipo realizará un control ex-
haustivo de los datos de entrada.
El objetivo será evitar la inserción de valores no
deseados o inválidos, por lo que, en el supuesto
en que se diere uno de estos casos, el sistema
mostrará por pantalla un aviso individualizado
y automáticamente restaurará el valor erróneo
a uno aceptable (por ejemplo, al asignado por
defecto).
En el módulo de conguración del TAI podrá
especicarse:
El tipo de prueba a desarrollar: en este
momento se ofrecerán tres tipos de test,
a saber, TAI fácil (en el que los ítems que
se presentan tienen menor dicultad que
la óptima con el n de reducir la ansiedad
del examinado), TAI clásico (en el que se
sigue estrictamente el método de máxima
información) y TAI difícil (en el que los
ítems son ligeramente más difíciles de lo
esperable).
El método de selección del primer ítem: con
el propósito de que el algoritmo de apli-
cación del TAI disponga de una estimación
inicial de la habilidad del examinado, el
usuario deberá establecer un valor numérico
exacto, o en su defecto especicar un ran-
go de valores para que sea el sistema quien
elija aleatoriamente la habilidad de partida
dentro de dicho intervalo.
El método de selección de los siguientes
ítems: se trata del criterio de máxima infor-
mación, que puede combinarse con uno de
los métodos de control de sobrexposición de
los ítems que se han implementado, y que
son el 5-4-3-2-1, el randomesque y el pro-
gresivo (OLEA & PONSODA, 2003).
15
Revista de la Universidad de Guayaquil Nº 114,
Septiembre - Diciembre 2012, ISSN 1019 - 6161
La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.
El criterio de parada: puede especicarse si el
algoritmo de aplicación del TAI debe nalizar
tras la administración de un número especíco
de ítems (criterio de longitud ja), cuando se ha
alcanzado una precisión determinada (criterio
de longitud variable), o como resultado de una
combinación de ambos (criterio mixto). De modo
complementario, es posible denir un tiempo
máximo para la conclusión de la prueba.
Existirán cinco formas distintas de mostrar
los resultados, ninguna de ellas excluyen-
te del resto. Se trata de la habilidad pura
( estimada), una transformación a la escala
[0,10], un gráco de evolución, un histórico
y el porcentaje de aciertos. Aunque es en la
pantalla de conguración donde se especi-
ca cuál o cuáles de los diferentes formatos
se desea para visualizar los resultados, tras
la nalización de cada prueba se le da al
usuario nuevamente la posibilidad de elegir
entre los cinco modos de presentación.
2.5. Administración del TAI
Tanto si se ha establecido una conguración
especíca como si se van a utilizar los valores
por defecto, la aplicación del TAI tiene lugar en
una serie de pantallas en las que, a partir de la
conguración determinada para el test actual,
se mostrarán los ítems apropiados para la eva-
luación y se recogerán las respuestas del exami-
nado LOPEZ CUADRADO, J., & ARMENDARIZ, A.
J. (2006).
Mientras que el usuario se limitará a selec-
cionar la respuesta que considera correcta
para cada uno de los ítems que el Prototipo
Generador le presentará, el sistema proce-
sará las operaciones necesarias para la eje-
cución del algoritmo de administración del
TAI. Las tareas concretas que realizará este
módulo son las que se enumeran a continua-
ción:
Figura 5 - Pantalla de Conguración del TAI
INVESTIGACIÓN
16
Revista de la Universidad de Guayaquil Nº 114,
Septiembre - Diciembre 2012, ISSN 1019 - 6161
Seleccionar el ítem más adecuado: aten-
diendo a los criterios de selección de ítems
establecidos en la conguración del test, se
seleccionará del banco de ítems el siguiente
que se va a mostrar. Esta tarea, que depen-
derá de la estimación actual de la habilidad
del examinado, de los ítems que ya han sido
administrados y de si se requiere o no la utili-
zación de métodos de control de sobrexposi-
ción, se anticipará a la respuesta del usuario,
ya que efectuará los cálculos durante los se-
gundos que tardará el examinado en respon-
der a cada ítem. De esta manera se consegui-
que el proceso no afecte a la interacción
con el sistema (en concreto, ralentizando la
presentación de los ítems), y mucho antes de
que el evaluando responda un ítem el Proto-
tipo Generador ya tendrá decidido cuál va a
ser el siguiente que le presentará si acierta, y
cuál si elige una respuesta incorrecta.
Recalcular la habilidad estimada del sujeto:
dado que la selección del siguiente ítem a
administrar requiere conocer de antemano la
estimación de habilidad actual del sujeto, esta
tarea, que sólo depende de las características
de los ítems administrados hasta el momento
y de sus respuestas, se incluye en la anterior.
Por lo tanto, el sistema podrá conocer con an-
telación no sólo qué ítem deberá administrar
a continuación tanto si el sujeto acierta el ac-
tual como si no, sino que además puede dis-
poner del nuevo valor de habilidad estimado
para cada caso. Para obtenerlo este Sistema
Generador utilizará el método de máxima ve-
rosimilitud con la optimización propuesta por
(HERRANDO, 1989), evitando así divergencias
en el proceso de cálculo al suponer de ante-
mano que el sujeto ha respondido correcta-
mente un ítem considerablemente fácil y ha
fallado uno de dicultad extrema.
Comprobar los criterios de parada: antes de
realizar los cálculos precisos para la selección
de ítems y actualización de la habilidad esti-
mada para el examinado, el sistema deberá
comprobar si es necesario o no administrar un
nuevo ítem, o lo que es lo mismo, detectar si
hay que dar por concluido el TAI. Esta tarea
se intercalará en el proceso de selección de
ítems, mediante la inclusión de rutinas que
permiten controlar si se cumple alguno de
los criterios de nalización establecidos en la
fase de conguración. Si se identica el nal
del TAI, se invocará al módulo de presenta-
ción de resultados (del que se hablará en el
siguiente epígrafe) para que muestre al usua-
rio su evolución y/ o puntuación.
Informar al usuario: además del enuncia-
do y las posibles respuestas de los ítems, y
dependiendo de qué criterios de parada se
hayan habilitado en la conguración de la
prueba, el módulo de aplicación del TAI tam-
bién deberá presentar al examinado infor-
mación relativa al estado de cumplimiento
de los criterios de nalización.
Concretamente, el Prototipo Generador mostra-
rá, en la parte superior derecha de la pantalla,
el número de ítems respondidos sobre el total (si
el TAI es de longitud ja), un mensaje avisando
de que el test está a punto de nalizar (cuando
el error de la estimación actual de habilidad está
próximo al máximo permitido en los TAI de lon-
gitud variable) y, en la esquina inferior derecha,
los minutos restantes para la nalización del test
(en el caso de que se haya establecido un tiempo
límite). Estos mensajes pueden ir acompañados
de un color: verde si aún quedan bastantes ítems
por administrar; amarillo si presumiblemente
faltan unos pocos; y rojo si el nal de la prueba
es inminente.
3. Presentación de Resultados
Una vez nalizada la administración del TAI por
el cumplimiento de alguna de las condiciones de
parada, se da paso a la interfaz de presentación
de resultados de la prueba. Antes de proceder a
la visualización de los mismos se da la oportuni-
dad al examinado de modicar los formatos de
presentación de resultados que haya selecciona-
dos en la conguración por defecto de los test,
y que son:
Habilidad pura: se trata de la estimación -
nal obtenida por el sistema, y que vendrá
representada como un número real dentro
de la escala [-4, 4].
Transformación al intervalo [0,10]: consiste
en obtener un escalado de la habilidad pura
con el n de ofrecer una visión más familiar
del resultado del TAI.
Gráco de evolución: este formato de pre-
sentación utilizará un modelo matemático a
partir del que se obtiene un diagrama (Figu-
ra 6) en el que se mostrará la evolución del
valor estimado de la habilidad del examina-
do a lo largo de la administración del test.
Porcentaje de aciertos: también se ofrece
la posibilidad de visualizar este índice, pese
a no ser el más apropiado para evaluar la
habilidad en los TAI, ya que, independien-
temente de la destreza de los examinados,
siempre rondará el 50-60%.
17
Revista de la Universidad de Guayaquil Nº 114,
Septiembre - Diciembre 2012, ISSN 1019 - 6161
La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.
Históricos de evolución: Esta herramienta
permitirá elaborar dos formatos de docu-
mento (tabulado y comentado) para recoger
los ítems administrados durante la aplica-
ción del TAI, así como las sucesivas (re)esti-
maciones de habilidad y los errores de me-
dida asociados. El histórico tabulado (Figura
7) utiliza un algoritmo que encasilla toda la
información ajustando la longitud del texto
a los diferentes anchos de columna, mien-
tras que el histórico comentado (Figura 8)
reproduce la administración del TAI en una
secuencia de acciones.
Ambos tipos de histórico de aplicación del test
pueden, además de visualizarse por pantalla, ser
almacenados en disco en un archivo con formato
de texto plano, cuyo nombre (*.txt) será depen-
diente de lo que se haya especicado en las pre-
ferencias del Prototipo Generador.
Figura 6 – Gráco de Evolución de la Habilidad
Figura 7 – Histórico Tabulado
INVESTIGACIÓN
18
Revista de la Universidad de Guayaquil Nº 114,
Septiembre - Diciembre 2012, ISSN 1019 - 6161
3.1 Sistema de Ayuda
La aplicación estará dotada de un sistema de
ayuda que tiene como nalidad solventar las du-
das que el usuario pueda tener en algún punto
de la interacción con el sistema.
Por una parte, la ayuda podrá mostrarse de
modo contextual a través de una serie de boto-
nes que hay habilitados en determinados puntos
de la pantalla para tal efecto. Cuando el usuario
pulsa uno de ellos, una ventana le mostrará la
información concreta acerca del tema relacio-
nado con el elemento junto al que se encuentra
dicho botón (Figura 9). La ayuda contextual se
habrá denido básicamente para cada una de
las opciones de conguración, para los aspectos
técnicos relacionados con la naturaleza del TAI,
y para los formatos de presentación de resulta-
dos que ofrece el sistema.
Figura 8 – Histórico Comentado
Figura 9 – Ayuda Contextual del TAI
19
Revista de la Universidad de Guayaquil Nº 114,
Septiembre - Diciembre 2012, ISSN 1019 - 6161
La aplicación de factores de usabilidad en el diseño de tests adaptativos informatizados (tai): un caso práctico.
Asimismo, también se incluirá un módulo de
ayuda temática (Figura 10), habilitada en todo
momento durante la interacción con el sistema,
que se encontrará accesible en la barra de menú
de la aplicación.
Este componente ofrecerá al usuario la po-
sibilidad de navegar por los contenidos de
ayuda, que se encontrarán organizados por
temas según las diferentes funcionalidades
del Generador (preferencias, configuración,
simulación, test y resultados). Este tipo de
ayuda estará dirigida al usuario inexperto,
con lo que se espera posibilitar el uso de
esta herramienta por un amplio colectivo de
usuarios.
Figura 10 – Sistema de Ayuda Temática
Conclusiones
Este artículo ha presentado un Prototipo, un ge-
nerador de test adaptativos informatizados para
utilizarlos a pequeña escala o en entornos expe-
rimentales por un usuario, si bien pueden existir
varias instancias del programa, cada una de ellas
operada por una persona.
Este prototipo generador de Test, será una herra-
mienta muy amigable, gráca, de fácil e intuitivo
manejo, portable a cualquier plataforma y alta-
mente congurable, y que como novedad incluye un
módulo de simulación que permite al usuario eva-
luar los errores de medida producidos tras la apli-
cación con diferentes conguraciones de los test.
Siendo una herramienta cuyo diseño se centrará
en el usuario, se tributará a la reducción de de-
sarrollos innecesarios (por la detección de erro-
res en forma temprana), a la mayor calidad del
producto entregado siendo más eciente.
Es un sistema que será especialmente diseñado
para facilitar la inclusión de nuevas funcionali-
dades y opciones en el futuro.
En primer lugar, se prevé ampliar el catálogo
de formatos de ítems, para que los test no
se limiten a utilizar preguntas de elección
múltiple de tres o cuatro posibilidades de
respuesta.
Por otra parte, se considera la posibilidad de
guardar automáticamente información del
usuario entre sesiones.
Al mismo tiempo, está prevista la inclu-
sión de otros tipos de tests adaptativos,
como los Test Autoadaptados Informati-
zados (ROCKLIN, O’DONNELL, & HOLST,
1995), en los que se le ofrece al exami-
nado la oportunidad de decidir si el si-
guiente ítem a administrar será más fácil
o más difícil.
Otra de las líneas de desarrollo futuras
es la de añadir más métodos de control
de la sobrexposición de los ítems, en
particular el método progresivo genera-
lizado (EGGEN, 2001), y alguna de sus
variantes.
Por último, también se ha contempla la po-
sibilidad de orientar la herramienta hacia un
uso basado en web.
INVESTIGACIÓN
20
Revista de la Universidad de Guayaquil Nº 114,
Septiembre - Diciembre 2012, ISSN 1019 - 6161
Bibliografía
1. BIRNBAUM, A. (1968). Some latent trait models and their use in inferring an examinees ability.
Addison-Wesley.
2. EGGEN, T. H. (2001). Overexposure and underexposure of items in computerized testing. Measu-
rement and Research Reports, 1.
3. HAMBLETON, R. K., & SWAMINATHAN, H. (1985). tem Response Theory: Principles and Aplications.
Boston: Kluwer.
4. HAMBLETON, R. K., SWAMINATHAN, H., & ROGERS, H. J. (1991). Fundamentals of Item Response
Theory. California, USA.: Sage Publications Inc.
5. HERRANDO, S. (1989). Tests adaptativos computerizados: una sencilla solución al problema de la
estimación con puntuaciones perfectas y cero. II Conferencia Española de Biometría. Biometric
Society, Segovia. Segovia.
6. LOPEZ CUADRADO, J. (2008). Evaluación mediante test adaptativos informatizados en el contexto
de un sistema adaptativo para el aprendizaje de la lengua. Lenguajes y Sistemas Informáticos
(pág. 401). San Sebastián: Univ. País Vasco.
7. LOPEZ CUADRADO, J., & ARMENDARIZ, A. J. (2006). Obtención de estimaciones de los parámetros
durante la calibración de un banco de ítems. University of the Basque Country (UPV/EHU/LSI/TR
13-2006), 271.
8. LORD, F. (1952). A Theory of Test Scores. (Psychometric Monograph No. 7). Richmond, VA:.
9. LORD, F. (1980). Applications of item response theory to practical testing problems. Erlbaum As-
sociates.
10. LORD, F., & NOVICK, M. (1968). Statistical theories of mental test scores. Addison-Wesley Pub. Co.
11. MUÑIZ, J. (1997). Introducción a la Teoría de Respuesta a Los ítems.
12. NIELSEN, J. (1993). Usability Engineering. AP Professional.
13. NOVICK, M. R. (1966). The axioms and principal results of classical test theory. Journal of Mathe-
matical Psychology Volume 3, Issue 1, February 1966, Pages 1-18.
14. OLEA, J., & PONSODA, V. (2003). Tests adaptativos informatizados. Madrid: UNED Ediciones.
15. PONSODA, V., OLEA, J., & REVUELTA, J. (1994). ADTEST: A COMPUTER-ADAPTIVE TEST BASED ON
THE MAXIMUM INFORMATION PRINCIPLE. Educational and Psychological Measurement, 680-686.
16. RASCH, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen,
Danish Institute for Educational Research: The University of Chicago Press.
17. RENOM, J. (1993). Tests Adaptativos Computarizados: Fundamentos y Aplicaciones . Barcelona:
PPU.
18. ROCKLIN, T. R., O’DONNELL, & HOLST, P. M. (1995). Effects and underlying mechanisms of self-
adapted testing. Journal of Educational Psychology, 103-116.
19. ROJAS TEJADA, A. (2001). Pasado, presente y futuro de los Tests Adaptativos Informatizados. Psi-
cothema, 685-690.
20. SEGALL, D. O., & MORENO, K. E. (1997). Computerized Adaptive Testing: From inquiry to opera-
tion. Washington D.C.: American Psychological Association.
21. SPEARMAN, C. (1904). “GENERAL INTELLIGENCE,” OBJECTIVELY DETERMINED AND MEASURED.
American Journal of Psychology 15, 201-293.
22. VAN DER LINDEN, W. J., & GLAS, C. W. (2010). ELEMENTS OF ADAPTATIVE TESTING. Londres: Sprin-
ger New York Dordrecht Heiderberg London.
23. WAINER, H., & DORANS, N. (2000). Computerized Adaptive Testing: A Primer. Taylor & Francis
Group.
Ing. Milton Rafael Maridueña Arroyave.
Doctorante de la Universidad Cienfuegos, Doctorante Universidad de Ciencias Informáticas, Cuba.
Máster en Docencia Universitaria e Investigación Educativa por la Universidad de Guayaquil.
Investigador y consultor informático por la Universidad de Guayaquil en el proyecto de “Autoeva-
luación y Acreditación de las instituciones de Educación Superior.
Email: milton.mariduenaa@fcmf.ug.edu.ec
Artículo recibido: 02/10/2012
Fecha aprobado: 19/11/2012