Initial Progress of Identification of the Appropriate NLP Technique for Content Evaluation in Textual Conversations of People Infected by Sars-Cov-2

Authors

DOI:

https://doi.org/10.53591/easi.v2i3.2488

Keywords:

Python, Google Collab, NLP, LSTM

Abstract

When Covid-19 became a pandemic on March 2020, an urgent need arose for reliable info and advice, so Virtual Assistants were created to help teach the public how to avoid the Alpha variant. But when new variants like Beta, Delta, and Omicron appeared with different symptoms, they caused new waves of infections and deaths. To tackle this, a Natural Language Processing prototype was created to analyze experiences of 4422 people, who had been infected in Ecuador, and to detect which symptoms were most common in their conversations. This study prompted the creation of the NLP prototype, using Python language, the Google Collab platform, two combinations of NLP techniques were considered, measuring results through quality metrics, accuracy, Recall, F1, finding that the most appropriate combination of techniques of the two tested the one that gave the highest effectiveness for a Multi-Label classifier model, including Stop Word, Tokenization, Stemming with LSTM (Long Short-Term Memory) classifier, as a first advance of the study.

Author Biographies

Ivan L. Acosta-Guzmán, Universidad de Guayaquil. Guayaquil, Ecuador

Ingeniero en Computación - Escuela Superior Politécnica del Litoral ESPOL, Guayaquil- Ecuador. Magíster en Sistemas de Información Gerencial - ESPOL, Guayaquil- Ecuador. Magíster en Administración de Empresas – Universidad de Especialidades Espíritu Santo UEES, Docente – Investigador en temas educativos y tecnológicos, Guayaquil- Ecuador.. Se ha desempeñado como Gestor de Proyectos de Vinculación - Universidad de Guayaquil, Gestor de Acreditación de Carrera - Universidad Politécnica Salesiana UPS, Guayaquil- Ecuador. encargado de proyectos de Auditoria Informática, Inteligencia de Negocios para Conecel, y Analista de Sistemas en empresas Ecuaquimica, TVCable. Empresa Eléctrica de Emelríos, Babahoyo – Ecuador. Certificado PLSQL de Oracle. Instructor Cisco CCNA.

Eleanor A. Varela-Tapia, Universidad de Guayaquil. Guayaquil, Ecuador

Ingeniera en Computación (ESPOL), Magister en Sistemas de Información Gerencial (ESPOL), Guayaquil, Ecuador. Magister en Docencia y Gerencia en Educación Superior, Universidad de Guayaquil-Ecuador. Diploma Superior en Diseño Curricular por Competencias, Universidad de Guayaquil-Ecuador. Investiga temas sobre: TIC para la Educación Inclusiva, Aplicaciones móviles para el aprendizaje en el Nivel Superior, Tecnologías para el Aprendizaje Universitario, Tableros de Mando y Sistemas de Toma de Decisiones, Software de Reconocimiento de Voz. Ha trabajado como Analista de Sistemas en la Empresa Eléctrica de Emelríos, Babahoyo – Ecuador, Gestor en el proceso de Acreditación de la Carrera de Ingeniería en Sistemas en la Universidad Politécnica Salesiana UPS, Guayaquil - Ecuador. Ha sido profesora en la Universidad Agraria del Ecuador, Guayaquil – Ecuador, Universidad Politécnica Salesiana, Guayaquil – Ecuador. Actualmente es profesora Titular de la Universidad de Guayaquil-Ecuador en la Carrera de Ingeniería en Sistemas Computacionales y la Carrera de Software.

Alexandra E. Piza-Guale, Universidad de Guayaquil. Guayaquil, Ecuador

Ingeniera en Teleinformática de la Facultad de Ingeniería Industrial de la Universidad de Guayaquil-Ecuador. Participante de equipo de Investigación del Proyecto FCI-010 2021 con título "Inteligencia Artificial Conversacional al Servicio del Bien Social en un Sector Vulnerable de la Coordinación Zonal 8 - Guayaquil-Ecuador, frente Personas Contagiadas de COVID-19". Tutor de herramientas ofimáticas en el Proyecto de Vinculación con la Comunidad entre la GADs Laurel, Tarifa Y Vernaza y la Universidad.

Nory X. Acosta-Guzmán, Universidad Estatal de Milagro. Milagro, Ecuador

Licenciada en Ciencias de la Educación mención Informática y Programación, Registro Senescyt 1024-06-694408. Universidad Estatal de Milagro -Ecuador (2006), Profesor de Segunda Enseñanza Especialización Informática y Programación. Registro Senecyt 1024-04-545262. Universidad Estatal de Milagro - Ecuador (2004), Tecnólogo Pedagógico en Informática y Programación. Registro Senescyt 1024-03-426744. Universidad Estatal de Milagro - Ecuador (2003). Investigadora en temas sobre TIC para la Educación Inclusiva.

Christopher I. Acosta Varela, Escuela Superior Politécnica del Litoral. Guayaquil, Ecuador

Estudiante de Ingeniería en Computación (Escuela Superior Politécnica del Litoral
ESPOL, 2023). Ayudante de Docencia en Escuela Superior Politécnica del Litoral
(2022). Ayudante de Cátedra en Academia Tesla. (2021). Guayaquil, Ecuador.
Certificate of English Language Intermediate Level, Bénédict International Language
Schools. Certificado del curso Python: Aprender a programar. (may-2021).
Certificación Profesional - Introducción a la programación en C. Universidad
Autónoma de Madrid (abr-2021). Portaestandarte de la Bandera de Guayaquil
(COPOL, 2020-2021). Certificación de Primer Puesto del 3° Año de Bachillerato.
COPOL (abr- 2021).

References

Attal, M. (Diciembre de 2021). Mapeo de incrustaciones de Word con Word2vec. https://datascientest.com/es/nlp-natural-language-processing-introduccion

Bonilla, G. J. (Mayo de 2020). Las dos caras de la educación en el Covid-19. Cuestiones de Administración, 9(2). https://doi.org/10.33210/ca.v9i2.294 Brownlee, J. (Octubre de 2017). Machine Learning Mastery. https://machinelearningmastery.com/gentle-introduction-bag-words-model/

Campos, C. (Febrero de 2020). Fases del proceso de investigación científica y elementos de la investigación cuantitativa y cualitativa. https://www.scribd.com/document/447304281/Actividad-N-02-Fases-del-proyecto-de-Investigacion-Cientifica-inv-cualitativa-y-cuantitativa

Chen, P. H. (Septiembre de 2019). Essential Elements of Natural Language Processing: What the Radiologist Should Know. Academic Radiology. https://doi.org/10.1016/j.acra.2019.08.010 Coronel y Pérez (Abril de 2020). Covid-19 y efectos. https://www.coronelyperez.com/2020/04/23/la-crisis-ocasionada-por-el-covid-19-y-sus-implicaciones-legales-en-el-ecuador/

Haleem, RV. (Agosto de 2020). Artificial Intelligence (AI) applications for COVID-19 pandemic. Diabetes & Metabolic Syndrome: Clinical Research & Reviews, 14(4), 337-339. https://doi.org/10.1016/j.dsx.2020.04.012

Instituto Nacional de Estadística y Censos (INEC). (2023). Encuesta de salud y nutrición (ENSANUT). Recuperado de https://www.ecuadorencifras.gob.ec/encuesta-de-salud-y-nutricion-ensanut/ Johnson, D. (Enero de 2022). What is Natural Language Processing?. https://www.guru99.com/nlp-tutorial.html

Kohlbacher, F. (2006). The use of qualitative content analysis in case study research. Forum Qualitative Sozialforschung / Forum: Qualitative Social Research, 7(1), Art. 21. Recuperado de http://www.qualitative-research.net/index.php/fqs/article/view/75/153

Labarthe, S. (2020). ¿Qué pasa en Ecuador?. https://www.nuso.org/articulo/que-pasa-en-ecuador/

LIMA, A. (2021). PNL CÓMO FUNCIONA LA TOKENIZACIÓN DE TEXTO, ORACIONES Y PALABRAS. https://es.acervolima.com/pnl-como-funciona-la-tokenizacion-de-texto-oraciones-y-palabras/

León, E. (Diciembre de 2020). Procesamiento del lenguaje natural (PLN) con Python. Baoss Analytics Everywhere. https://www.baoss.es/procesamiento-del-lenguaje-natural-pln-con-python López, I. P. (2018). Análisis comparativo de algoritmos de Deep Learning para la clasificación de textos. https://e-archivo.uc3m.es/bitstream/handle/10016/29209/TFG_Ivan_Lopez_Pacheco_2018.pdf?sequence=1 Microsoft. (2021). Tecnología de procesamiento de lenguaje natural. https://docs.microsoft.com/es-es/azure/architecture/data-guide/technology-choices/natural-language-processing

Ministerio De Salud Pública. (Marzo de 2020). Informe De Situación Covid-19 Ecuador. https://www.gestionderiesgos.gob.ec/wp-content/uploads/2020/03/informe-de-situaci%c3%b3n-no008-casos-coronavirus-ecuador-16032020-20h00.pdf

OMS. (Marzo de 2020). La OMS caracteriza a COVID-19 como una pandemia. Recuperado de https://www.paho.org/es/noticias/11-3-2020-oms-caracteriza-covid-19-como-pandemia

Pedregosa, F., Varoquaux, G. & Gramfort, et al. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12, 2825—2830. https://scikit-learn.org/stable/modules/multiclass.html

Pham, B. (Febrero de 2020). Parts of Speech Tagging: Rule-Based. Computer and Information Sciences Undergraduate. https://digitalcommons.harrisburgu.edu/cgi/viewcontent.cgi?article=1001&context=cisc_student-coursework

QuestionPro. (Noviembre de 2019). ¿Qué es la investigación cualitativa?. https://www.questionpro.com/es/investigacion-cualitativa.html

Sitiobigdata. (Agosto de 2018). Mejora de incrustaciones de Word con Word2Vec. https://sitiobigdata.com/2018/08/24/mapeo-de-incrustaciones-de-word-con-word2vec/# Solis, L. D. (Febrero de 2020). La entrevista en la investigación cualitativa. https://investigaliacr.com/investigacion/la-entrevista-en-la-investigacion-cualitativa/#:~:text=La%20entrevista%20en%20la%20investigaci%C3%B3n%20cualitativa%20es%20una%20t%C3%A9cnica%20para,a%20prop%C3%B3sitos%20concretos%20del%20estudio.&text=La%20entrev

Downloads

Published

2023-12-27

How to Cite

Acosta-Guzmán, I. L., Varela-Tapia, E. A., Piza-Guale, A. E., Acosta-Guzmán, N. X., & Acosta Varela, C. I. (2023). Initial Progress of Identification of the Appropriate NLP Technique for Content Evaluation in Textual Conversations of People Infected by Sars-Cov-2. EASI: Engineering and Applied Sciences in Industry, 2(3), 5–18. https://doi.org/10.53591/easi.v2i3.2488