Abstract:
En la actualidad la Data Science viene siendo muy utilizada y con una tendencia de crecimiento en la extracción de conocimiento e información de los volúmenes de datos, generando diversas posibilidades para la construcción de aplicaciones en diferentes sectores; un área vital en nuestro país es el sector educativo, de este modo es muy importante adelantarse a los hechos venideros como por ejemplo, que en una carrera universitaria la mitad de los estudiantes reprueben determinado curso y dicha información pueda ser usada para la toma de decisiones por la alta dirección de la organización.
En la Facultad de Ingeniería de Sistemas existía un bajo rendimiento académico, cuya realidad se reflejaba en la desaprobación de los estudiantes en las diferentes materias de estudio, y esta situación impacta negativamente en muchos ámbitos como la empleabilidad, la obtención de becas de estudio, etc.
De esta manera, el presente trabajo de investigación propuso predecir el rendimiento académico de los estudiantes de la Facultad de Ingeniería de Sistemas de la Universidad Nacional del Centro del Perú, el cual se desarrolló mediante los fundamentos de la Data Science y el tratamiento de los factores socioeconómicos y educativos de dichos estudiantes; para tal objetivo se propuso aplicar técnicas de limpieza de datos, exploración y aplicación de modelos de Machine Learning o Aprendizaje Automático, exactamente la utilización de los modelos de aprendizaje supervisado como la Regresión Logística y el Random Forest. Para este trabajo de predicción se dio a conocer el lenguaje de programación Python y la librería Scikit-Learn apoyados por las librerías de tratamiento de datos, Pandas y Numpy. Luego de esto fue necesario mostrar el comportamiento de los datos y los resultados del análisis, por lo cual se vio por conveniente el uso de representaciones gráficas estadísticas, para tal efecto se menciona el uso de la librería Matplotlib.
Se concluye que el hacer uso de la teoría de la Data Science mediante el modelo aplicativo planteado, se logró el cometido que es predecir el rendimiento académico de los estudiantes de la Facultad de Ingeniería de Sistemas de la Universidad Nacional del Centro del Perú.