dpuenteramirez
diff --git a/‎docs/bibliografia.bib‎
Lines changed: 11 additions & 0 deletions b/‎docs/bibliografia.bib‎
Lines changed: 11 additions & 0 deletions
diff --git a/‎docs/memoria.pdf‎
4.24 KB b/‎docs/memoria.pdf‎
4.24 KB
diff --git a/‎docs/memoria.tex‎
Lines changed: 14 additions & 8 deletions b/‎docs/memoria.tex‎
Lines changed: 14 additions & 8 deletions
diff --git a/‎docs/tex/1_Introduccion.tex‎
Lines changed: 6 additions & 4 deletions b/‎docs/tex/1_Introduccion.tex‎
Lines changed: 6 additions & 4 deletions
diff --git a/‎docs/tex/2_Objetivos_del_proyecto.tex‎
Lines changed: 3 additions & 2 deletions b/‎docs/tex/2_Objetivos_del_proyecto.tex‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎docs/tex/3_Conceptos_teoricos.tex‎
Lines changed: 4 additions & 5 deletions b/‎docs/tex/3_Conceptos_teoricos.tex‎
Lines changed: 4 additions & 5 deletions
@@ -554,3 +554,14 @@ @article{de2021reliable
   year={2021},
   publisher={Elsevier}
 }
+
+@article{tanha2017semi,
+  title={Semi-supervised self-training for decision tree classifiers},
+  author={Tanha, Jafar and Van Someren, Maarten and Afsarmanesh, Hamideh},
+  journal={International Journal of Machine Learning and Cybernetics},
+  volume={8},
+  number={1},
+  pages={355--370},
+  year={2017},
+  publisher={Springer}
+}
@@ -458,33 +458,39 @@
 % Abstract en castellano
 \renewcommand*\abstractname{Resumen}
 \begin{abstract}
-Aquellos algoritmos más comúnmente utilizados en la literatura no acostumbran a encontrarse disponibles a través de bibliotecas existentes que los recojan, induciendo la necesidad de que el científico de datos que los necesite, deba codificárselos y validarlos antes de poder hacer uso de los mismos para el fin inicial.
+Aquellos algoritmos más comúnmente utilizados en la literatura no acostumbran a encontrarse disponibles a través de bibliotecas existentes que los recojan, induciendo la necesidad de que el científico de datos que los necesite, deba implementarlos y validarlos antes de poder hacer uso de los mismos.
 
-El primero objetivo del proyecto es la creación de dos bibliotecas, las cuales recojan los algoritmos más comunes de selección de instancias, y de aprendizaje semi-supervisado. Quedando disponibles para su uso posterior en cualquier sistema compatible.
+El primer objetivo del proyecto es la creación de dos bibliotecas, las cuales recojan los algoritmos más comunes de selección de instancias, y de aprendizaje semi-supervisado. Las bibliotecas se validarán y se comprobará su integridad, además se realizará una experimentación completa con el fin de validar la hipótesis:\\
+\emph{<<¿Se obtiene una selección más segura en aprendizaje semi-supervisado gracias a la aplicación de métodos de selección de instancias?>>}.\\
+Las bibliotecas quedarán a disposición de la comunidad \textit{Open source} tras la finalización del proyecto.
 
-El segundo objetivo es la integración de sendas bibliotecas en \texttt{UBUMLaaS}, su modernización y creación del nuevo rol de administrador del sistema, con todas las opciones y vistas que con ello conlleva.
+El segundo objetivo es la integración de sendas bibliotecas en \texttt{UBUMLaaS}, aplicación de aprendizaje máquina en la nube, perteneciente al grupo de investigación ADMIRABLE de la Universidad de Burgos. Además de, su modernización y creación del nuevo rol de administrador del sistema, con todas las opciones y vistas que con ello conlleva; finalmente se añadirá una vista de monitorización del sistema en tiempo real y visualización de estadísticas.
 \end{abstract}
 
 \renewcommand*\abstractname{Descriptores}
 \begin{abstract}
-Selección de instancias, aprendizaje semi-supervisado, aprendizaje semi-supervisado seguro, MLaaS
+selección de instancias, aprendizaje semi-supervisado, aprendizaje semi-supervisado seguro, aprendizaje máquina como servicio
 \end{abstract}
 
 \clearpage
 
 % Abstract en inglés
 \renewcommand*\abstractname{Abstract}
 \begin{abstract}
-Those algorithms most commonly used in the literature are not usually available through existing libraries that collect them, inducing the need for the data scientist who needs them to code and validate them before being able to use them for the initial purpose.
+Those algorithms most commonly used in the literature are not usually available through existing libraries that collect them, inducing the need for the data scientist who needs them to implement and validate them before being able to make use of them.
 
-The first objective of the project is the creation of two libraries, which collect the most common algorithms for instance selection and semi-supervised learning. They will be available for later use in any compatible system.
+The first objective of the project is the creation of two libraries, which collect the most common algorithms for instance selection and semi-supervised learning. The libraries will be validated and checked for completeness, and a complete experimentation will be carried out in order to validate the hypothesis:\\
+\emph{Is safer selection obtained in semi-supervised learning as a result of the application of instance selection methods?}.\\
+The libraries will be made available to the \textit{Open source} community after the completion of the project.
 
-The second objective is the integration of both libraries in \texttt{UBUMLaaS}, its modernization and the creation of the new role of system administrator, with all the options and views that this entails.
+The second objective is the integration of both libraries in \texttt{UBUMLaaS}, a machine learning application in the cloud, belonging to the ADMIRABLE research group of the University of Burgos. In addition to its modernization and creation of the new role of system administrator, with all the options and views that this entails; finally a real-time system monitoring view and statistics visualization will be added.
+
+Translated with www.DeepL.com/Translator (free version)
 \end{abstract}
 
 \renewcommand*\abstractname{Keywords}
 \begin{abstract}
-Instance selection, semi-supervised learning, safe semi-supervised learning, MLaaS
+instance selection, semi-supervised learning, safe semi-supervised learning, machine learning as a service
 \end{abstract}
 
 \clearpage
 
@@ -1,14 +1,16 @@
 \capitulo{1}{Introducción}
 
-Actualmente no se dispone de ninguna librería en Python que facilite a los científicos de datos aplicar técnicas de Selección de Instancias sobre grandes conjuntos de datos, siendo esta una carencia detectada y teniendo en mente el auge que posee el lenguaje de programación, se propone la creación de un librería que recoja aquellos algoritmos más comúnmente utilizados en la literatura. 
+Actualmente no se dispone de ninguna biblioteca en Python que facilite a los científicos de datos aplicar técnicas de Selección de Instancias sobre grandes conjuntos de datos, siendo esta una carencia detectada y teniendo en mente el auge que posee el lenguaje de programación, se propone la creación de un biblioteca que recoja aquellos algoritmos más comúnmente utilizados en la literatura. 
 
-De igual manera ocurre con los algoritmos de aprendizaje semi-supervisado, la no disponibilidad de estos en un momento en el que es un campo que está siendo investigado por gran parte de la comunidad científica enfocada en \textit{Machine Learning}, retrasa y dificulta los procesos y plazos.
+Lo mismo sucede con los algoritmos de aprendizaje semi-supervisado, la no disponibilidad de estos en un momento en el que es un campo que está siendo investigado por gran parte de la comunidad científica enfocada en \textit{Machine Learning}, retrasa y dificulta la investigación y la reproductibilidad de experimentos.
 
-Ambas bibliotecas propuestas en este trabajo se encuentran a disposición de quien las necesite para su trabajo, así pues su licencia es BSD 3-Clause. La intención perseguida no es solo el crear un proyecto y que este sea descontinuado una vez se finalice el proyecto, sino que cualquiera pueda seguir expandiendo las bibliotecas con nuevos algoritmos de forma que sea un proyecto capaz de crecer y ser mantenido.
+Ambas bibliotecas propuestas en este trabajo se encuentran a disposición de quien las necesite para su trabajo, así pues su licencia es BSD 3-Clause. La intención perseguida no es solo el crear un proyecto y que este sea descontinuado una vez se finalice el proyecto, sino que cualquiera pueda seguir expandiendo las bibliotecas con nuevos algoritmos de forma que sea un proyecto capaz de crecer y ser mantenido. De tal manera que conformen la primera aportación formal del desarrollador a la comunidad \textit{Open source}.
+
+Se utilizarán ambas bibliotecas con el fin de realizar una experimentación en el campo del aprendizaje semi-supervisado seguro, pretendiendo validar la hipótesis de si se obtiene una mejor selección gracias a la aplicación de métodos de selección de instancias en el proceso del aprendizaje semi-supervisado. 
 
 Por otro lado reside el \textit{Machine Learning as a Service}, MLaaS. El desarrollo de un producto para convertirlo en un servicio completo en la nube ha visto el aumento de nuevos servicios, entre los que se encuentran el \textit{PaaS}, \textit{IaaS}, \textit{SaaS}, y más recientemente, \textit{MLaaS}. Con una tendencia creciente de trasladar el almacenamiento de datos a la nube, mantenerlos y obtener los mejores conocimientos de ellos, \textit{MLaaS} surge como un gran aliado gracias a su capacidad de proporcionar estas soluciones a un coste reducido~\cite{whatismlaas}.
 
-La Universidad de Burgos, gracias al grupo de investigación ADMIRABLE, posee su propia aplicación de \textit{MLaaS}, bajo el nombre de \texttt{UBUMLaaS}. Es objetivo de este proyecto su modernización, adaptación para dar una primera cabida a algoritmos de aprendizaje semi-supervisado, así como su ampliación de forma que como cualquier plataforma, disponga de capacidades propias de administración.
+La Universidad de Burgos, más concretamente el grupo de investigación ADMIRABLE, posee su propia aplicación de \textit{MLaaS}, bajo el nombre de \texttt{UBUMLaaS}. Es objetivo de este proyecto su modernización, adaptación para dar una primera cabida a algoritmos de aprendizaje semi-supervisado, así como su ampliación de forma que como cualquier plataforma, disponga de capacidades propias de administración y visualización de estadísticas.
 
 El estado inicial de \texttt{UBUMLaaS} requiere de constantes accesos a la base de datos para realizar modificaciones sobre usuarios y sus parámetros, es por ello que se quiere realizar una <<parte>> de administración para que usuarios con un nuevo rol de administrador puedan realizar las operaciones pertinentes de forma correcta.
 
 
@@ -4,21 +4,22 @@
 \begin{enumerate}
 \item Diseño e implementación de una biblioteca con los algoritmos de selección de instancias más comunes en la literatura.
 \item Diseño e implementación de una biblioteca con una serie de algoritmos de aprendizaje semi-supervisado.
+\item Realización de una experimentación en el campo de investigación del aprendizaje semi-supervisado seguro. Descubrir el efecto de la aplicación de diferentes métodos de selección de instancias.
 \item Integración de las bibliotecas con la plataforma de \texttt{MLaaS} de la Universidad de Burgos (\texttt{UBUMLaaS}).
 \item Diseño y puesta en producción de la parte de administración de \texttt{UBUMLaaS}.
 \end{enumerate}
 
 
 El enfoque que se le debe dar a las bibliotecas, en adelante \texttt{IS-SSL}\footnote{\textit{Instance Selection - Semi-Supervised Learning.}}, tanto de selección de instancias como de aprendizaje semi-supervisado, deberá permitir de manera sencilla la inclusión o añadido de nuevos algoritmos en un futuro, no siendo necesaria realizar grandes refactorizaciones para ello. Mediante ello se obtendrá un producto escalable y con un mantenimiento relativamente sencillo.
 
-\texttt{UBULMLaaS} fue un proyecto desarrollado por ADMIRABLE y se paralizó en 2019, por lo que necesitará una actualización de librerías, interfaz gráfica, seguridad y actualización de la base de datos; entre otras cosas. Independientemente de los cambios, debe primar la sencillez de uso que la aplicación, de forma que la curva de aprendizaje sea mínima.
+\texttt{UBULMLaaS} fue un proyecto desarrollado por el grupo de investigación ADMIRABLE y se paralizó en 2019, por lo que necesitará una actualización de bibliotecas, interfaz gráfica, seguridad y actualización de la base de datos; entre otras cosas. Independientemente de los cambios, debe primar la sencillez de uso que la aplicación, de forma que la curva de aprendizaje sea mínima.
 
 \subsection{Objetivos técnicos}
 Además de lo anteriormente mencionado, el proyecto cuenta con una serie de objetivos técnicos que se pueden resumir en:
 \begin{itemize}
 \item Los algoritmos imeplementados en \texttt{IS-SSL} deberán seguir la guía de estilo de \textit{Scikit-Learn}~\cite{SKLEARNGUIDELINES}, permitiendo a la comunidad científica acostumbrada al uso de la mencionada biblioteca en \texttt{Python}, hacer uso de \texttt{IS-SSL} de igual manera.
 \item Los algoritmos deberán de ser validados de alguna manera, ya sea con la literatura o mediante pares, para asegurar un correcto funcionamiento. 
-\item \texttt{UBUMLaaS} procederá a tener distintos tipos o categorías de usuarios, debiendo dejar <<la puerta abierta>> a nuevos tipos de usuarios en el futuro.
+\item \texttt{UBUMLaaS} deberá tener distintos tipos o categorías de usuarios, debiendo dejar <<la puerta abierta>> a nuevos tipos de usuarios en el futuro.
 \item \texttt{UBUMLaaS} podrá ser portado y desplegado sobre  \textit{bare metal} o mediante contenedores de Docker en cualquier sistema compatible.
 \item \texttt{UBUMLaaS} debe mantener todas sus funcionalidades previas a este proyecto.
 \item \texttt{UBUMLaaS} mostrará estadísticas generadas en tiempo real, se deberá de sortear la problemática de la concurrencia de acceso a registros de la base de datos, así como ficheros temporales.
 
@@ -400,18 +400,17 @@ \section{Técnicas de selección de instancias}\label{sec:tecnicas-seleccion-ins
 \small
 \begin{center}
 	\begin{tabular}{lcc}
-	\toprule
-	\rowcolor[HTML]{EFEFEF} 
+	\toprule 
 	\textbf{Método}  &  \textbf{\begin{tabular}[]{@{}c@{}}Complejidad\\Computacional\end{tabular}}  & \textbf{Referencia} \\
 	\toprule
-	Edición de Wilson (ENN)        & $O(n^2)$      &~\cite{wilson1972asymptotic}\\ 
 	\rowcolor[HTML]{EFEFEF} 
+	Edición de Wilson (ENN)        & $O(n^2)$      &~\cite{wilson1972asymptotic}\\ 
 	Condensado de Hart (CNN)     & $O(n^3)$         &~\cite{hart1968condensed}\\ 
-	Condensado Reducido (RNN)     & $O(n^3)$         &~\cite{gates1972reduced}  \\ 
 	\rowcolor[HTML]{EFEFEF} 
+	Condensado Reducido (RNN)     & $O(n^3)$         &~\cite{gates1972reduced}  \\ 
 	\textit{Iterative Case Filtering} (ICF)     & $O(n^2)$              &~\cite{brighton2002advances}\\ 
-	Subconjunto Selectivo Modificado (MSS)    & $O(n^2)$             &~\cite{barandela2005decision}\\ 
 	\rowcolor[HTML]{EFEFEF} 
+	Subconjunto Selectivo Modificado (MSS)    & $O(n^2)$             &~\cite{barandela2005decision}\\ 
 	\textit{Drecremental Reduction Optimization Procedure} (DROP) & $O(n^2)$  &~\cite{wilson2000reduction} \\ \bottomrule
 	\end{tabular}
 \end{center}