Written first version of relevant aspects #211

dpuenteramirez · dpuenteramirez · commit c8f89ac5b8a8 · 2022-05-09T13:09:30.000+02:00
diff --git a/docs/bibliografia.bib b/docs/bibliografia.bib
@@ -517,4 +517,6 @@ @article{wu2018self
   publisher={Elsevier}
 }
 
-@misc{SCRUMWIKI, title={Scrum (desarrollo de software)}, url={https://es.wikipedia.org/wiki/Scrum-(desarrollo-de-software)}, note={https://es.wikipedia.org/wiki/Scrum-(desarrollo-de-software)}, year={2022}}
+@misc{SCRUMWIKI, title={Scrum (desarrollo de software)}, url={https://es.wikipedia.org/wiki/Scrum-(desarrollo-de-software)}, note={https://es.wikipedia.org/wiki/Scrum-(desarrollo-de-software)}, year={2022}}
+
+@misc{SKLEARNGUIDELINES, title={Scikit-Learn Coding guidelines}, url={https://scikit-learn.org/stable/developers/develop.html#coding-guidelines}, year={2022}, author={scikit-learn developers}}
diff --git a/docs/img/memoria/aspectos-relevantes/General.png b/docs/img/memoria/aspectos-relevantes/General.png
diff --git a/docs/memoria.pdf b/docs/memoria.pdf
diff --git a/docs/memoria.tex b/docs/memoria.tex
@@ -65,12 +65,30 @@
 	\FloatBarrier
 }
 
-\newcommand{\imagenflotante}[2]{
+\newcommand{\imagenRuta}[3]{
+	\begin{figure}[!h]
+		\centering
+		\includegraphics[width=0.9\textwidth]{#1}
+		\caption{#2}\label{fig:#3}
+	\end{figure}
+	\FloatBarrier
+}
+
+\newcommand{\imagenFlotante}[3]{
 	\begin{figure}%[!h]
 		\centering
 		\includegraphics[width=0.9\textwidth]{#1}
-		\caption{#2}\label{fig:#1}
+		\caption{#2}\label{fig:#3}
+	\end{figure}
+}
+
+\newcommand{\imagenAncho}[4]{
+	\begin{figure}[H]
+		\centering
+		\includegraphics[width=#4\textwidth]{#1}
+		\caption{#2}\label{fig:#3}
 	\end{figure}
+	\FloatBarrier
 }
 
 
diff --git a/docs/tex/2_Objetivos_del_proyecto.tex b/docs/tex/2_Objetivos_del_proyecto.tex
@@ -1,3 +1,26 @@
 \capitulo{2}{Objetivos del proyecto}
+Los principales objetivos del proyecto son cuatro:
 
-Este apartado explica de forma precisa y concisa cuales son los objetivos que se persiguen con la realización del proyecto. Se puede distinguir entre los objetivos marcados por los requisitos del software a construir y los objetivos de carácter técnico que plantea a la hora de llevar a la práctica el proyecto.
+\begin{enumerate}
+\item Diseño e implementación de una biblioteca con los algoritmos de selección de instancias más comunes en la literatura.
+\item Diseño e implementación de una biblioteca con una serie de algoritmos de aprendizaje semi-supervisado.
+\item Integración de las bibliotecas con la plataforma de \texttt{MLaaS} de la Universidad de Burgos (\texttt{UBUMLaaS}).
+\item Diseño y puesta en producción de la parte de administración de \texttt{UBUMLaaS}.
+\end{enumerate}
+
+
+El enfoque que se le debe dar a las bibliotecas, en adelante \texttt{IS-SSL}\footnote{\textit{Instance Selection - Semi-Supervised Learning.}}, tanto de selección de instancias como de aprendizaje semi-supervisado, deberá permitir de manera sencilla la inclusión o añadido de nuevos algoritmos en un futuro, no siendo necesaria realizar grandes refactorizaciones para ello. Mediante ello se obtendrá un producto escalable y con un mantenimiento relativamente sencillo.
+
+\texttt{UBULMLaaS} fue un proyecto desarrollado por ADMIRABLE y se paralizó en 2019, por lo que necesitará una actualización de librerías, interfaz gráfica, seguridad y actualización de la base de datos; entre otras cosas. Independientemente de los cambios, debe primar la sencillez de uso que la aplicación, de forma que la curva de aprendizaje sea mínima.
+
+\subsection{Objetivos técnicos}
+Además de lo anteriormente mencionado, el proyecto cuenta con una serie de objetivos técnicos que se pueden resumir en:
+\begin{itemize}
+\item Los algoritmos imeplementados en \texttt{IS-SSL} deberán seguir la guía de estilo de \textit{Scikit-Learn}~\cite{SKLEARNGUIDELINES}, permitiendo a la comunidad científica acostumbrada al uso de la mencionada biblioteca en \texttt{Python}, hacer uso de \texttt{IS-SSL} de igual manera.
+\item Los algoritmos deberán de ser validados de alguna manera, ya sea con la literatura o mediante pares, para asegurar un correcto funcionamiento. 
+\item \texttt{UBUMLaaS} procederá a tener distintos tipos o categorías de usuarios, debiendo dejar <<la puerta abierta>> a nuevos tipos de usuarios en el futuro.
+\item \texttt{UBUMLaaS} podrá ser portado y desplegado sobre  \textit{bare metal} o mediante contenedores de Docker en cualquier sistema compatible.
+\item \texttt{UBUMLaaS} debe mantener todas sus funcionalidades previas a este proyecto.
+\item \texttt{UBUMLaaS} mostrará estadísticas generadas en tiempo real, se deberá de sortear la problemática de la concurrencia de acceso a registros de la base de datos, así como ficheros temporales.
+\item \texttt{UBUMLaaS} posee su propia API REST escrita en Python y emplea el \textit{framework web} Flask. No se deberá sobrecargar su uso, la carga de trabajo deberá estar balanceada entre cliente y servidor.
+\end{itemize}
diff --git a/docs/tex/3_Conceptos_teoricos.tex b/docs/tex/3_Conceptos_teoricos.tex
@@ -3,8 +3,8 @@
 El proyecto tiene una relación directa con la minería de datos y los conceptos que lo rodean. 
 
 \section{Aprendizaje automático (\textit{machine learning})}\label{sec:machine-learning}
-En~\cite{sanchez_2020} se define el aprendizaje automático (\textit{machine learning}) como una rama dentro del campo de la Inteligencia Artificial que proporciona a los sistemas la capacidad de aprender y mejorar de manera automática, a partir de la experiencia. Estos sistemas transforman los datos en información, y con esta información pueden tomar decisiones. Este tipo de modelos se crean a base del uso masivo de datos. Cuando se dispone de los datos suficientes para entrenar un modelo comienza el proceso de aprendizaje. El objetivo de este aprendizaje es descubrir patrones ocultos en los datos. En muchas ocasiones el resultado del aprendizaje, el modelo, es una función que dadas unos datos de entrada clasifica o predice correctamente una salida. Como se puede ver en la Figura~\ref{fig:../img/memoria/Machine-learning-overview.pdf} el aprendizaje automático, \textit{machine learning}, posee diferentes aproximaciones, siendo la interfaz diferenciadora entre ellas la forma de uso de las instancias.
-\imagenflotante{../img/memoria/Machine-learning-overview.pdf}{\textit{Machine learning overview}~\cite{technovert_2020}}
+En~\cite{sanchez_2020} se define el aprendizaje automático (\textit{machine learning}) como una rama dentro del campo de la Inteligencia Artificial que proporciona a los sistemas la capacidad de aprender y mejorar de manera automática, a partir de la experiencia. Estos sistemas transforman los datos en información, y con esta información pueden tomar decisiones. Este tipo de modelos se crean a base del uso masivo de datos. Cuando se dispone de los datos suficientes para entrenar un modelo comienza el proceso de aprendizaje. El objetivo de este aprendizaje es descubrir patrones ocultos en los datos. En muchas ocasiones el resultado del aprendizaje, el modelo, es una función que dadas unos datos de entrada clasifica o predice correctamente una salida. Como se puede ver en la Figura~\ref{fig:Machine-learning-overview} el aprendizaje automático, \textit{machine learning}, posee diferentes aproximaciones, siendo la interfaz diferenciadora entre ellas la forma de uso de las instancias.
+\imagenFlotante{../img/memoria/Machine-learning-overview.pdf}{\textit{Machine learning overview}~\cite{technovert_2020}}{Machine-learning-overview}
 
 \subsection{Aprendizaje supervisado}\label{subsec:Aprendizaje-Supervisado}
 El aprendizaje automático puede ser resumido como <<aprender de ejemplos>>. Al programa se le proporcionan dos conjuntos de datos, uno de entrenamiento y otro de validación~\cite{learned2014introduction}. El objetivo es simple, debe de <<aprender>> en función del conjunto de datos etiquetado proporcionado como entrenamiento para posteriormente identificar las correspondientes etiqueta/s de cada instancia del conjunto de validación con la mayor precisión posible. 
diff --git a/docs/tex/4_Tecnicas_y_herramientas.tex b/docs/tex/4_Tecnicas_y_herramientas.tex
@@ -4,7 +4,7 @@
 
 \section{Técnicas}\label{sec:tecnicas}
 
-\subsection{Metodología SCRUM}
+\subsection{Metodología SCRUM}\label{SCRUM}
 \textit{Scrum} es un marco de trabajo que permite el trabajo colaborativo en equipos. Permite que los equipos que trabajan en proyectos con esta metodología se organicen por sí mismos, siendo ellos los que deciden cómo afrontar los problemas que van surgiendo. 
 
 Según \cite{cervone2011understanding}, el modelo \textit{Scrum} se basa en tres componentes principales: roles, procesos y artefactos. El \textit{Scrum Master} es el puesto asumido por el director o gerente del proyecto, o en algunos casos el líder del equipo. Esta figura representa los valores y principios por los que se rige la metodología de \textit{scrum}, manteniendo los valores y buenas prácticas, así como resolviendo los impedimentos que vayan surgiendo a lo largo del desarrollo del proyecto. Habitualmente los equipos están compuestos por entre cinco y diez personas que trabajan en el proyecto a tiempo completo. Siendo este equipo independiente y flexible en cuanto a jerarquía interna, no siendo representado el papel del <<jefe>> dentro de este por la misma persona siempre. Esto genera que el papel cambie en función de las necesidades del propio proyecto, la configuración del equipo cambia únicamente entre iteraciones, o \textit{sprints}, no dentro de los mismos.
diff --git a/docs/tex/5_Aspectos_relevantes_del_desarrollo_del_proyecto.tex b/docs/tex/5_Aspectos_relevantes_del_desarrollo_del_proyecto.tex
@@ -1,7 +1,51 @@
 \capitulo{5}{Aspectos relevantes del desarrollo del proyecto}
 
-Este apartado pretende recoger los aspectos más interesantes del desarrollo del proyecto, comentados por los autores del mismo.
-Debe incluir desde la exposición del ciclo de vida utilizado, hasta los detalles de mayor relevancia de las fases de análisis, diseño e implementación.
-Se busca que no sea una mera operación de copiar y pegar diagramas y extractos del código fuente, sino que realmente se justifiquen los caminos de solución que se han tomado, especialmente aquellos que no sean triviales.
-Puede ser el lugar más adecuado para documentar los aspectos más interesantes del diseño y de la implementación, con un mayor hincapié en aspectos tales como el tipo de arquitectura elegido, los índices de las tablas de la base de datos, normalización y desnormalización, distribución en ficheros3, reglas de negocio dentro de las bases de datos (EDVHV GH GDWRV DFWLYDV), aspectos de desarrollo relacionados con el WWW...
-Este apartado, debe convertirse en el resumen de la experiencia práctica del proyecto, y por sí mismo justifica que la memoria se convierta en un documento útil, fuente de referencia para los autores, los tutores y futuros alumnos.
+En esta sección se van a detallar los aspectos más relevantes que han ido surgiendo a lo largo del desarrollo del proyecto. Este a sido un desarrollo \textit{software} y como tal ha estado lleno de retos y decisiones técnicas que han tenido que ir tomándose. La formación ha sido un punto de inflexión, sumado a la aplicación de buenas prácticas, ha resultado en un producto de calidad.
+
+
+\subsection{Investigación}
+Uno de los componentes principales que posee el proyecto es el apartado de investigación en el campo del Aprendizaje Automático, concretando un poco más, el efecto de la aplicación de técnicas de selección de instancias en el aprendizaje semi-supervisado.
+
+Uno de los principales retos enfrentados en una primera instancia ha sido adquirir una rápida capacidad de lectura y asimilación de documentación científica, si bien el idioma (inglés) no ha supuesto una barrera, el no poseer experiencia en realizando estas tareas  generó una necesidad que tuvo que ser solventada poco a poco. En los últimos meses del proyecto la agilidad ya estaba ahí, resultando en tareas más fluidas y veloces.
+
+\subsection{Metodología SCRUM}
+Como ya se mencionó en la Sección~\ref{SCRUM}, el proyecto se ha realizado siguiendo una metodología ágil, permitiendo trabajar en \textit{sprints} de manera que el trabajo de cada \textit{sprint} se encuentre correctamente fundamentado al inicio de cada uno, permitiendo trabajar con una mayor eficiencia, priorizar el trabajo en función las tareas existentes, y disponer de versiones funcionales a la vez que se sigue con el desarrollo del proyecto.
+
+Si bien se conocía SCRUM de manera puramente teórica, el haber trabajado siguiendo esta metodología ha permitido ganar experiencia en modelos de desarrollo ágiles, diferente de los clásicos a los que se acostumbraba, y tal y como se define, el trabajo se ha visto afectado de forma positiva con esta aproximación.
+
+Se disponían de cerca de 9 meses (máximo) para cumplimentar el proyecto, un tiempo mucho más elevado del habitual para este tipo de proyectos, es por ello que se han invertido múltiples \textit{sprints} para validación y calidad, permitiendo asegurar que los pasos dados son correctos y seguir construyendo sobre seguro.
+
+Una de las principales dificultades encontradas en este campo es la asignación de puntos de historia, el definir en base a un nombre de tarea y una descripción el tiempo que va a ser necesario invertir para cumplir con ella no ha sido siempre muy preciso. El no poseer experiencia previa en proyectos de esta envergadura propició que se considerara la equivalencia de 1 punto de historia igual a 45 minutos o menos. Y si bien ha habido múltiples \textit{sprints} en los cuales se ha conseguido seguir esta relación, no ha sido algo lineal en el proyecto, debido a que se tuvo en cuenta la experiencia que se iba consiguiendo a la hora de asignar los siguientes puntos de historia, y ha habido múltiples \textit{sprints} desfasados por lo alto.
+
+\subsection{Actualización y modificación de un \textit{software} pre-existente}
+Posiblemente será el aspecto relevante más cercano a el futuro laboral de cualquier alumno. Supuso todo un reto el coger un proyecto que había sido desarrollado por 5 personas y <<hacerlo propio>>. Como es lógico cada persona programa de una forma diferente para alcanzar la misma funcionalidad, y ya no solo eso, sino la propia temática del proyecto era desconocida, por lo tanto supuso un esfuerzo doble.
+
+La no existencia de una documentación, ni técnica ni formal, acerca del propio \textit{software} no ayudó a obtener una visión del proyecto más allá de la estructura de paquetes y nombres. Fue algo que se echó en falta, y que con la finalización de este proyecto, ya posee.
+
+\subsection{Desarrollo Web}
+A lo largo del Grado no se ha visto nada en cuanto a desarrollo web se refiere, siendo toda una desventaja a la hora de actualizar y modificar \texttt{UBUMLaaS}. Trabajar con una REST API era algo hasta enero desconocido, y la curva de aprendizaje no ha sido especialmente sencilla, han sido necesarias numerosas horas para familiarizarse tanto con el proyecto como con la forma de trabajo que poseen las aplicaciones que siguen esta arquitectura.
+
+A la hora de integrar nuevas modificaciones sobre el \textit{backend} del proyecto no supuso grandes problemas, fue un trabajo laborioso como es de esperar, pero al ser Python ya se estaba acostumbrado al lenguaje de programación. La dificultad llegó con el \textit{frontend} lenguajes de marcas como HTML o CSS, y de programación como JavaScript, no eran desconocidos, pero no se habían utilizado nunca en grandes proyectos; es por ello que hubo tareas que se vieron retrasadas. 
+
+Destacar que como ha sido la tónica general del proyecto y así queda recogido en el resumen de numerosos \textit{sprints} en su anexo correspondiente. En cuanto el equipo de desarrollo se familiarizaba con el lenguaje y entorno de aplicación, la velocidad de implementación de funcionalidades crecía de forma exponencial.
+
+La web ha sufrido una renovación por completa, siendo necesario re-escribir todos los documentos HTML, si bien se tuvo desde un inicio en cuenta que ciertas páginas tuvieran un diseño similar al que ya poseían anteriormente para seguir con el diseño inicial. El nuevo diseño soporta múltiples resoluciones de pantalla, habiendo sido priorizadas aquellas soportadas en tabletas sobre las de dispositivos móviles.
+
+\subsubsection{Funcionalidades <<sobre la marcha>>}
+En el momento de desarrollo de la parte de administración de \texttt{UBUMLaaS} surgían cada día nuevas funcionalidades que parecían correctas o adecuadas para implementar y añadir, permitiendo a los administradores tener más control del que iban a poseer una vez pase a producción la versión creada.
+
+Muchas de estas nuevas funcionalidades se han llevado a cabo y se encuentran disponibles y completamente integradas con la plataforma, si bien muchas otras no, se han quedado como trabajos futuros. Aquellas que se han quedado sin implementar fueron clasificadas con una relevancia baja, siendo priorizadas aquellas que se consideraron más útiles o curiosas.
+
+\subsection{PIP}
+\texttt{IS-SSL} es una biblioteca desarrollada con la finalidad de que sea útil a la mayor cantidad de desarrolladores posible, siguiendo las directrices del \textit{Open Source}, es por ello que se encuentra disponible a través del gestor de paquetes de Python, PIP. 
+
+El proyecto también puede ser descargado directamente desde el repositorio de GitHub y realizar todas las instalaciones de dependencias necesarias a través del fichero de \textit{requeriments.txt} o creando un entorno de \texttt{Conda} (a través del fichero \textit{is-ssl.yml}).
+
+\subsection{Docker}
+\texttt{UBUMLaaS} se encuentra desplegado en la Universidad de Burgos sobre un servidor directamente, pero con el fin de permitir que se despliegue en cualquier equipo y que la configuración específica sea mínima, se ha creado un contenedor Docker en el cuál reside la última versión de la aplicación. 
+
+El futuro de la aplicación podría ser únicamente en Docker perfectamente, siendo mucho más sencillo desplegarla en diferentes servidores, pero en la actualidad ese no es el enfoque deseado, por lo que se dejó para hacer al final en caso de que sobrara tiempo, como ha sucedido.
+
+
+\subsection{Experimentación de filtros de ruido para aprendizaje semi-supervisado}
+\imagenFlotante{../img/memoria/aspectos-relevantes/General}{Resumen en función del clasificador y filtro}{exp-general}

Original file line number	Diff line number	Diff line change
`@@ -517,4 +517,6 @@ @article{wu2018self`
`517`	`517`	`publisher={Elsevier}`
`518`	`518`	`}`
`519`	`519`
`520`		`-@misc{SCRUMWIKI, title={Scrum (desarrollo de software)}, url={https://es.wikipedia.org/wiki/Scrum-(desarrollo-de-software)}, note={https://es.wikipedia.org/wiki/Scrum-(desarrollo-de-software)}, year={2022}}`
	`520`	`+@misc{SCRUMWIKI, title={Scrum (desarrollo de software)}, url={https://es.wikipedia.org/wiki/Scrum-(desarrollo-de-software)}, note={https://es.wikipedia.org/wiki/Scrum-(desarrollo-de-software)}, year={2022}}`
	`521`	`+`
	`522`	`+@misc{SKLEARNGUIDELINES, title={Scikit-Learn Coding guidelines}, url={https://scikit-learn.org/stable/developers/develop.html#coding-guidelines}, year={2022}, author={scikit-learn developers}}`