Skip to content

Commit 4a0b991

Browse files
Fixed Memory and Annexes based on Alvar's comments #229
1 parent 2727909 commit 4a0b991

13 files changed

+69
-49
lines changed

docs/bibliografia.bib

Lines changed: 11 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -554,3 +554,14 @@ @article{de2021reliable
554554
year={2021},
555555
publisher={Elsevier}
556556
}
557+
558+
@article{tanha2017semi,
559+
title={Semi-supervised self-training for decision tree classifiers},
560+
author={Tanha, Jafar and Van Someren, Maarten and Afsarmanesh, Hamideh},
561+
journal={International Journal of Machine Learning and Cybernetics},
562+
volume={8},
563+
number={1},
564+
pages={355--370},
565+
year={2017},
566+
publisher={Springer}
567+
}

docs/memoria.pdf

4.24 KB
Binary file not shown.

docs/memoria.tex

Lines changed: 14 additions & 8 deletions
Original file line numberDiff line numberDiff line change
@@ -458,33 +458,39 @@
458458
% Abstract en castellano
459459
\renewcommand*\abstractname{Resumen}
460460
\begin{abstract}
461-
Aquellos algoritmos más comúnmente utilizados en la literatura no acostumbran a encontrarse disponibles a través de bibliotecas existentes que los recojan, induciendo la necesidad de que el científico de datos que los necesite, deba codificárselos y validarlos antes de poder hacer uso de los mismos para el fin inicial.
461+
Aquellos algoritmos más comúnmente utilizados en la literatura no acostumbran a encontrarse disponibles a través de bibliotecas existentes que los recojan, induciendo la necesidad de que el científico de datos que los necesite, deba implementarlos y validarlos antes de poder hacer uso de los mismos.
462462

463-
El primero objetivo del proyecto es la creación de dos bibliotecas, las cuales recojan los algoritmos más comunes de selección de instancias, y de aprendizaje semi-supervisado. Quedando disponibles para su uso posterior en cualquier sistema compatible.
463+
El primer objetivo del proyecto es la creación de dos bibliotecas, las cuales recojan los algoritmos más comunes de selección de instancias, y de aprendizaje semi-supervisado. Las bibliotecas se validarán y se comprobará su integridad, además se realizará una experimentación completa con el fin de validar la hipótesis:\\
464+
\emph{<<¿Se obtiene una selección más segura en aprendizaje semi-supervisado gracias a la aplicación de métodos de selección de instancias?>>}.\\
465+
Las bibliotecas quedarán a disposición de la comunidad \textit{Open source} tras la finalización del proyecto.
464466

465-
El segundo objetivo es la integración de sendas bibliotecas en \texttt{UBUMLaaS}, su modernización y creación del nuevo rol de administrador del sistema, con todas las opciones y vistas que con ello conlleva.
467+
El segundo objetivo es la integración de sendas bibliotecas en \texttt{UBUMLaaS}, aplicación de aprendizaje máquina en la nube, perteneciente al grupo de investigación ADMIRABLE de la Universidad de Burgos. Además de, su modernización y creación del nuevo rol de administrador del sistema, con todas las opciones y vistas que con ello conlleva; finalmente se añadirá una vista de monitorización del sistema en tiempo real y visualización de estadísticas.
466468
\end{abstract}
467469

468470
\renewcommand*\abstractname{Descriptores}
469471
\begin{abstract}
470-
Selección de instancias, aprendizaje semi-supervisado, aprendizaje semi-supervisado seguro, MLaaS
472+
selección de instancias, aprendizaje semi-supervisado, aprendizaje semi-supervisado seguro, aprendizaje máquina como servicio
471473
\end{abstract}
472474

473475
\clearpage
474476

475477
% Abstract en inglés
476478
\renewcommand*\abstractname{Abstract}
477479
\begin{abstract}
478-
Those algorithms most commonly used in the literature are not usually available through existing libraries that collect them, inducing the need for the data scientist who needs them to code and validate them before being able to use them for the initial purpose.
480+
Those algorithms most commonly used in the literature are not usually available through existing libraries that collect them, inducing the need for the data scientist who needs them to implement and validate them before being able to make use of them.
479481

480-
The first objective of the project is the creation of two libraries, which collect the most common algorithms for instance selection and semi-supervised learning. They will be available for later use in any compatible system.
482+
The first objective of the project is the creation of two libraries, which collect the most common algorithms for instance selection and semi-supervised learning. The libraries will be validated and checked for completeness, and a complete experimentation will be carried out in order to validate the hypothesis:\\
483+
\emph{Is safer selection obtained in semi-supervised learning as a result of the application of instance selection methods?}.\\
484+
The libraries will be made available to the \textit{Open source} community after the completion of the project.
481485

482-
The second objective is the integration of both libraries in \texttt{UBUMLaaS}, its modernization and the creation of the new role of system administrator, with all the options and views that this entails.
486+
The second objective is the integration of both libraries in \texttt{UBUMLaaS}, a machine learning application in the cloud, belonging to the ADMIRABLE research group of the University of Burgos. In addition to its modernization and creation of the new role of system administrator, with all the options and views that this entails; finally a real-time system monitoring view and statistics visualization will be added.
487+
488+
Translated with www.DeepL.com/Translator (free version)
483489
\end{abstract}
484490

485491
\renewcommand*\abstractname{Keywords}
486492
\begin{abstract}
487-
Instance selection, semi-supervised learning, safe semi-supervised learning, MLaaS
493+
instance selection, semi-supervised learning, safe semi-supervised learning, machine learning as a service
488494
\end{abstract}
489495

490496
\clearpage

docs/tex/1_Introduccion.tex

Lines changed: 6 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -1,14 +1,16 @@
11
\capitulo{1}{Introducción}
22

3-
Actualmente no se dispone de ninguna librería en Python que facilite a los científicos de datos aplicar técnicas de Selección de Instancias sobre grandes conjuntos de datos, siendo esta una carencia detectada y teniendo en mente el auge que posee el lenguaje de programación, se propone la creación de un librería que recoja aquellos algoritmos más comúnmente utilizados en la literatura.
3+
Actualmente no se dispone de ninguna biblioteca en Python que facilite a los científicos de datos aplicar técnicas de Selección de Instancias sobre grandes conjuntos de datos, siendo esta una carencia detectada y teniendo en mente el auge que posee el lenguaje de programación, se propone la creación de un biblioteca que recoja aquellos algoritmos más comúnmente utilizados en la literatura.
44

5-
De igual manera ocurre con los algoritmos de aprendizaje semi-supervisado, la no disponibilidad de estos en un momento en el que es un campo que está siendo investigado por gran parte de la comunidad científica enfocada en \textit{Machine Learning}, retrasa y dificulta los procesos y plazos.
5+
Lo mismo sucede con los algoritmos de aprendizaje semi-supervisado, la no disponibilidad de estos en un momento en el que es un campo que está siendo investigado por gran parte de la comunidad científica enfocada en \textit{Machine Learning}, retrasa y dificulta la investigación y la reproductibilidad de experimentos.
66

7-
Ambas bibliotecas propuestas en este trabajo se encuentran a disposición de quien las necesite para su trabajo, así pues su licencia es BSD 3-Clause. La intención perseguida no es solo el crear un proyecto y que este sea descontinuado una vez se finalice el proyecto, sino que cualquiera pueda seguir expandiendo las bibliotecas con nuevos algoritmos de forma que sea un proyecto capaz de crecer y ser mantenido.
7+
Ambas bibliotecas propuestas en este trabajo se encuentran a disposición de quien las necesite para su trabajo, así pues su licencia es BSD 3-Clause. La intención perseguida no es solo el crear un proyecto y que este sea descontinuado una vez se finalice el proyecto, sino que cualquiera pueda seguir expandiendo las bibliotecas con nuevos algoritmos de forma que sea un proyecto capaz de crecer y ser mantenido. De tal manera que conformen la primera aportación formal del desarrollador a la comunidad \textit{Open source}.
8+
9+
Se utilizarán ambas bibliotecas con el fin de realizar una experimentación en el campo del aprendizaje semi-supervisado seguro, pretendiendo validar la hipótesis de si se obtiene una mejor selección gracias a la aplicación de métodos de selección de instancias en el proceso del aprendizaje semi-supervisado.
810

911
Por otro lado reside el \textit{Machine Learning as a Service}, MLaaS. El desarrollo de un producto para convertirlo en un servicio completo en la nube ha visto el aumento de nuevos servicios, entre los que se encuentran el \textit{PaaS}, \textit{IaaS}, \textit{SaaS}, y más recientemente, \textit{MLaaS}. Con una tendencia creciente de trasladar el almacenamiento de datos a la nube, mantenerlos y obtener los mejores conocimientos de ellos, \textit{MLaaS} surge como un gran aliado gracias a su capacidad de proporcionar estas soluciones a un coste reducido~\cite{whatismlaas}.
1012

11-
La Universidad de Burgos, gracias al grupo de investigación ADMIRABLE, posee su propia aplicación de \textit{MLaaS}, bajo el nombre de \texttt{UBUMLaaS}. Es objetivo de este proyecto su modernización, adaptación para dar una primera cabida a algoritmos de aprendizaje semi-supervisado, así como su ampliación de forma que como cualquier plataforma, disponga de capacidades propias de administración.
13+
La Universidad de Burgos, más concretamente el grupo de investigación ADMIRABLE, posee su propia aplicación de \textit{MLaaS}, bajo el nombre de \texttt{UBUMLaaS}. Es objetivo de este proyecto su modernización, adaptación para dar una primera cabida a algoritmos de aprendizaje semi-supervisado, así como su ampliación de forma que como cualquier plataforma, disponga de capacidades propias de administración y visualización de estadísticas.
1214

1315
El estado inicial de \texttt{UBUMLaaS} requiere de constantes accesos a la base de datos para realizar modificaciones sobre usuarios y sus parámetros, es por ello que se quiere realizar una <<parte>> de administración para que usuarios con un nuevo rol de administrador puedan realizar las operaciones pertinentes de forma correcta.
1416

docs/tex/2_Objetivos_del_proyecto.tex

Lines changed: 3 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -4,21 +4,22 @@
44
\begin{enumerate}
55
\item Diseño e implementación de una biblioteca con los algoritmos de selección de instancias más comunes en la literatura.
66
\item Diseño e implementación de una biblioteca con una serie de algoritmos de aprendizaje semi-supervisado.
7+
\item Realización de una experimentación en el campo de investigación del aprendizaje semi-supervisado seguro. Descubrir el efecto de la aplicación de diferentes métodos de selección de instancias.
78
\item Integración de las bibliotecas con la plataforma de \texttt{MLaaS} de la Universidad de Burgos (\texttt{UBUMLaaS}).
89
\item Diseño y puesta en producción de la parte de administración de \texttt{UBUMLaaS}.
910
\end{enumerate}
1011

1112

1213
El enfoque que se le debe dar a las bibliotecas, en adelante \texttt{IS-SSL}\footnote{\textit{Instance Selection - Semi-Supervised Learning.}}, tanto de selección de instancias como de aprendizaje semi-supervisado, deberá permitir de manera sencilla la inclusión o añadido de nuevos algoritmos en un futuro, no siendo necesaria realizar grandes refactorizaciones para ello. Mediante ello se obtendrá un producto escalable y con un mantenimiento relativamente sencillo.
1314

14-
\texttt{UBULMLaaS} fue un proyecto desarrollado por ADMIRABLE y se paralizó en 2019, por lo que necesitará una actualización de librerías, interfaz gráfica, seguridad y actualización de la base de datos; entre otras cosas. Independientemente de los cambios, debe primar la sencillez de uso que la aplicación, de forma que la curva de aprendizaje sea mínima.
15+
\texttt{UBULMLaaS} fue un proyecto desarrollado por el grupo de investigación ADMIRABLE y se paralizó en 2019, por lo que necesitará una actualización de bibliotecas, interfaz gráfica, seguridad y actualización de la base de datos; entre otras cosas. Independientemente de los cambios, debe primar la sencillez de uso que la aplicación, de forma que la curva de aprendizaje sea mínima.
1516

1617
\subsection{Objetivos técnicos}
1718
Además de lo anteriormente mencionado, el proyecto cuenta con una serie de objetivos técnicos que se pueden resumir en:
1819
\begin{itemize}
1920
\item Los algoritmos imeplementados en \texttt{IS-SSL} deberán seguir la guía de estilo de \textit{Scikit-Learn}~\cite{SKLEARNGUIDELINES}, permitiendo a la comunidad científica acostumbrada al uso de la mencionada biblioteca en \texttt{Python}, hacer uso de \texttt{IS-SSL} de igual manera.
2021
\item Los algoritmos deberán de ser validados de alguna manera, ya sea con la literatura o mediante pares, para asegurar un correcto funcionamiento.
21-
\item \texttt{UBUMLaaS} procederá a tener distintos tipos o categorías de usuarios, debiendo dejar <<la puerta abierta>> a nuevos tipos de usuarios en el futuro.
22+
\item \texttt{UBUMLaaS} deberá tener distintos tipos o categorías de usuarios, debiendo dejar <<la puerta abierta>> a nuevos tipos de usuarios en el futuro.
2223
\item \texttt{UBUMLaaS} podrá ser portado y desplegado sobre \textit{bare metal} o mediante contenedores de Docker en cualquier sistema compatible.
2324
\item \texttt{UBUMLaaS} debe mantener todas sus funcionalidades previas a este proyecto.
2425
\item \texttt{UBUMLaaS} mostrará estadísticas generadas en tiempo real, se deberá de sortear la problemática de la concurrencia de acceso a registros de la base de datos, así como ficheros temporales.

docs/tex/3_Conceptos_teoricos.tex

Lines changed: 4 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -400,18 +400,17 @@ \section{Técnicas de selección de instancias}\label{sec:tecnicas-seleccion-ins
400400
\small
401401
\begin{center}
402402
\begin{tabular}{lcc}
403-
\toprule
404-
\rowcolor[HTML]{EFEFEF}
403+
\toprule
405404
\textbf{Método} & \textbf{\begin{tabular}[]{@{}c@{}}Complejidad\\Computacional\end{tabular}} & \textbf{Referencia} \\
406405
\toprule
407-
Edición de Wilson (ENN) & $O(n^2)$ &~\cite{wilson1972asymptotic}\\
408406
\rowcolor[HTML]{EFEFEF}
407+
Edición de Wilson (ENN) & $O(n^2)$ &~\cite{wilson1972asymptotic}\\
409408
Condensado de Hart (CNN) & $O(n^3)$ &~\cite{hart1968condensed}\\
410-
Condensado Reducido (RNN) & $O(n^3)$ &~\cite{gates1972reduced} \\
411409
\rowcolor[HTML]{EFEFEF}
410+
Condensado Reducido (RNN) & $O(n^3)$ &~\cite{gates1972reduced} \\
412411
\textit{Iterative Case Filtering} (ICF) & $O(n^2)$ &~\cite{brighton2002advances}\\
413-
Subconjunto Selectivo Modificado (MSS) & $O(n^2)$ &~\cite{barandela2005decision}\\
414412
\rowcolor[HTML]{EFEFEF}
413+
Subconjunto Selectivo Modificado (MSS) & $O(n^2)$ &~\cite{barandela2005decision}\\
415414
\textit{Drecremental Reduction Optimization Procedure} (DROP) & $O(n^2)$ &~\cite{wilson2000reduction} \\ \bottomrule
416415
\end{tabular}
417416
\end{center}

0 commit comments

Comments
 (0)