Skip to content

Commit d980dae

Browse files
Updated Related Works with Safe SSL #148
1 parent 39117e6 commit d980dae

File tree

3 files changed

+104
-6
lines changed

3 files changed

+104
-6
lines changed

docs/bibliografia.bib

Lines changed: 76 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -440,4 +440,79 @@ @misc{guidophrase
440440
author={Daniel Scheuffler}, year={2016}
441441
}
442442

443-
@misc{admirable_intro, title={ADMIRABLE}, url={http://admirable-ubu.es}, author={ADMIRABLE}, year={2022}}
443+
@misc{admirable_intro, title={ADMIRABLE}, url={http://admirable-ubu.es}, author={ADMIRABLE}, year={2022}}
444+
445+
@article{wang2011solution,
446+
title={Solution path for manifold regularized semisupervised classification},
447+
author={Wang, Gang and Wang, Fei and Chen, Tao and Yeung, Dit-Yan and Lochovsky, Frederick H},
448+
journal={IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics)},
449+
volume={42},
450+
number={2},
451+
pages={308--319},
452+
year={2011},
453+
publisher={IEEE}
454+
}
455+
456+
@article{wang2013semi,
457+
title={Semi-supervised learning using greedy max-cut},
458+
author={Wang, Jun and Jebara, Tony and Chang, Shih-Fu},
459+
journal={The Journal of Machine Learning Research},
460+
volume={14},
461+
number={1},
462+
pages={771--800},
463+
year={2013},
464+
publisher={JMLR. org}
465+
}
466+
467+
@article{zhao2021safe,
468+
title={A Safe Semi-supervised Classification Algorithm Using Multiple Classifiers Ensemble},
469+
author={Zhao, Jianhua and Liu, Ning},
470+
journal={Neural Processing Letters},
471+
volume={53},
472+
number={4},
473+
pages={2603--2616},
474+
year={2021},
475+
publisher={Springer}
476+
}
477+
478+
@article{rodriguez2014clustering,
479+
title={Clustering by fast search and find of density peaks},
480+
author={Rodriguez, Alex and Laio, Alessandro},
481+
journal={science},
482+
volume={344},
483+
number={6191},
484+
pages={1492--1496},
485+
year={2014},
486+
publisher={American Association for the Advancement of Science}
487+
}
488+
489+
@article{adankon2011help,
490+
title={Help-training for semi-supervised support vector machines},
491+
author={Adankon, Mathias M and Cheriet, Mohamed},
492+
journal={Pattern Recognition},
493+
volume={44},
494+
number={9},
495+
pages={2220--2230},
496+
year={2011},
497+
publisher={Elsevier}
498+
}
499+
500+
@article{gan2013using,
501+
title={Using clustering analysis to improve semi-supervised classification},
502+
author={Gan, Haitao and Sang, Nong and Huang, Rui and Tong, Xiaojun and Dan, Zhiping},
503+
journal={Neurocomputing},
504+
volume={101},
505+
pages={290--298},
506+
year={2013},
507+
publisher={Elsevier}
508+
}
509+
510+
@article{wu2018self,
511+
title={Self-training semi-supervised classification based on density peaks of data},
512+
author={Wu, Di and Shang, Mingsheng and Luo, Xin and Xu, Ji and Yan, Huyong and Deng, Weihui and Wang, Guoyin},
513+
journal={Neurocomputing},
514+
volume={275},
515+
pages={180--191},
516+
year={2018},
517+
publisher={Elsevier}
518+
}

docs/memoria.pdf

6.3 KB
Binary file not shown.

docs/tex/6_Trabajos_relacionados.tex

Lines changed: 28 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -1,8 +1,9 @@
11
\capitulo{6}{Trabajos relacionados}
22

3-
Entre los trabajos relacionados con este Trabajo de Fin de Grado, se distinguen las bibliotecas y \textit{frameworks} enfocadas al \textit{Machine Learning} y los \textit{Machine Learning as a Service} (MLaaS) más relevantes.
3+
En esta Sección se van a comentar los trabajos relacionados desde dos ópticas, la primera de ellas desde el \textit{Machine Learning As A Service}, MLaaS; y la segunda es desde el punto de vista del Aprendizaje Semi-Supervisado Seguro (\textit{Safe-SSL}).
44

5-
\section{\textit{Frameworks} y bibiotecas}\label{related:frameworks}
5+
\section{\textit{Machine Learning As A Service}}
6+
\subsection{\textit{Frameworks} y bibiotecas}\label{related:frameworks}
67
Aunque está categorizado con dos términos, se puede entender un \textit{framework} de \textit{Machine Learning} como una herramienta, biblioteca o interfaz que proporciona a los desarrolladores facilidades para crear modelos de aprendizaje automático.
78

89
\begin{enumerate}
@@ -36,7 +37,7 @@ \section{\textit{Frameworks} y bibiotecas}\label{related:frameworks}
3637

3738
\end{enumerate}
3839

39-
\section{\textit{Machine Learning as a Service}}\label{related:MLaaS}
40+
\subsection{\textit{Proveedores de MLaaS}}\label{related:MLaaS}
4041
El Aprendizaje Automático como servicio (MLaaS por sus siglas en inglés), es una tecnología de aprendizaje automático que es habitualmente adquirida de un tercero. Su funcionamiento es similar a SaaS (\textit{Software as a Service}) o PaaS (\textit{Platform as a Service}), \textit{i.e.} un usuario utiliza los servicios de un tercero en lugar de los suyos propios.
4142

4243
\begin{enumerate}
@@ -67,7 +68,7 @@ \section{\textit{Machine Learning as a Service}}\label{related:MLaaS}
6768

6869
\end{enumerate}
6970
\clearpage
70-
\section{Comparativa entre MLaaS y UBUMLaaS}
71+
\subsection{Comparativa entre MLaaS y UBUMLaaS}
7172
Tal y como se puede apreciar en la tabla~\ref{table:Comp-MLaaS}, existen numerosos servicios soportados por los principales proveedores de \textit{Machine Learning as a Service}, \textit{\textit{e.g.}} todos ellos permiten el etiquetado de datos con técnicas de clasificación y regresión.
7273

7374
Todas las herramientas anteriormente descritas han sido comparadas contra \textit{UBUMLaaS}.
@@ -90,4 +91,26 @@ \section{Comparativa entre MLaaS y UBUMLaaS}
9091
\bottomrule
9192
\end{tabular}
9293
\caption{Comparativa general entre proveedores de MLaaS}\label{table:Comp-MLaaS}
93-
\end{table}
94+
\end{table}
95+
\clearpage
96+
\section{Aprendizaje Semi-Supervisado Seguro}
97+
A pesar de que se han hecho multitud de aproximaciones y estudios sobre Clasificación Semi-Supervisada, los prototipos son habitualmente clasificados dependiendo de diferentes suposiciones relacionadas con la distribución de los ejemplos etiquetados y no etiquetados. Habitualmente los modelos se basan en la suposición de existencia de matrices y/o \textit{clusters}. Si los datos corresponden a un colector de menor dimensaionalidad que el espacio de entrada, es adecuado para suposición de colector~\cite{wang2011solution}.
98+
99+
Siguiendo con esta idea en mente, la construcción de grafos permite determinar el comportamiento de los modelos, ya que dos prototipos conectados por una aritsta fuerte probablemente indique que ambos prototipos poseen la misma etiqueta~\cite{wang2013semi}. La suposición de \textit{cluster} supone que prototipos <<similares>> debería tener las mismas etiquetas.
100+
101+
La aplicación de técnicas de técnicas de <<autoetiquetado>> son aquellas que aprovechan un clasificador supervisado para etiquetar la clase desconocida y no hacen suposiciones específicas acerca de los datos de entrada~\cite{triguero2015self}. Para ello lo habitual es entrenar un clasificador o un conjunto de ellos y posteriormente aprovechar el conocimiento adquirido por este (o estos) clasificador(es) para entrenar uno nuevo que produzca mejores resultados~\cite{blum1998combining, zhou2005tri}.
102+
103+
Todos los modelos con los que habitualmente se trabaja se basan únicamente en el uso de aquellas instancias que se encuentran etiquetadas para obtener una mayor diversidad en los clasificadores, sin pararse a utilizar la gran y abundante información que se encuentra dentro de los prototipos no etiquetados~\cite{zhao2021safe}. Pero es aquí donde surge el problema real, no se tiene en cuenta que estos clasificadores iterativos también introducen ruido en el conjunto de datos etiquetados, es decir, clasifican mejor o peor pero no son seguros; todo ello propicia que en determinadas ocasiones el rendimiento empeore.
104+
105+
Con el fin de trabajar con aprendizaje semi-supervisado seguro~\cite{zhao2021safe} propone una nueva forma de trabajar con clasificadores supervisados en un \textit{ensemble}, los cuales a partir de múltiples iteraciones y pasadas sobre el conjunto de datos etiquetados lo acabarán etiquetando de forma segura. Para ello los clasificadores son entrenados con conjuntos de datos extraídos de los prototipos etiquetados y los cuales han sido seleccionados entre aquellos que poseen una baja ambigüedad. Posteriormente se etiquetas aquellos prototipos para los cuales los clasificadores acuerdan mediante mayoría de la clase a la que corresponde y se reentrenan los modelos.
106+
107+
De la misma forma que se acaba de ver cómo hay trabajos en la literatura acerca de mejorar los métodos ya existentes de clasificación semi-supervisada, también existen métodos basados en \textit{clusters} los cuáles eran brevemente introducidos al principio de esta sección. Uno de los mayores problemas que se encontraban éstos métodos era el poder generalizar para cualquier conjunto de datos independientemente de cuál fuese su distribución~\cite{adankon2011help, gan2013using}.
108+
109+
Gracias al trabajo de~\cite{rodriguez2014clustering} en el cual propone que para todo prototipo del conjunto de datos global (etiquetado y no etiquetado) el algoritmo calcula dos valores, su densidad local y la distancia a los puntos de mayor densidad local. Permitiendo descubrir la estructura real del espacio de datos, sin importar si la distribución de los datos es esférica o no, puede ser descubierta haciendo que cada prototipo apunte a su prototipo más cercano con una densidad local más alta.
110+
111+
Con base esta última aproximación, en~\cite{wu2018self} se propone una aproximación que integra la estructura descubierta basada en picos de densidad junto con el proceso de entrenamiento semi-supervisado, mediante el entrenamiento iterativo de un clasificador supervisado. Obteniendo las ventajas de:
112+
\begin{itemize}
113+
\item No se encuentra limitado por la distribución inicial de los datos etiquetados y del conjunto de datos general.
114+
\item Es un modelo constrictivo sin condiciones anteriores.
115+
\item Es un modelo adecuado para mejorar el rendimiento de cualquier algoritmo supervisado mediante el uso de grandes cantidades de datos.
116+
\end{itemize}

0 commit comments

Comments
 (0)