You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: docs/tex/6_Trabajos_relacionados.tex
+5-1Lines changed: 5 additions & 1 deletion
Original file line number
Diff line number
Diff line change
@@ -97,12 +97,16 @@ \subsection{Comparativa entre MLaaS y UBUMLaaS}
97
97
\section{Aprendizaje Semi-Supervisado Seguro}
98
98
A pesar de que se han hecho multitud de aproximaciones y estudios sobre Clasificación Semi-Supervisada~\cite{jesper2020survey}, los prototipos son habitualmente clasificados dependiendo de diferentes suposiciones relacionadas con la distribución de los ejemplos etiquetados y no etiquetados. Habitualmente los modelos se basan en la suposición de existencia de matrices y/o \textit{clusters}. Si los datos corresponden a un \textit{manifold}\footnote{Término técnico que se utiliza para clasificar espacios de dimensión arbitraria. Para cada número entero existe un espacio plano llamado espacio euclidiano que tiene características muy similares al plano cartesiano. Esencialmente una generalización del espacio euclidiano tal que localmente (áreas pequeñas) es aproximadamente lo mismo que el espacio euclidiano pero el espacio entero no tiene las mismas propiedades del espacio euclidiano cuando se observa en su totalidad.} de menor dimensionalidad que el espacio de entrada, es adecuado para suposición de \textit{manifold}~\cite{wang2011solution}.
99
99
100
-
Siguiendo con esta idea en mente, la construcción de grafos permite determinar el comportamiento de los modelos, ya que dos prototipos conectados por una aritsta fuerte probablemente indique que ambos prototipos poseen la misma etiqueta~\cite{wang2013semi}. La suposición de \textit{cluster} supone que prototipos <<similares>> deberían tener las mismas etiquetas.
100
+
Siguiendo con esta idea en mente, la construcción de grafos permite determinar el comportamiento de los modelos, ya que dos prototipos conectados por una arista fuerte probablemente indique que ambos prototipos poseen la misma etiqueta~\cite{wang2013semi}. La suposición de \textit{cluster} supone que prototipos <<similares>> deberían tener las mismas etiquetas.
101
101
102
102
La aplicación de técnicas de <<autoetiquetado>> son aquellas que aprovechan un clasificador supervisado para etiquetar la clase desconocida y no hacen suposiciones específicas acerca de los datos de entrada~\cite{triguero2015self}. Para ello lo habitual es entrenar un clasificador o un conjunto de ellos y posteriormente aprovechar el conocimiento adquirido por este(os) clasificador(es) para entrenar uno nuevo que produzca mejores resultados~\cite{blum1998combining, zhou2005tri}.
103
103
104
104
Todos los modelos con los que habitualmente se trabaja se basan únicamente en el uso de aquellas instancias que se encuentran etiquetadas para obtener una mayor diversidad en los clasificadores, sin pararse a utilizar la gran y abundante información que se encuentra dentro de los prototipos no etiquetados~\cite{zhao2021safe}. Pero es aquí donde surge el problema real, no se tiene en cuenta que estos clasificadores iterativos también introducen ruido en el conjunto de datos etiquetados, es decir, clasifican mejor o peor pero no son seguros; todo ello propicia que en determinadas ocasiones el rendimiento empeore.
105
105
106
+
En~\cite{triguero2014characterization} se propone el análisis de características de una gran variedad de filtros de ruido de diferente naturaleza, con el objetivo de mejorar el auto-entrenamiento en aprendizaje semi-supervisado orientado a problemas de clasificación. Muchos de los filtros propuestos ya se habían estudiado previamente en aprendizaje supervisado, pero el proceso de filtrado puede ser más difícil de realizar cuando se trata de problemas de aprendizaje semi-supervisado debido al reducido número de instancias que se poseen etiquetadas.
107
+
108
+
\cite{triguero2014characterization} comprueba como los filtros <<globales>>, algoritmos CF e IPF, destacan como la familia de filtros con mejor rendimiento, mostrando que la concordancia de hipótesis de varios clasificadores también es robusta cuando se reduce la proporción de datos etiquetados disponibles. La mayoría de los enfoques locales necesitan más datos etiquetadas para rendir mejor. El uso de estos filtros ha dado lugar a un mejor rendimiento que el logrado por métodos de auto-formación como son SETRED y SNNRCE. Obteniendo como conclusión que el uso de filtros <<globales>> es muy recomendable en el campo en el que se enmarca tanto este como el citado trabajo.
109
+
106
110
Con el fin de trabajar con aprendizaje semi-supervisado seguro, en~\cite{zhao2021safe} se propone una nueva forma de trabajar con clasificadores supervisados en un \textit{ensemble}, los cuales a partir de múltiples iteraciones y pasadas sobre el conjunto de datos etiquetados lo acabarán etiquetando de forma segura. Para ello los clasificadores son entrenados con conjuntos de datos extraídos de los prototipos etiquetados y los cuales han sido seleccionados entre aquellos que poseen una baja ambigüedad. Posteriormente se etiquetas aquellos prototipos para los cuales los clasificadores acuerdan mediante mayoría de la clase a la que corresponde y se reentrenan los modelos.
107
111
108
112
De la misma forma que se acaba de ver cómo hay trabajos en la literatura acerca de mejorar los métodos ya existentes de clasificación semi-supervisada, también existen métodos basados en \textit{clusters} los cuáles eran brevemente introducidos al principio de esta sección. Uno de los mayores problemas que se encontraban éstos métodos era el poder generalizar para cualquier conjunto de datos independientemente de cuál fuese su distribución~\cite{adankon2011help, gan2013using}.
0 commit comments