You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
\subsection{\textit{Self-Training} basado en picos de densidad}
240
+
Wu~\cite{wu2018self} en 2018 presentó un \textit{framework} para clasificación utilizando \textit{self-training}. En este caso a diferencia de los métodos estudiados anteriormente, se utilizan técnicas de \textit{clustering} (agrupación) para obtener mejores resultados. Con éste método se descubre la estructura del espacio de datos, para ello se integra la densidad de los datos en el proceso de \textit{self-training}, de manera que se entrene iterativamente un clasificador.
241
+
242
+
El proceso por el cuál se consigue este nuevo clasificador <<mejorado>> es el siguiente:
243
+
\begin{enumerate}
244
+
\item Encontrar los picos de densidad de los datos para aprender la estructura subyacente de todo el espacio de datos de entrenamiento. Y se integra esta estructura en el proceso de entrenamiento iterativo de un clasificador.
245
+
\item Se entrena un clasificador con los datos etiquetados. Se clasifican los ejemplos siguientes de los ya etiquetados hasta que no haya más, se predicen, y, se añaden y eliminan de los datos etiquetados y no etiquetados, respectivamente.
246
+
\item Se repite el paso anterior pero con los puntos anteriores.
247
+
\end{enumerate}
248
+
249
+
El algoritmo se encuentra disponible, ver Algoritmo~\ref{alg:Wu-DensityPeaks}.
250
+
251
+
\begin{algorithm}[H]
252
+
\KwIn{Conjunto de entrenamiento $L$ y $U$ de datos etiquetados y no etiquetados, respectivamente}
253
+
\KwOut{Clasificador entrenado}
254
+
\BlankLine
255
+
Calcular $\rho_i$ para cada instancia $x_i \in L \cup U$\\
256
+
Calcular $\delta_i$ para cada instancia $x_i \in L \cup U$\\
257
+
Descubrir la estructura del espacio de datos haciendo que cada $x_i$ <<apunte>> a su 1-NN con mayor $\rho_i$\\
258
+
Entrenar un clasificador $C$ con $L$\\
259
+
\Repeat{todos los puntos <<siguientes>> de $x_i \in L$ son seleccionados de $U$}{
260
+
Seleccionar un $T$ de $U$ donde cada $x_j$ es un punto <<siguiente>> de los $x_i \in L$
261
+
Etiquetar $x_t \in T$ con $C$\\
262
+
$L \leftarrow L\cup T$\\
263
+
$U \leftarrow U - T$\\
264
+
}
265
+
Reentrenar $C$ con $L$\\
266
+
\Repeat{$size:U == 0$}{
267
+
Seleccionar un $T$ de $U$ donde cada $x_j$ es un punto <<anterior>> de los $x_i \in L$
268
+
Etiquetar $x_t \in T$ con $C$\\
269
+
$L \leftarrow L\cup T$\\
270
+
$U \leftarrow U - T$\\
271
+
}
272
+
Reentrenar $C$ con $L$\\
273
+
\caption{\textit{Self-Training based on Density Peaks}}\label{alg:Wu-DensityPeaks}
274
+
\end{algorithm}
275
+
276
+
277
+
\clearpage
240
278
\section{Minería de datos}
241
279
242
280
Según IBM~\cite{IBM-WhatisDataMining}, podemos definir la minería de datos, o descubrimiento de conocimiento
0 commit comments