update

snoweye · snoweye · commit 55ee6819e274 · 2013-05-30T15:16:48.000-04:00
diff --git a/DESCRIPTION b/DESCRIPTION
@@ -25,7 +25,7 @@ URL: http://r-pbd.org/
 BugReports: http://group.r-pbd.org/
 MailingList: Please send questions and comments regarding pbdR to
         RBigData@gmail.com
-Packaged: 2013-05-30 17:13:09 UTC; snoweye
+Packaged: 2013-05-30 19:14:43 UTC; snoweye
 Author: Wei-Chen Chen [aut, cre],
   George Ostrouchov [aut]
 Maintainer: Wei-Chen Chen <wccsnow@gmail.com>
diff --git a/R/dmat_em_base.r b/R/dmat_em_base.r
@@ -20,138 +20,111 @@ update.expectation.dmat <- function(PARAM, update.logL = TRUE){
   K <- PARAM$K
 
   ### WCC: original
-  # .pmclustEnv$U.dmat <- sweep(.pmclustEnv$W.dmat, 2, PARAM$log.ETA)
+  .pmclustEnv$U.dmat <- sweep(.pmclustEnv$W.dmat, 2, PARAM$log.ETA)
   ### WCC: temp dmat
   # tmp.1 <- sweep(.pmclustEnv$W.dmat, 2, PARAM$log.ETA)
   # .pmclustEnv$U.dmat <- tmp.1
   ### WCC: temp spmd
-  tmp.1 <- as.matrix(.pmclustEnv$W.dmat)
-  tmp.2 <- sweep(tmp.1, 2, PARAM$log.ETA)
-  .pmclustEnv$U.dmat <- as.ddmatrix(tmp.2)
+  # tmp.1 <- as.matrix(.pmclustEnv$W.dmat)
+  # tmp.2 <- sweep(tmp.1, 2, PARAM$log.ETA)
+  # .pmclustEnv$U.dmat <- as.ddmatrix(tmp.2)
 
   ### WCC: original
-  # .pmclustEnv$Z.dmat <- exp(.pmclustEnv$U.dmat)
+  .pmclustEnv$Z.dmat <- exp(.pmclustEnv$U.dmat)
   ### WCC: temp dmat
   # tmp.1 <- exp(.pmclustEnv$U.dmat)
   # .pmclustEnv$Z.dmat <- tmp.1
   ### WCC: temp spmd
-  tmp.1 <- as.matrix(.pmclustEnv$U.dmat)
-  tmp.2 <- exp(tmp.1)
-  .pmclustEnv$Z.dmat <- as.ddmatrix(tmp.2)
+  # tmp.1 <- as.matrix(.pmclustEnv$U.dmat)
+  # tmp.2 <- exp(tmp.1)
+  # .pmclustEnv$Z.dmat <- as.ddmatrix(tmp.2)
 
   ### WCC: original
-  # tmp.id <- rowSums(.pmclustEnv$U.dmat < .pmclustEnv$CONTROL$exp.min) == K |
-  #           rowSums(.pmclustEnv$U.dmat > .pmclustEnv$CONTROL$exp.max) > 0
-  # tmp.id <- as.vector(tmp.id)
+  tmp.id <- rowSums(.pmclustEnv$U.dmat < .pmclustEnv$CONTROL$exp.min) == K |
+            rowSums(.pmclustEnv$U.dmat > .pmclustEnv$CONTROL$exp.max) > 0
+  tmp.id <- as.logical(as.vector(tmp.id))
   ### WCC: temp dmat
-  tmp.1 <- .pmclustEnv$U.dmat < .pmclustEnv$CONTROL$exp.min
-      tmp.1 <- as.matrix(tmp.1)
-  tmp.2 <- rowSums(tmp.1)
-  tmp.3 <- tmp.2 == K
-  tmp.4 <- .pmclustEnv$U.dmat > .pmclustEnv$CONTROL$exp.max
-      tmp.4 <- as.matrix(tmp.4)
-  tmp.5 <- rowSums(tmp.4)
-  tmp.6 <- tmp.5 > 0
-  tmp.7 <- tmp.3 | tmp.6
-  tmp.8 <- as.vector(tmp.7)
-  tmp.id <- tmp.8
-  ### WCC: bug
-# comm.print(str(tmp.id), all.rank = TRUE)
-  tmp.id <- as.logical(tmp.id)
+  # tmp.1 <- .pmclustEnv$U.dmat < .pmclustEnv$CONTROL$exp.min
+  #     tmp.1 <- as.matrix(tmp.1)
+  # tmp.2 <- rowSums(tmp.1)
+  # tmp.3 <- tmp.2 == K
+  # tmp.4 <- .pmclustEnv$U.dmat > .pmclustEnv$CONTROL$exp.max
+  #     tmp.4 <- as.matrix(tmp.4)
+  # tmp.5 <- rowSums(tmp.4)
+  # tmp.6 <- tmp.5 > 0
+  # tmp.7 <- tmp.3 | tmp.6
+  # tmp.8 <- as.vector(tmp.7)
+  # tmp.id <- tmp.8
+  # tmp.id <- as.logical(tmp.id)
 
   tmp.flag <- sum(tmp.id)
   if(tmp.flag > 0){
     ### WCC: original
-    # tmp.dmat <- .pmclustEnv$U.dmat[tmp.id,]
-    ### WCC: temp dmat
-    # tmp.1 <- .pmclustEnv$U.dmat[tmp.id,]
-    # tmp.dmat <- tmp.1
+    tmp.dmat <- .pmclustEnv$U.dmat[tmp.id,]
     ### WCC: temp spmd
-    tmp.1 <- as.matrix(.pmclustEnv$U.dmat)
-    tmp.2 <- tmp.1[tmp.id,]
-    if(tmp.flag == 1){
-      tmp.2 <- matrix(tmp.2, nrow = 1)
-    }
-    tmp.dmat <- as.ddmatrix(tmp.2)
+    # tmp.1 <- as.matrix(.pmclustEnv$U.dmat)
+    # tmp.2 <- tmp.1[tmp.id,]
+    # if(tmp.flag == 1){
+    #   tmp.2 <- matrix(tmp.2, nrow = 1)
+    # }
+    # tmp.dmat <- as.ddmatrix(tmp.2)
 
     if(tmp.flag == 1){
       ### WCC: original
-      # tmp.scale <- max(tmp.dmat) - .pmclustEnv$CONTROL$exp.max / K
-      # tmp.scale <- as.vector(tmp.scale) 
+      tmp.scale <- max(tmp.dmat) - .pmclustEnv$CONTROL$exp.max / K
+      tmp.scale <- as.vector(tmp.scale) 
       ### WCC: temp dmat
       # tmp.1 <- max(tmp.dmat)
       # tmp.2 <- tmp.1 - .pmclustEnv$CONTROL$exp.max / K
       # tmp.3 <- as.vector(tmp.2)
       # tmp.scale <- tmp.3
       ### WCC: temp spmd
-      tmp.1 <- as.matrix(tmp.dmat)
-      tmp.scale <- max(tmp.1) - .pmclustEnv$CONTROL$exp.max / K
+      # tmp.1 <- as.vector(tmp.dmat)
+      # tmp.scale <- max(tmp.1) - .pmclustEnv$CONTROL$exp.max / K
     } else{
       ### WCC: original
-      # tmp.scale <- apply(tmp.dmat, 1, max) - .pmclustEnv$CONTROL$exp.max / K
-      # tmp.scale <- as.vector(tmp.scale) 
+      tmp.scale <- apply(tmp.dmat, 1, max) - .pmclustEnv$CONTROL$exp.max / K
+      tmp.scale <- as.vector(tmp.scale) 
       ### WCC: temp dmat
       # tmp.1 <- apply(tmp.dmat, 1, max)
       # tmp.2 <- tmp.1 - .pmclustEnv$CONTROL$exp.max / K
       # tmp.3 <- as.vector(tmp.2)
       # tmp.scale <- tmp.3
       ### WCC: temp spmd
-      tmp.1 <- as.matrix(tmp.dmat)
-      tmp.scale <- unlist(apply(tmp.1, 1, max)) -
-                   .pmclustEnv$CONTROL$exp.max / K
+      # tmp.1 <- as.matrix(tmp.dmat)
+      # tmp.scale <- unlist(apply(tmp.1, 1, max)) -
+      #              .pmclustEnv$CONTROL$exp.max / K
     }
     ### WCC: original
-    # .pmclustEnv$Z.dmat[tmp.id,] <- exp(tmp.dmat - tmp.scale)
+    .pmclustEnv$Z.dmat[tmp.id,] <- exp(tmp.dmat - tmp.scale)
     ### WCC: temp dmat
     # tmp.1 <- exp(tmp.dmat - tmp.scale)
+    # .pmclustEnv$Z.dmat[tmp.id,] <- tmp.1 
+    ### WCC: temp spmd
     # tmp.1 <- as.matrix(tmp.dmat)
     # tmp.1 <- exp(tmp.1 - tmp.scale)
-
-    ### WCC: bug
     # tmp.id <- which(tmp.id)
-    # .pmclustEnv$Z.dmat[tmp.id,] <- tmp.1 
-
-### To DMS
-# comm.print(tmp.id)
-# a <- as.matrix(tmp.1)
-# comm.print(head(a))
-# b <- as.matrix(.pmclustEnv$Z.dmat)
-# comm.print(b[tmp.id,])
-# c <- as.matrix(rowSums(.pmclustEnv$Z.dmat))
-# comm.print(c[tmp.id])
-
-    ### WCC: fix spmd
-    Z.dmat <- as.matrix(.pmclustEnv$Z.dmat)
-    Z.dmat[tmp.id,] <- as.matrix(tmp.1)
-    .pmclustEnv$Z.dmat <- as.ddmatrix(Z.dmat)
+    # tmp.2 <- as.matrix(.pmclustEnv$Z.dmat)
+    # tmp.2[tmp.id,] <- tmp.1
+    # .pmclustEnv$Z.dmat <- as.ddmatrix(Z.dmat)
   }
 
   ### WCC: original
-  # .pmclustEnv$W.rowSums <- as.vector(rowSums(.pmclustEnv$Z.dmat))
+  .pmclustEnv$W.rowSums <- as.vector(rowSums(.pmclustEnv$Z.dmat))
   ### WCC: temp dmat
   # tmp.1 <- rowSums(.pmclustEnv$Z.dmat)
   # tmp.2 <- as.vector(tmp.1)
   # .pmclustEnv$W.rowSums <- tmp.2 
   ### WCC: temp spmd
-  tmp.1 <- as.matrix(.pmclustEnv$Z.dmat)
-  .pmclustEnv$W.rowSums <- rowSums(tmp.1)
+  # tmp.1 <- as.matrix(.pmclustEnv$Z.dmat)
+  # .pmclustEnv$W.rowSums <- rowSums(tmp.1)
 
   ### WCC: original
   # .pmclustEnv$Z.dmat <- .pmclustEnv$Z.dmat / .pmclustEnv$W.rowSums
-  ### WCC: temp dmat
-
-
-  ### bug
-  # tmp.1 <- .pmclustEnv$Z.dmat / .pmclustEnv$W.rowSums
-  # .pmclustEnv$Z.dmat <- tmp.1
-#a <- as.matrix(tmp.1)
-#comm.print(head(a))
-
-  ### WCC: fix spmd
+  ### WCC: temp spmd
   tmp.1 <- as.matrix(.pmclustEnv$Z.dmat)
   tmp.2 <- tmp.1 / .pmclustEnv$W.rowSums
   .pmclustEnv$Z.dmat <- as.ddmatrix(tmp.2)
-#comm.print(head(tmp.2))
 
 
   ### For semi-supervised clustering.
@@ -160,18 +133,18 @@ update.expectation.dmat <- function(PARAM, update.logL = TRUE){
   # }
 
   ### WCC: original
-  # .pmclustEnv$Z.colSums <- as.vector(colSums(.pmclustEnv$Z.dmat))
+  .pmclustEnv$Z.colSums <- as.vector(colSums(.pmclustEnv$Z.dmat))
   ### WCC: temp dmat
   # tmp.1 <- colSums(.pmclustEnv$Z.dmat)
   # tmp.2 <- as.vector(tmp.1)
   # .pmclustEnv$Z.colSums <- tmp.2
   ### WCC: temp spmd
-  tmp.1 <- as.matrix(.pmclustEnv$Z.dmat) 
-  .pmclustEnv$Z.colSums <- colSums(tmp.1)
+  # tmp.1 <- as.matrix(.pmclustEnv$Z.dmat) 
+  # .pmclustEnv$Z.colSums <- colSums(tmp.1)
 
   if(update.logL){
     .pmclustEnv$W.rowSums <- log(.pmclustEnv$W.rowSums)
-    if(tmp.flag){
+    if(tmp.flag > 0){
       .pmclustEnv$W.rowSums[tmp.id] <-
         .pmclustEnv$W.rowSums[tmp.id] + tmp.scale
     }
@@ -193,6 +166,18 @@ m.step.dmat <- function(PARAM){
   p <- PARAM$p
   p.2 <- p * p
   for(i.k in 1:PARAM$K){
+
+### Bug?
+B <- X.dmat * as.vector(.pmclustEnv$Z.dmat[, i.k])
+B <- as.matrix(B)
+comm.print(head(B))
+
+tmp.1 <- as.matrix(X.dmat)
+tmp.2 <- as.matrix(.pmclustEnv$Z.dmat)
+B <- tmp.1 * tmp.2[, i.k]
+comm.print(head(B))
+comm.stop("bug here")
+
     ### MLE for MU
     ### WCC: original
     # B <- colSums(X.dmat * as.vector(.pmclustEnv$Z.dmat[, i.k])) /
@@ -366,15 +351,15 @@ comm.print("em.onestep.dmat logL")
 ### Obtain classifications.
 em.update.class.dmat <- function(){
   ### WCC: original
-  # .pmclustEnv$CLASS.dmat <- apply(.pmclustEnv$Z.dmat, 1, which.max)
+  .pmclustEnv$CLASS.dmat <- apply(.pmclustEnv$Z.dmat, 1, which.max)
   ### WCC: temp dmat
   # tmp.1 <- apply(.pmclustEnv$Z.dmat, 1, which.max)
   # .pmclustEnv$CLASS.dmat <- tmp.1 
   ### WCC: temp spmd
-  tmp.1 <- as.matrix(.pmclustEnv$Z.dmat)
-  tmp.2 <- matrix(apply(tmp.1, 1, which.max), ncol = 1)
-  tmp.3 <- as.ddmatrix(tmp.2)
-  .pmclustEnv$CLASS.dmat <- tmp.3
+  # tmp.1 <- as.matrix(.pmclustEnv$Z.dmat)
+  # tmp.2 <- matrix(apply(tmp.1, 1, which.max), ncol = 1)
+  # tmp.3 <- as.ddmatrix(tmp.2)
+  # .pmclustEnv$CLASS.dmat <- tmp.3
 
   invisible()
 } # End of em.update.class.dmat().
diff --git a/R/dmat_em_initial.r b/R/dmat_em_initial.r
@@ -12,8 +12,6 @@ initial.em.dmat <- function(PARAM, MU = NULL){
   if(is.null(MU)){
     N <- nrow(X.dmat)
     id <- spmd.bcast.integer(as.integer(sample(1:N, PARAM$K)))
-### WCC: fake
-#id <- c(1, 51, 101) + 20
     PARAM$MU <- t(as.matrix(X.dmat[id, ]))
   } else{
     PARAM$MU <- MU
diff --git a/R/dmat_my_tools.r b/R/dmat_my_tools.r
@@ -31,7 +31,7 @@ set.global.dmat <- function(K = 2, X.dmat = NULL, PARAM = NULL,
                   U.check = rep(TRUE, K),
                   logL = NULL,
                   min.N.CLASS = min(c((p + 1) * p * 0.5 + 1, N / K * 0.2)))
-    PARAM$ETA <- rep(1/K, K)
+    PARAM$ETA <- rep(1 / K, K)
     PARAM$log.ETA <- rep(-log(K), K) 
     PARAM$MU <- matrix(0, p, K)
     PARAM$SIGMA <- rep(list(diag(1.0, p)), K)
diff --git a/R/pm_apecm_base.r b/R/pm_apecm_base.r
@@ -100,7 +100,7 @@ ape.update.expectation.k <- function(PARAM, i.k, update.logL = TRUE){
 
   if(update.logL){
     .pmclustEnv$W.spmd.rowSums <- log(.pmclustEnv$W.spmd.rowSums)
-    if(tmp.flag){
+    if(tmp.flag > 0){
       .pmclustEnv$W.spmd.rowSums[tmp.id] <- .pmclustEnv$W.spmd.rowSums[tmp.id] +
                                             tmp.scale
     }
diff --git a/R/pm_em_base.r b/R/pm_em_base.r
@@ -52,7 +52,7 @@ update.expectation <- function(PARAM, update.logL = TRUE){
 
   if(update.logL){
     .pmclustEnv$W.spmd.rowSums <- log(.pmclustEnv$W.spmd.rowSums)
-    if(tmp.flag){
+    if(tmp.flag > 0){
       .pmclustEnv$W.spmd.rowSums[tmp.id] <- .pmclustEnv$W.spmd.rowSums[tmp.id] +
                                             tmp.scale
     }

Original file line number	Diff line number	Diff line change
`@@ -100,7 +100,7 @@ ape.update.expectation.k <- function(PARAM, i.k, update.logL = TRUE){`
`100`	`100`
`101`	`101`	`if(update.logL){`
`102`	`102`	`.pmclustEnv$W.spmd.rowSums <- log(.pmclustEnv$W.spmd.rowSums)`
`103`		`- if(tmp.flag){`
	`103`	`+ if(tmp.flag > 0){`
`104`	`104`	`.pmclustEnv$W.spmd.rowSums[tmp.id] <- .pmclustEnv$W.spmd.rowSums[tmp.id] +`
`105`	`105`	`tmp.scale`
`106`	`106`	`}`
Original file line number	Diff line number	Diff line change
`@@ -52,7 +52,7 @@ update.expectation <- function(PARAM, update.logL = TRUE){`
`52`	`52`
`53`	`53`	`if(update.logL){`
`54`	`54`	`.pmclustEnv$W.spmd.rowSums <- log(.pmclustEnv$W.spmd.rowSums)`
`55`		`- if(tmp.flag){`
	`55`	`+ if(tmp.flag > 0){`
`56`	`56`	`.pmclustEnv$W.spmd.rowSums[tmp.id] <- .pmclustEnv$W.spmd.rowSums[tmp.id] +`
`57`	`57`	`tmp.scale`
`58`	`58`	`}`