JasonGross
diff --git a/‎gbmi/exp_indhead/finetune_ind.py
Lines changed: 234 additions & 3 deletions b/‎gbmi/exp_indhead/finetune_ind.py
Lines changed: 234 additions & 3 deletions
@@ -325,13 +325,132 @@ def diff_2_4(a, i_1, i_2, j, dic, matrices, attn_1):
     return t_4
 
 
+def diff_2_3_4(a, i_1, i_2, j, dic, matrices, attn_1):
+
+    (term_0, term_1, term_2, term_3, term_4, term_5, term_6, term_7, term_8) = matrices
+
+    if j == i_1:
+        return 0
+    for k in range(i_2 + 1):
+        if j != 0 and j != 1:
+            c = (
+                term_4[k, dic[k], j - 1][..., dic[j - 1]].max()
+                + term_3[i_2, a, j - 1, dic[j - 1]].max()
+            )
+            # new = c.clone()
+            d = c * attn_1[dic[j], j - 1].min()
+
+            for i in range(0, j - 1):
+
+                c = torch.max(
+                    c,
+                    term_4[k, dic[k], i][..., dic[i]].max()
+                    + term_3[i_2, dic[i_2], i, dic[i]].max(),
+                )
+            c = torch.max(
+                c,
+                term_4[k, dic[k], j][..., dic[j]].max()
+                + term_3[i_2, dic[i_2], j, dic[j]].max(),
+            )
+            d = d + (1 - attn_1[dic[j], j - 1].min()) * c
+
+        if j == 0:
+
+            d = (
+                term_4[k, dic[k], j][..., dic[j]].max()
+                + term_3[i_2, a, j, dic[j]].max()
+            )
+
+        if j == 1:
+            c = (
+                term_4[k, dic[k], j - 1][..., dic[j - 1]].max()
+                + term_3[i_2, a, j - 1, dic[j - 1]].max()
+            )
+            # new=c.clone()
+            d = c * attn_1[dic[j], j - 1].min()
+            c = torch.max(
+                c,
+                term_4[k, dic[k], j][..., dic[j]].max()
+                + term_3[i_2, a, j, dic[j]].max(),
+            )
+            d = d + (1 - attn_1[dic[j], j - 1].min()) * c
+
+        # print(d)
+        if i_1 != 1:
+            c = term_4[k, dic[k], i_1 - 1, a].min() + term_3[i_2, a, i_1 - 1, a]
+            # new=c.clone()
+            d = d - attn_1[dic[i_1], i_1 - 1].min() * c
+
+            for i in range(0, i_1 - 1):
+
+                c = torch.min(
+                    c,
+                    term_4[k, dic[k], i][..., dic[i]].min()
+                    + term_3[i_2, dic[i_2], i, dic[i]].min(),
+                )
+            c = torch.min(
+                c,
+                term_4[k, dic[k], i_1][..., dic[i_1]].min()
+                + term_3[i_2, dic[i_2], i_1, dic[i_1]].min(),
+            )
+            d = d - (1 - attn_1[dic[i_1], i_1 - 1].min()) * c
+
+        if i_1 == 1:
+            c = term_4[k, dic[k], i_1 - 1, a].min() + term_3[i_2, a, i_1 - 1, a]
+            # new=c.clone()
+            d = d - attn_1[dic[i_1], i_1 - 1].min() * c
+
+            c = torch.min(
+                c,
+                term_4[k, dic[k], i_1][..., dic[i_1]].min()
+                + term_3[i_2, a, i_1, dic[i_1]].min(),
+            )
+            d = d - (1 - attn_1[dic[i_1], i_1 - 1].min()) * c
+
+        # print(d)
+
+        if type(dic[j]) == int:
+            d = (
+                d
+                + (
+                    term_2[k, dic[k], j][..., dic[j]]
+                    - term_2[k, dic[k], i_1][..., dic[i_1]].min(dim=-1).values
+                ).max()
+            )
+
+        else:
+            d = (
+                d
+                + (
+                    term_2[k, dic[k], j][..., dic[j]].max(dim=-1).values
+                    - term_2[k, dic[k], i_1][..., dic[i_1]].min(dim=-1).values
+                ).max()
+            )
+
+        if k == 0:
+
+            f = d
+
+        if k != 0:
+            f = torch.max(f, d)
+
+        if k == i_2 - 1:
+
+            g = d.clone()
+
+    t_4 = g * attn_1[dic[i_2], i_2 - 1]
+    t_4 = t_4 + (1 - attn_1[dic[i_2], i_2 - 1]) * f
+
+    return t_4
+
+
 def least_attention(a, i_1, i_2, j, dic, matrices, attn_1):
     e = diff_2_4(a, i_1, i_2, j, dic, matrices, attn_1)
 
     return (
         diff_1(a, i_1, i_2, j, dic, matrices)
-        + diff_3(a, i_1, i_2, j, dic, matrices, attn_1)
         + e
+        + diff_3(a, i_1, i_2, j, dic, matrices, attn_1)
     )
 
 
@@ -587,12 +706,124 @@ def loss_diff_4(b, i_1, i_2, dic, matrices, attn_1, bound_2, n=None):
     return ld_4
 
 
+def loss_diff_3_4(b, i_1, i_2, dic, matrices, attn_1, bound_2, n=None):
+
+    (term_0, term_1, term_2, term_3, term_4, term_5, term_6, term_7, term_8) = matrices
+
+    if n == b:
+        return 0
+
+    if n is None:
+
+        n = torch.arange(d_voc)[torch.arange(d_voc) != b]
+
+        for k in range(i_2 + 1):
+            if k != 0 and k != 1:
+                c = (
+                    term_8[k - 1, dic[k - 1]][..., n]
+                    - term_8[k - 1, dic[k - 1], b].unsqueeze(dim=-1)
+                ).max()
+                d = c * attn_1[dic[k], k - 1].min()
+                for i in range(k - 1):
+                    c = torch.max(
+                        c,
+                        (
+                            term_8[i, dic[i]][..., n]
+                            - term_8[i, dic[i], b].unsqueeze(dim=-1)
+                        ).max(),
+                    )
+                c = torch.max(
+                    c,
+                    (
+                        term_8[k, dic[k]][..., n]
+                        - term_8[k, dic[k], b].unsqueeze(dim=-1)
+                    ).max(),
+                )
+                d += (1 - attn_1[dic[k], k - 1].min()) * c
+
+            if k == 0:
+                d = (
+                    term_8[0, dic[0]][..., n] - term_8[0, dic[0], b].unsqueeze(dim=-1)
+                ).max()
+
+            if k == 1:
+                c = (
+                    term_8[0, dic[0]][..., n] - term_8[0, dic[0], b].unsqueeze(dim=-1)
+                ).max()
+                d = c * attn_1[dic[k], k - 1].min()
+                c = torch.max(
+                    c,
+                    (
+                        term_8[1, dic[1]][..., n]
+                        - term_8[1, dic[1], b].unsqueeze(dim=-1)
+                    ).max(),
+                )
+                d += (1 - attn_1[dic[k], k - 1].min()) * c
+
+            d = (
+                d
+                + (
+                    term_7[k, dic[k]][..., n] - term_7[k, dic[k], b].unsqueeze(dim=-1)
+                ).max()
+            )
+
+            if k == 0:
+                f = d
+            if k != 0:
+                f = torch.max(f, d)
+            if k == i_1:
+                g = d
+        ld_4 = g * (bound_2[dic[i_2], i_2, i_1].min())
+        ld_4 += (1 - bound_2[dic[i_2], i_2, i_1].min()) * f
+        return ld_4
+
+    for k in range(i_2 + 1):
+        if k != 0 and k != 1:
+            c = (term_8[k - 1, dic[k - 1], n] - term_8[k - 1, dic[k - 1], b]).max()
+            d = c * attn_1[dic[k], k - 1].min()
+            for i in range(k - 1):
+                c = torch.max(
+                    c,
+                    (term_8[i, dic[i], n] - term_8[i, dic[i], b]).max(),
+                )
+            c = torch.max(
+                c,
+                (term_8[k, dic[k], n] - term_8[k, dic[k], b]).max(),
+            )
+            d += (1 - attn_1[dic[k], k - 1].min()) * c
+
+        if k == 0:
+            d = (term_8[0, dic[0], n] - term_8[0, dic[0], b]).max()
+
+        if k == 1:
+            c = (term_8[0, dic[0], n] - term_8[0, dic[0], b]).max()
+            d = c * attn_1[dic[k], k - 1].min()
+            c = torch.max(
+                c,
+                (term_8[1, dic[1], n] - term_8[1, dic[1], b]).max(),
+            )
+            d += (1 - attn_1[dic[k], k - 1].min()) * c
+
+        d = d + (term_7[k, dic[k], n] - term_7[k, dic[k], b]).max()
+
+        if k == 0:
+            f = d
+        if k != 0:
+            f = torch.max(f, d)
+        if k == i_1:
+            g = d
+    ld_4 = g * (bound_2[dic[i_2], i_2, i_1].min())
+    ld_4 += (1 - bound_2[dic[i_2], i_2, i_1].min()) * f
+    return ld_4
+
+
 def total_bound(b, i_1, i_2, dic, matrices, attn_1, bound_2, n=None):
     return (
         loss_diff_1(b, i_1, i_2, dic, matrices, attn_1, bound_2, n)
         + loss_diff_2(b, i_1, i_2, dic, matrices, attn_1, bound_2, n)
-        + loss_diff_3(b, i_1, i_2, dic, matrices, attn_1, bound_2, n)
-        + loss_diff_4(b, i_1, i_2, dic, matrices, attn_1, bound_2, n)
+        + loss_diff_3_4(b, i_1, i_2, dic, matrices, attn_1, bound_2, n)
+        # + loss_diff_3(b, i_1, i_2, dic, matrices, attn_1, bound_2, n)
+        # + loss_diff_4(b, i_1, i_2, dic, matrices, attn_1, bound_2, n)
     )