itsubaki
diff --git a/‎activation/softmax.go‎
Lines changed: 1 addition & 1 deletion b/‎activation/softmax.go‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎agent/agent_test.go‎
Lines changed: 5 additions & 5 deletions b/‎agent/agent_test.go‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎agent/alpha_test.go‎
Lines changed: 3 additions & 3 deletions b/‎agent/alpha_test.go‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎agent/default_map_test.go‎
Lines changed: 11 additions & 1 deletion b/‎agent/default_map_test.go‎
Lines changed: 11 additions & 1 deletion
diff --git a/‎agent/dqn_test.go‎
Lines changed: 42 additions & 42 deletions b/‎agent/dqn_test.go‎
Lines changed: 42 additions & 42 deletions
diff --git a/‎agent/env/bandit_test.go‎
Lines changed: 2 additions & 2 deletions b/‎agent/env/bandit_test.go‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎agent/monte_carlo.go‎
Lines changed: 2 additions & 2 deletions b/‎agent/monte_carlo.go‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎agent/monte_carlo_test.go‎
Lines changed: 31 additions & 31 deletions b/‎agent/monte_carlo_test.go‎
Lines changed: 31 additions & 31 deletions
diff --git a/‎agent/qlearning_test.go‎
Lines changed: 5 additions & 5 deletions b/‎agent/qlearning_test.go‎
Lines changed: 5 additions & 5 deletions
diff --git a/‎agent/random_test.go‎
Lines changed: 1 addition & 1 deletion b/‎agent/random_test.go‎
Lines changed: 1 addition & 1 deletion
@@ -4,7 +4,7 @@ import "math"
 
 // Softmax returns the softmax of the input vector.
 func Softmax(a []float64) []float64 {
-	var max float64
+	max := a[0]
 	for i := range a {
 		if a[i] > max {
 			max = a[i]
 
@@ -18,7 +18,7 @@ func ExampleAgent() {
 		Source:  rand.Const(1),
 	}
 
-	for i := 0; i < 10; i++ {
+	for range 10 {
 		action := a.GetAction()
 		a.Update(action, 1.0)
 		fmt.Printf("%v: %v\n", action, a.Qs)
@@ -42,13 +42,13 @@ func ExampleAgent_bandit() {
 	s := rand.Const(1)
 
 	all := make([][]float64, runs)
-	for r := 0; r < runs; r++ {
+	for r := range runs {
 		bandit := env.NewNonStatBandit(arms, s)
 		agent := &agent.Agent{Epsilon: eps, Qs: make([]float64, arms), Ns: make([]float64, arms), Source: s}
 
 		var total float64
 		rates := make([]float64, steps)
-		for i := 0; i < steps; i++ {
+		for i := range steps {
 			action := agent.GetAction()
 			reward := bandit.Play(action)
 			agent.Update(action, reward)
@@ -78,13 +78,13 @@ func ExampleAgent_bandit() {
 }
 
 func Example_rand() {
-	for i := 0; i < 5; i++ {
+	for range 5 {
 		r := randv2.New(rand.Const(1))
 		fmt.Println(r.Float64())
 	}
 
 	s := rand.Const(1)
-	for i := 0; i < 5; i++ {
+	for range 5 {
 		r := randv2.New(s)
 		fmt.Println(r.Float64())
 	}
 
@@ -17,7 +17,7 @@ func ExampleAlphaAgent() {
 		Source:  rand.Const(1),
 	}
 
-	for i := 0; i < 10; i++ {
+	for range 10 {
 		action := a.GetAction()
 		a.Update(action, 1.0)
 		fmt.Printf("%v: %.4f\n", action, a.Qs)
@@ -42,13 +42,13 @@ func ExampleAlphaAgent_bandit() {
 	s := rand.Const(1)
 
 	all := make([][]float64, runs)
-	for r := 0; r < runs; r++ {
+	for r := range runs {
 		bandit := env.NewNonStatBandit(arms, s)
 		agent := &agent.AlphaAgent{Epsilon: eps, Alpha: alpha, Qs: make([]float64, arms), Source: s}
 
 		var total float64
 		rates := make([]float64, steps)
-		for i := 0; i < steps; i++ {
+		for i := range steps {
 			action := agent.GetAction()
 			reward := bandit.Play(action)
 			agent.Update(action, reward)
 
@@ -10,7 +10,17 @@ import (
 func ExampleDefaultMap() {
 	m := agent.DefaultMap[agent.RandomActions]{}
 
-	fmt.Println(m.Get(env.GridState{Height: 1, Width: 1}, agent.RandomActions{0: 0.25, 1: 0.25, 2: 0.25, 3: 0.25}).Probs())
+	fmt.Println(m.Get(
+		env.GridState{
+			Height: 1,
+			Width:  1,
+		},
+		agent.RandomActions{
+			0: 0.25,
+			1: 0.25,
+			2: 0.25,
+			3: 0.25,
+		}).Probs())
 	for k, v := range m {
 		fmt.Println(k, v)
 	}
 
@@ -41,7 +41,7 @@ func ExampleDQNAgent() {
 	}
 
 	episodes, syncInterval := 1, 1
-	for i := 0; i < episodes; i++ {
+	for i := range episodes {
 		state := e.OneHot(e.Reset())
 		var totalLoss, totalReward float64
 		var count int
@@ -81,47 +81,47 @@ func ExampleDQNAgent() {
 	}
 
 	// Output:
-	// 0: 0.0143, -0.0046
-	// (0, 0) UP    : 0.1057
-	// (0, 0) DOWN  : 0.0411
-	// (0, 0) LEFT  : -0.1044
-	// (0, 0) RIGHT : -0.1153
-	// (0, 1) UP    : 0.2575
-	// (0, 1) DOWN  : 0.0565
-	// (0, 1) LEFT  : -0.0090
-	// (0, 1) RIGHT : -0.1412
-	// (0, 2) UP    : -0.1237
-	// (0, 2) DOWN  : 0.3362
-	// (0, 2) LEFT  : 0.0124
-	// (0, 2) RIGHT : -0.0446
-	// (1, 0) UP    : 0.0993
-	// (1, 0) DOWN  : 0.0425
-	// (1, 0) LEFT  : -0.1653
-	// (1, 0) RIGHT : -0.0591
-	// (1, 2) UP    : -0.4625
-	// (1, 2) DOWN  : 0.0474
-	// (1, 2) LEFT  : -0.2263
-	// (1, 2) RIGHT : -0.1712
-	// (1, 3) UP    : 0.7964
-	// (1, 3) DOWN  : 0.0965
-	// (1, 3) LEFT  : 0.0643
-	// (1, 3) RIGHT : -0.1828
-	// (2, 0) UP    : -0.4854
-	// (2, 0) DOWN  : 0.2162
-	// (2, 0) LEFT  : -0.2302
-	// (2, 0) RIGHT : -0.1094
-	// (2, 1) UP    : 0.2301
-	// (2, 1) DOWN  : 0.0680
-	// (2, 1) LEFT  : -0.0531
-	// (2, 1) RIGHT : -0.0764
-	// (2, 2) UP    : -1.2781
-	// (2, 2) DOWN  : 0.2185
-	// (2, 2) LEFT  : -0.6493
-	// (2, 2) RIGHT : -0.4158
-	// (2, 3) UP    : -0.7843
-	// (2, 3) DOWN  : 0.1689
-	// (2, 3) LEFT  : -0.4043
-	// (2, 3) RIGHT : -0.2855
+	// 0: 0.0088, -0.0082
+	// (0, 0) UP    : 0.0940
+	// (0, 0) DOWN  : -0.0011
+	// (0, 0) LEFT  : -0.0951
+	// (0, 0) RIGHT : -0.0126
+	// (0, 1) UP    : 0.4905
+	// (0, 1) DOWN  : 0.1174
+	// (0, 1) LEFT  : -0.1345
+	// (0, 1) RIGHT : 0.0601
+	// (0, 2) UP    : -1.1773
+	// (0, 2) DOWN  : 0.0345
+	// (0, 2) LEFT  : -0.2830
+	// (0, 2) RIGHT : 0.0377
+	// (1, 0) UP    : 0.0477
+	// (1, 0) DOWN  : 0.0067
+	// (1, 0) LEFT  : -0.2127
+	// (1, 0) RIGHT : 0.0289
+	// (1, 2) UP    : 0.2000
+	// (1, 2) DOWN  : 0.1005
+	// (1, 2) LEFT  : -0.1068
+	// (1, 2) RIGHT : 0.0478
+	// (1, 3) UP    : 0.9551
+	// (1, 3) DOWN  : 0.1666
+	// (1, 3) LEFT  : 0.1643
+	// (1, 3) RIGHT : -0.1554
+	// (2, 0) UP    : -0.3087
+	// (2, 0) DOWN  : 0.2201
+	// (2, 0) LEFT  : -0.1539
+	// (2, 0) RIGHT : 0.0535
+	// (2, 1) UP    : 0.1924
+	// (2, 1) DOWN  : -0.0042
+	// (2, 1) LEFT  : -0.1180
+	// (2, 1) RIGHT : -0.0138
+	// (2, 2) UP    : -1.0109
+	// (2, 2) DOWN  : 0.0833
+	// (2, 2) LEFT  : -0.3053
+	// (2, 2) RIGHT : -0.0602
+	// (2, 3) UP    : -0.4370
+	// (2, 3) DOWN  : 0.0578
+	// (2, 3) LEFT  : -0.3560
+	// (2, 3) RIGHT : -0.1734
 }
 
 func Example_target() {
 
@@ -10,7 +10,7 @@ import (
 func ExampleBandit() {
 	bandit := env.NewBandit(10, rand.Const(1))
 
-	for i := 0; i < 10; i++ {
+	for i := range 10 {
 		fmt.Print(bandit.Play(i))
 	}
 
@@ -21,7 +21,7 @@ func ExampleBandit() {
 func ExampleNonStatBandit() {
 	bandit := env.NewNonStatBandit(10, rand.Const(1))
 
-	for i := 0; i < 10; i++ {
+	for i := range 10 {
 		fmt.Print(bandit.Play(i))
 	}
 
 
@@ -50,7 +50,7 @@ func greedyProbs(Q DefaultMap[float64], state string, epsilon float64, actionSiz
 	max := vector.Argmax(qs)
 
 	probs := make(RandomActions)
-	for i := 0; i < actionSize; i++ {
+	for i := range actionSize {
 		probs[i] = epsilon / float64(actionSize)
 	}
 
@@ -60,7 +60,7 @@ func greedyProbs(Q DefaultMap[float64], state string, epsilon float64, actionSiz
 
 func qstate(Q DefaultMap[float64], state string, actionSize int) []float64 {
 	qs := make([]float64, 0)
-	for i := 0; i < actionSize; i++ {
+	for i := range actionSize {
 		qs = append(qs, Q.Get(StateAction{State: state, Action: i}, 0.0))
 	}
 
 
@@ -25,7 +25,7 @@ func ExampleMonteCarloAgent() {
 	}
 
 	episodes := 10000
-	for i := 0; i < episodes; i++ {
+	for range episodes {
 		state := e.Reset()
 		a.Reset()
 
@@ -50,44 +50,44 @@ func ExampleMonteCarloAgent() {
 	}
 
 	// Output:
-	// (0, 0) UP    : 0.70
-	// (0, 0) DOWN  : 0.63
+	// (0, 0) UP    : 0.71
+	// (0, 0) DOWN  : 0.60
 	// (0, 0) LEFT  : 0.73
-	// (0, 0) RIGHT : 0.75
+	// (0, 0) RIGHT : 0.79
 	// (0, 1) UP    : 0.81
-	// (0, 1) DOWN  : 0.80
-	// (0, 1) LEFT  : 0.69
-	// (0, 1) RIGHT : 0.86
+	// (0, 1) DOWN  : 0.79
+	// (0, 1) LEFT  : 0.71
+	// (0, 1) RIGHT : 0.88
 	// (0, 2) UP    : 0.89
-	// (0, 2) DOWN  : 0.77
+	// (0, 2) DOWN  : 0.80
 	// (0, 2) LEFT  : 0.80
 	// (0, 2) RIGHT : 1.00
-	// (1, 0) UP    : 0.68
+	// (1, 0) UP    : 0.71
 	// (1, 0) DOWN  : 0.57
-	// (1, 0) LEFT  : 0.61
-	// (1, 0) RIGHT : 0.64
-	// (1, 2) UP    : 0.88
+	// (1, 0) LEFT  : 0.64
+	// (1, 0) RIGHT : 0.63
+	// (1, 2) UP    : 0.89
 	// (1, 2) DOWN  : 0.63
-	// (1, 2) LEFT  : 0.78
-	// (1, 2) RIGHT : -0.11
+	// (1, 2) LEFT  : 0.70
+	// (1, 2) RIGHT : -0.13
 	// (1, 3) UP    : 1.00
-	// (1, 3) DOWN  : -0.14
-	// (1, 3) LEFT  : 0.30
+	// (1, 3) DOWN  : 0.25
+	// (1, 3) LEFT  : 0.45
 	// (1, 3) RIGHT : -0.10
-	// (2, 0) UP    : 0.61
-	// (2, 0) DOWN  : 0.56
+	// (2, 0) UP    : 0.62
+	// (2, 0) DOWN  : 0.55
 	// (2, 0) LEFT  : 0.54
-	// (2, 0) RIGHT : 0.56
-	// (2, 1) UP    : 0.51
-	// (2, 1) DOWN  : 0.21
-	// (2, 1) LEFT  : 0.45
-	// (2, 1) RIGHT : 0.64
-	// (2, 2) UP    : 0.71
-	// (2, 2) DOWN  : 0.48
-	// (2, 2) LEFT  : 0.42
-	// (2, 2) RIGHT : -0.09
-	// (2, 3) UP    : -0.20
-	// (2, 3) DOWN  : -0.20
-	// (2, 3) LEFT  : -0.04
-	// (2, 3) RIGHT : -0.23
+	// (2, 0) RIGHT : 0.59
+	// (2, 1) UP    : 0.24
+	// (2, 1) DOWN  : 0.07
+	// (2, 1) LEFT  : 0.37
+	// (2, 1) RIGHT : 0.66
+	// (2, 2) UP    : 0.74
+	// (2, 2) DOWN  : 0.40
+	// (2, 2) LEFT  : 0.50
+	// (2, 2) RIGHT : 0.01
+	// (2, 3) UP    : -0.24
+	// (2, 3) DOWN  : -0.00
+	// (2, 3) LEFT  : 0.02
+	// (2, 3) RIGHT : -0.15
 }
@@ -22,7 +22,7 @@ func ExampleQLearningAgent() {
 	}
 
 	episodes := 10000
-	for i := 0; i < episodes; i++ {
+	for range episodes {
 		state := e.Reset()
 
 		for {
@@ -68,7 +68,7 @@ func ExampleQLearningAgent() {
 	// (1, 3) UP    : 1.0000
 	// (1, 3) DOWN  : 0.0000
 	// (1, 3) LEFT  : 0.0000
-	// (1, 3) RIGHT : -0.0812
+	// (1, 3) RIGHT : 0.0000
 	// (2, 0) UP    : 0.6561
 	// (2, 0) DOWN  : 0.5905
 	// (2, 0) LEFT  : 0.5905
@@ -80,9 +80,9 @@ func ExampleQLearningAgent() {
 	// (2, 2) UP    : 0.8100
 	// (2, 2) DOWN  : 0.7290
 	// (2, 2) LEFT  : 0.6561
-	// (2, 2) RIGHT : 0.0000
-	// (2, 3) UP    : -0.1000
+	// (2, 2) RIGHT : 0.5039
+	// (2, 3) UP    : -0.0997
 	// (2, 3) DOWN  : 0.0000
-	// (2, 3) LEFT  : 0.0000
+	// (2, 3) LEFT  : 0.6998
 	// (2, 3) RIGHT : 0.0000
 }
@@ -22,7 +22,7 @@ func ExampleRandomAgent() {
 	}
 
 	episodes := 1000
-	for i := 0; i < episodes; i++ {
+	for range episodes {
 		state := e.Reset()
 		a.Reset()
Original file line number	Diff line number	Diff line change
`@@ -10,7 +10,7 @@ import (`
`10`	`10`	`func ExampleBandit() {`
`11`	`11`	`bandit := env.NewBandit(10, rand.Const(1))`
`12`	`12`
`13`		`- for i := 0; i < 10; i++ {`
	`13`	`+ for i := range 10 {`
`14`	`14`	`fmt.Print(bandit.Play(i))`
`15`	`15`	`}`
`16`	`16`
`@@ -21,7 +21,7 @@ func ExampleBandit() {`
`21`	`21`	`func ExampleNonStatBandit() {`
`22`	`22`	`bandit := env.NewNonStatBandit(10, rand.Const(1))`
`23`	`23`
`24`		`- for i := 0; i < 10; i++ {`
	`24`	`+ for i := range 10 {`
`25`	`25`	`fmt.Print(bandit.Play(i))`
`26`	`26`	`}`
`27`	`27`
Original file line number	Diff line number	Diff line change
`@@ -50,7 +50,7 @@ func greedyProbs(Q DefaultMap[float64], state string, epsilon float64, actionSiz`
`50`	`50`	`max := vector.Argmax(qs)`
`51`	`51`
`52`	`52`	`probs := make(RandomActions)`
`53`		`- for i := 0; i < actionSize; i++ {`
	`53`	`+ for i := range actionSize {`
`54`	`54`	`probs[i] = epsilon / float64(actionSize)`
`55`	`55`	`}`
`56`	`56`
`@@ -60,7 +60,7 @@ func greedyProbs(Q DefaultMap[float64], state string, epsilon float64, actionSiz`
`60`	`60`
`61`	`61`	`func qstate(Q DefaultMap[float64], state string, actionSize int) []float64 {`
`62`	`62`	`qs := make([]float64, 0)`
`63`		`- for i := 0; i < actionSize; i++ {`
	`63`	`+ for i := range actionSize {`
`64`	`64`	`qs = append(qs, Q.Get(StateAction{State: state, Action: i}, 0.0))`
`65`	`65`	`}`
`66`	`66`
Original file line number	Diff line number	Diff line change
`@@ -22,7 +22,7 @@ func ExampleRandomAgent() {`
`22`	`22`	`}`
`23`	`23`
`24`	`24`	`episodes := 1000`
`25`		`- for i := 0; i < episodes; i++ {`
	`25`	`+ for range episodes {`
`26`	`26`	`state := e.Reset()`
`27`	`27`	`a.Reset()`
`28`	`28`