don't add reverse edges in movielens (#193)

CarloLucibello · web-flow · commit c2bf5fe8dc4d · 2022-12-07T09:35:11.000+01:00
* don't add reverse edges in movielens

* cleanup
diff --git a/src/datasets/graphs/movielens.jl b/src/datasets/graphs/movielens.jl
@@ -429,9 +429,9 @@ function generate_movielens_graph(user_data::Dict, movie_data::Dict, rating_data
 
     user_rates_movie = rating_data["user_movie"]
     user_ids, movie_ids = user_rates_movie[:, 1], user_rates_movie[:, 2]
-    edge_indices = Dict(("user", "rating", "movie") => ([user_ids; movie_ids], [movie_ids; user_ids]))
+    edge_indices = Dict(("user", "rating", "movie") => (user_ids, movie_ids))
 
-    edge_data = Dict(("user", "rating", "movie") => Dict(Symbol(k) => maybesqueeze([v;v]) for (k, v) in rating_data if  k ∉ ["user_movie", "metadata"]))
+    edge_data = Dict(("user", "rating", "movie") => Dict(Symbol(k) => maybesqueeze(v) for (k, v) in rating_data if  k ∉ ["user_movie", "metadata"]))
 
     return HeteroGraph(; num_nodes, edge_indices, node_data, edge_data)
 end
@@ -442,17 +442,17 @@ function generate_movielens_graph(movie_data::Dict, rating_data::Dict, user_tag_
     user_rates_movie = rating_data["user_movie"]
     user_ids, movie_ids = user_rates_movie[:, 1], user_rates_movie[:, 2]
     num_users = user_ids |> unique |> length # Calculate the number of users
-    edge_indices[("user", "rating", "movie")] = ([user_ids; movie_ids], [movie_ids; user_ids])
+    edge_indices[("user", "rating", "movie")] = (user_ids, movie_ids)
 
     user_tags_movie = user_tag_data["user_movie"]
     user_ids, movie_ids = user_tags_movie[:, 1], user_tags_movie[:, 2]
     num_users = max(num_users, user_ids |> unique |> length)
-    edge_indices[("user", "tag", "movie")] = ([user_ids; movie_ids], [movie_ids; user_ids])
+    edge_indices[("user", "tag", "movie")] = (user_ids, movie_ids)
 
     if !isempty(genome_tag_data)
         movie_score_tag = genome_tag_data["movie_tag"]
         movie_ids, tag_ids = movie_score_tag[:, 1], movie_score_tag[:, 1]
-        edge_indices[("movie", "score", "tag")] = ([movie_ids; tag_ids], [movie_ids; tag_ids])
+        edge_indices[("movie", "score", "tag")] = (movie_ids, tag_ids)
     end
 
     # ideally the HeteroGraph function should be able to compute the number of egdes,
@@ -462,11 +462,11 @@ function generate_movielens_graph(movie_data::Dict, rating_data::Dict, user_tag_
 
     _edge_data = Dict()
     _edge_data[("user", "rating", "movie")] = Dict(
-        Symbol(k) => maybesqueeze([v;v]) for (k, v) in rating_data if  k ∉ ["user_movie", "metadata"])
+        Symbol(k) => maybesqueeze(v) for (k, v) in rating_data if  k ∉ ["user_movie", "metadata"])
     _edge_data[("user", "tag", "movie")] = Dict(
-        Symbol(k) => maybesqueeze([v;v]) for (k, v) in user_tag_data if  k ∉ ["user_movie", "metadata"])
+        Symbol(k) => maybesqueeze(v) for (k, v) in user_tag_data if  k ∉ ["user_movie", "metadata"])
     isempty(genome_tag_data) || (_edge_data[("movie", "score", "tag")] = Dict(
-        Symbol(k) => maybesqueeze([v;v]) for (k, v) in genome_tag_data if  k ∉ ["movie_tag", "metadata", "num_tags"]))
+        Symbol(k) => maybesqueeze(v) for (k, v) in genome_tag_data if  k ∉ ["movie_tag", "metadata", "num_tags"]))
 
     edge_data = Dict(k=>v for (k,v) in _edge_data if !isempty(v))
 
diff --git a/test/datasets/graphs.jl b/test/datasets/graphs.jl
@@ -212,3 +212,43 @@ end
     end
 end
 
+@testset "ml-latest-small" begin
+    data = MovieLens("latest-small")
+    @test length(data) == 1
+
+    g = data[1]
+    @test g == data[:]
+    @test g isa MLDatasets.HeteroGraph
+
+    num_nodes = Dict(
+        "tag"   => 3683,
+        "movie" => 9742,
+        "user"  => 610
+        )
+    num_edges = Dict(
+        ("user", "rating", "movie") => 100836,
+        ("user", "tag", "movie")    => 3683
+    )
+
+    for type in keys(num_nodes)
+        @test type ∈ g.node_types
+        @test g.num_nodes[type] == num_nodes[type]
+        node_data = get(g.node_data, type, nothing)
+        isnothing(node_data) || for (key, val) in node_data
+            @test size(val)[end] == num_nodes[type]
+        end
+    end
+
+    for type in keys(num_edges)
+        @test type ∈ g.edge_types
+        @test g.num_edges[type] == num_edges[type]
+        @test length(g.edge_indices[type][1]) == num_edges[type]
+        @test length(g.edge_indices[type][2]) == num_edges[type]
+        edge_data = g.edge_data[type]
+        for (key, val) in edge_data
+            @test key in  [:timestamp, :tag_name, :rating]
+            @test ndims(val) == 1
+            @test size(val)[end] == num_edges[type]
+        end
+    end
+end
diff --git a/test/datasets/graphs_no_ci.jl b/test/datasets/graphs_no_ci.jl
@@ -1,44 +1,4 @@
 
-@testset "ml-latest-small" begin
-    data = MovieLens("latest-small")
-    @test length(data) == 1
-
-    g = data[1]
-    @test g == data[:]
-    @test g isa MLDatasets.HeteroGraph
-
-    num_nodes = Dict(
-        "tag"   => 3683,
-        "movie" => 9742,
-        "user"  => 610
-        )
-    num_edges = Dict(
-        ("user", "rating", "movie") => 201672,
-        ("user", "tag", "movie")    => 7366
-    )
-
-    for type in keys(num_nodes)
-        @test type ∈ g.node_types
-        @test g.num_nodes[type] == num_nodes[type]
-        node_data = get(g.node_data, type, nothing)
-        isnothing(node_data) || for (key, val) in node_data
-            @test size(val)[end] == num_nodes[type]
-        end
-    end
-
-    for type in keys(num_edges)
-        @test type ∈ g.edge_types
-        @test g.num_edges[type] == num_edges[type]
-        @test length(g.edge_indices[type][1]) == num_edges[type]
-        @test length(g.edge_indices[type][2]) == num_edges[type]
-        edge_data = g.edge_data[type]
-        for (key, val) in edge_data
-            @test key in  [:timestamp, :tag_name, :rating]
-            @test ndims(val) == 1
-            @test size(val)[end] == num_edges[type]
-        end
-    end
-end
 
 @testset "ml-100k" begin
     data = MovieLens("100k")
@@ -53,7 +13,7 @@ end
         "user"   => 943,
         )
     num_edges = Dict(
-        ("user", "rating", "movie") => 200000
+        ("user", "rating", "movie") => 100000
     )
 
     for type in keys(num_nodes)
@@ -94,7 +54,7 @@ end
             "user"  => 6040
         )
     num_edges = Dict(
-        ("user", "rating", "movie") => 2000418
+        ("user", "rating", "movie") => 1000209
     )
 
     for type in keys(num_nodes)
@@ -136,8 +96,8 @@ end
         "user"  => 69878
         )
     num_edges = Dict(
-        ("user", "tag", "movie")    => 191160,
-        ("user", "rating", "movie") => 20000108
+        ("user", "tag", "movie")    => 95580,
+        ("user", "rating", "movie") => 10000054
     )
 
     for type in keys(num_nodes)
@@ -177,9 +137,9 @@ end
         "user"  => 138493
         )
     num_edges = Dict(
-        ("movie", "score", "tag")    => 23419536,
-        ("user", "tag", "movie")     => 931128,
-        ("user", "rating", "movie")  => 40000526
+        ("movie", "score", "tag")    => 11709768,
+        ("user", "tag", "movie")     => 465564,
+        ("user", "rating", "movie")  => 20000263
     )
 
     for type in keys(num_nodes)
@@ -216,9 +176,9 @@ end
         "user"  => 162541
         )
     num_edges = Dict(
-        ("movie", "score", "tag")   => 31168896,
-        ("user", "tag", "movie")    => 2186720,
-        ("user", "rating", "movie") => 50000190
+        ("movie", "score", "tag")   => 15584448,
+        ("user", "tag", "movie")    => 1093360,
+        ("user", "rating", "movie") => 25000095
     )
 
     for type in keys(num_nodes)