added ordered bulk writes

zookzook · zookzook · commit 0957d00d8590 · 2019-05-16T10:15:30.000+02:00
diff --git a/README.md b/README.md
@@ -190,6 +190,49 @@ end
 
 spawn(fn -> for_ever(top, self()) end)
 ```
+
+
+### Bulk writes
+
+Die Motivation für bulk writes liegt in der Optimierungsmöglichkeit, gleiche Operationen 
+zu gruppieren. Dabei wird zwischen ungeordneten und geordneten Bulk writes unterschieden.
+Bei ungeordneten werden Inserts, Updates und Deletes gruppiert und als einzelne Befehle 
+zur Datenbank geschickt. Dabei gibt es keinen Einfluss auf die Reihenfolge 
+der Ausführungen. Ein guter Anwendungsfall ist der Import von Datensätzen aus einer
+CSV-Datei. Die Reihenfolge der Inserts spielt keine Rolle.
+
+Bei geordneten Bulk writes ist die Einhaltung der Reihenfolge wichtig, damit aus 
+Ausführungen korrekt sind. In diesem Fall werden nur die gleiche aufeinander folgenden Operationen
+gruppiert.
+
+Aktuell werden alle Bulk writes im Speicher optimiert. Dies ist für große Bulk writes ungünstig.
+In diesem Fall kann man streaming bulk writes verwenden, die nur einen gewissen Satz von
+Operation im Speicher gruppieren und sofern die maximale Anzahl von Operationen
+erreicht wurde, die Schreiboperationen zur Datenbank schicken. Die Anzahl 
+kann vorgegeben werden.
+
+Using ordered bulk writes. In this example we first insert some dog's name, add an attribute `kind` 
+and change all dogs to cats. After that we delete three cats. This example would not work with 
+unordered bulk writes. 
+
+```elixir
+
+    bulk = "bulk"
+           |> new()
+           |> insert_one(%{name: "Greta"})
+           |> insert_one(%{name: "Tom"})
+           |> insert_one(%{name: "Waldo"})
+           |> update_one(%{name: "Greta"}, %{"$set": %{kind: "dog"}})
+           |> update_one(%{name: "Tom"}, %{"$set": %{kind: "dog"}})
+           |> update_one(%{name: "Waldo"}, %{"$set": %{kind: "dog"}})
+           |> update_many(%{kind: "dog"}, %{"$set": %{kind: "cat"}})
+           |> delete_one(%{kind: "cat"})
+           |> delete_one(%{kind: "cat"})
+           |> delete_one(%{kind: "cat"})
+
+    result = Mongo.BulkWrite.bulk_write(:mongo, bulk, w: 1)
+```
+
 ### Examples
 
 Using `$and`
diff --git a/lib/mongo/bulk_write.ex b/lib/mongo/bulk_write.ex
@@ -11,88 +11,219 @@ defmodule Mongo.BulkWrite do
 
   import Mongo.Utils
   alias Mongo.UnorderedBulk
+  alias Mongo.OrderedBulk
 
   @doc """
   Unordered bulk write operations:
-  Executes first insert commands, then all update commands and after that all delete commands are executed. If a group (inserts, updates or deletes) exceeds the limit
+  Executes first insert commands, then updates commands and after that all delete commands are executed. If a group (inserts, updates or deletes) exceeds the limit
   maxWriteBatchSize it will be split into chunks. Everything is done in memory, so this use case is limited by memory. A better approach seems to use streaming bulk writes.
   """
-  def bulk_write(topology_pid, %UnorderedBulk{} = bulk, opts \\ []) do
-
-    write_concern = %{
-                      w: Keyword.get(opts, :w),
-                      j: Keyword.get(opts, :j),
-                      wtimeout: Keyword.get(opts, :wtimeout)
-                    } |> filter_nils()
-
-    with {:ok, conn, _, _} <- Mongo.select_server(topology_pid, :write, opts),
-         inserts <- conn |> run_commands(get_insert_cmds(bulk, write_concern), opts) |> collect(:inserts),
-         updates <- conn |> run_commands(get_update_cmds(bulk, write_concern, opts), opts) |> collect(:updates),
-         deletes <- conn |> run_commands(get_delete_cmds(bulk, write_concern, opts), opts) |> collect(:deletes) do
-      inserts ++ updates ++ deletes
+  def bulk_write(topology_pid, %UnorderedBulk{} = bulk, opts) do
+
+    write_concern = write_concern(opts)
+    with {:ok, conn, _, _} <- Mongo.select_server(topology_pid, :write, opts) do
+      one_bulk_write(conn, bulk, write_concern, opts)
     end
   end
 
-  def collect(doc, :inserts) do
+  @doc """
+  Schreibt den OrderedBulk in die Datenbank. Es erfolgt eine kleine Optimierung. Folgen von gleichen Operationen
+  werden zusammengefasst und als ein Befehl gesendet.
+  """
+  def bulk_write(topology_pid, %OrderedBulk{coll: coll, ops: ops} = bulk, opts) do
+
+    write_concern = write_concern(opts)
+    with {:ok, conn, _, _} <- Mongo.select_server(topology_pid, :write, opts) do
+      get_op_sequence(coll, ops)
+      |> Enum.map(fn {cmd, docs} -> one_bulk_write_operation(conn, cmd, coll, docs, write_concern, opts) end)
+      |> Enum.each(fn {cmd, count} -> IO.puts "#{cmd} : #{count}" end)
+    end
+  end
 
+  ##
+  # returns the current write concerns from `opts`
+  #
+  defp write_concern(opts) do
+    %{
+      w: Keyword.get(opts, :w),
+      j: Keyword.get(opts, :j),
+      wtimeout: Keyword.get(opts, :wtimeout)
+    } |> filter_nils()
   end
 
-  def collect(doc, :updates) do
+  @doc"""
+  Executues one unordered bulk write. The execution order of operation groups is
 
+  * inserts
+  * updates
+  * deletes
+
+  The function returns a keyword list with the results of each operation group:
+  For the details see https://github.com/mongodb/specifications/blob/master/source/crud/crud.rst#results
+  """
+  def one_bulk_write(conn, %UnorderedBulk{coll: coll, inserts: inserts, updates: updates, deletes: deletes} = bulk, write_concern, opts) do
+
+    with {_, inserts} <- one_bulk_write_operation(conn, :insert, coll, inserts, write_concern, opts),
+         {_, updates} <- one_bulk_write_operation(conn, :update, coll, updates, write_concern, opts),
+         {_, deletes} <- one_bulk_write_operation(conn, :delete, coll, deletes, write_concern, opts) do
+      [
+        acknowledged: acknowledged(write_concern),
+        insertedCount: inserts,
+        matchedCount: updates,
+        deletedCount: deletes,
+        upsertedCount: 0,
+        upsertedIds: [],
+        insertedIds: [],
+      ]
+    end
+  end
+
+  ###
+  # Executes the command `cmd` and collects the result.
+  #
+  def one_bulk_write_operation(conn, cmd, coll, docs, write_concern, opts) do
+    with result <- conn |> run_commands(get_cmds(cmd, coll, docs, write_concern, opts), opts) |> collect(cmd) do
+      {cmd, result}
+    end
   end
 
-  def collect(doc, :deletes) do
+  ##
+  # Converts the list of operations into insert/update/delete commands
+  #
+  defp get_cmds(:insert, coll, docs, write_concern, opts), do: get_insert_cmds(coll, docs, write_concern, opts)
+  defp get_cmds(:update, coll, docs, write_concern, opts), do: get_update_cmds(coll, docs, write_concern, opts)
+  defp get_cmds(:delete, coll, docs, write_concern, opts), do: get_delete_cmds(coll, docs, write_concern, opts)
+
+  defp acknowledged(%{w: w}) when w > 0, do: true
+  defp acknowledged(%{}), do: false
+
+  ###
+  # Converts the list of operations into list of lists with same operations.
+  #
+  # [inserts, inserts, updates] -> [[inserts, inserts],[updates]]
+  #
+  defp get_op_sequence(coll, ops) do
+    get_op_sequence(coll, ops, [])
+  end
+  defp get_op_sequence(coll, [], acc), do: acc
+  defp get_op_sequence(coll, ops, acc) do
+    [{kind, _doc} | _rest] = ops
+    {docs, rest} = find_max_sequence(kind, ops)
+    get_op_sequence(coll, rest, [{kind, docs} | acc])
+  end
+
+  ###
+  # Splits the sequence of operations into two parts
+  # 1) sequence of operations of kind `kind`
+  # 2) rest of operations
+  #
+  defp find_max_sequence(kind, rest) do
+    find_max_sequence(kind, rest, [])
+  end
+  defp find_max_sequence(_kind, [], acc) do
+    {acc, []}
+  end
+  defp find_max_sequence(kind, [{other, desc} | rest], acc) when kind == other do
+    find_max_sequence(kind, rest, [desc | acc])
+  end
+  defp find_max_sequence(_kind, rest, acc) do
+    {acc, rest}
+  end
+
+#  {
+#"acknowledged" : true,
+#"deletedCount" : 1,
+#"insertedCount" : 2,
+#              "matchedCount" : 2,
+#"upsertedCount" : 0,
+#"insertedIds" : {
+# "0" : 4,
+#"1" : 5
+#},
+#"upsertedIds" : {
+#
+# }
+# }
+
+  def collect(docs, :insert) do
+    docs
+    |> Enum.map(fn
+      {:ok, %{"n" => n}} -> n
+      {:ok, _other}      -> 0
+    end)
+    |> Enum.reduce(0, fn x, acc -> x + acc end)
+  end
+
+  def collect(docs, :update) do
+    docs
+    |> Enum.map(fn
+      {:ok, %{"n" => n}} -> n
+      {:ok, _other}      -> 0
+    end)
+    |> Enum.reduce(0, fn x, acc -> x + acc end)
+  end
 
+  def collect(docs, :delete) do
+    docs
+    |> Enum.map(fn
+      {:ok, %{"n" => n}} -> n
+      {:ok, _other}      -> 0
+    end)
+    |> Enum.reduce(0, fn x, acc -> x + acc end)
   end
 
   defp run_commands(conn, cmds, opts) do
 
-    IO.puts "Running cmsd #{inspect cmds}"
+    IO.puts "Running cmds #{inspect cmds}"
 
     cmds
     |> Enum.map(fn cmd -> Mongo.direct_command(conn, cmd, opts) end)
     |> Enum.map(fn {:ok, doc} -> {:ok, doc} end)
   end
 
-  def get_insert_cmds(%UnorderedBulk{coll: coll, inserts: all_inserts}, write_concern) do
+  def get_insert_cmds(coll, docs, write_concern, _opts) do
 
     max_batch_size = 10 ## only for test maxWriteBatchSize
 
-    {_ids, all_inserts} = assign_ids(all_inserts)
+    {_ids, docs} = assign_ids(docs)
 
-    all_inserts
+    docs
     |> Enum.chunk_every(max_batch_size)
     |> Enum.map(fn inserts -> get_insert_cmd(coll, inserts, write_concern) end)
 
   end
 
   defp get_insert_cmd(coll, inserts, write_concern) do
-    filter_nils([insert: coll, documents: inserts, writeConcern: write_concern])
+    [insert: coll,
+     documents: inserts,
+     writeConcern: write_concern] |> filter_nils()
   end
 
-  defp get_delete_cmds(%UnorderedBulk{coll: coll, deletes: all_deletes}, write_concern, opts) do
+  defp get_delete_cmds(coll, docs, write_concern, opts) do
 
     max_batch_size = 10 ## only for test maxWriteBatchSize
-    all_deletes
+    docs
     |> Enum.chunk_every(max_batch_size)
     |> Enum.map(fn deletes -> get_delete_cmd(coll, deletes, write_concern, opts) end)
 
   end
 
   defp get_delete_cmd(coll, deletes, write_concern, opts ) do
-    filter_nils([delete: coll,
-                 deletes: Enum.map(deletes, fn delete -> get_delete_doc(delete) end),
-                 ordered: Keyword.get(opts, :ordered),
-                 writeConcern: write_concern])
+    [delete: coll,
+     deletes: Enum.map(deletes, fn delete -> get_delete_doc(delete) end),
+     ordered: Keyword.get(opts, :ordered),
+     writeConcern: write_concern] |> filter_nils()
   end
-  defp get_delete_doc({filter, collaction, limit}) do
-    %{q: filter, limit: limit, collation: collaction} |> filter_nils()
+  defp get_delete_doc({filter, opts}) do
+    [q: filter,
+     limit: Keyword.get(opts, :limit),
+     collation: Keyword.get(opts, :collaction)] |> filter_nils()
   end
 
-  defp get_update_cmds(%UnorderedBulk{coll: coll, updates: all_updates}, write_concern, opts) do
+  defp get_update_cmds(coll, docs, write_concern, opts) do
 
     max_batch_size = 10 ## only for test maxWriteBatchSize
-    all_updates
+    docs
     |> Enum.chunk_every(max_batch_size)
     |> Enum.map(fn updates -> get_update_cmd(coll, updates, write_concern, opts) end)
 
diff --git a/lib/mongo/ordered_bulk.ex b/lib/mongo/ordered_bulk.ex
@@ -0,0 +1,86 @@
+defmodule Mongo.OrderedBulk do
+  @moduledoc """
+
+   The maxWriteBatchSize limit of a database, which indicates the maximum number of write operations permitted in a write batch, raises from 1,000 to 100,000.
+
+  """
+
+  alias Mongo.OrderedBulk
+
+  defstruct coll: nil, ops: []
+
+  def new(coll) do
+    %OrderedBulk{coll: coll}
+  end
+
+  def insert_one(%OrderedBulk{ops: rest} = bulk, doc) do
+    %OrderedBulk{bulk | ops: [{:insert, doc} | rest] }
+  end
+
+  def delete_one(%OrderedBulk{ops: rest} = bulk, doc, opts \\ []) do
+    %OrderedBulk{bulk | ops: [{:delete, {doc, Keyword.put(opts, :limit, 1)}} | rest] }
+  end
+
+  def delete_many(%OrderedBulk{ops: rest} = bulk, doc, opts \\ []) do
+    %OrderedBulk{bulk | ops: [{:delete, {doc, Keyword.put(opts, :limit, 0)}} | rest] }
+  end
+
+  def update_one(%OrderedBulk{ops: rest} = bulk, filter, update, opts \\ []) do
+    ## _ = modifier_docs(update, :update)
+    %OrderedBulk{bulk | ops: [{:update, {filter, update, Keyword.put(opts, :multi, false)}} | rest] }
+  end
+
+  def update_many(%OrderedBulk{ops: rest} = bulk, filter, update, opts \\ []) do
+    ## _ = modifier_docs(update, :update)
+    %OrderedBulk{bulk | ops: [{:update, {filter, update, Keyword.put(opts, :multi, true)}} | rest] }
+  end
+
+  def replace_one(%OrderedBulk{ops: rest} = bulk, filter, replacement, opts \\ []) do
+    ## _ = modifier_docs(replacement, :replace)
+    %OrderedBulk{bulk | ops: [{:update, {filter, replacement, Keyword.put(opts, :multi, false)}} | rest] }
+  end
+
+  def test() do
+
+    seeds = ["127.0.0.1:27001", "127.0.0.1:27002", "127.0.0.1:27003"]
+    {:ok, top} = Mongo.start_link(database: "me", seeds: seeds, show_sensitive_data_on_connection_error: true)
+
+    bulk = "bulk"
+           |> new()
+           |> insert_one(%{name: "Greta"})
+           |> insert_one(%{name: "Tom"})
+           |> insert_one(%{name: "Waldo"})
+           |> update_one(%{name: "Greta"}, %{"$set": %{kind: "dog"}})
+           |> update_one(%{name: "Tom"}, %{"$set": %{kind: "dog"}})
+           |> update_one(%{name: "Waldo"}, %{"$set": %{kind: "dog"}})
+           |> update_many(%{kind: "dog"}, %{"$set": %{kind: "cat"}})
+           |> delete_one(%{kind: "cat"})
+           |> delete_one(%{kind: "cat"})
+           |> delete_one(%{kind: "cat"})
+
+    IO.puts inspect bulk
+
+    result = Mongo.BulkWrite.bulk_write(top, bulk, w: 1)
+
+    IO.puts inspect result
+  end
+
+  def test2() do
+
+    # create a streaming bulk write with max 1024 operations
+    bulk_stream = "bulk" |> new_stream(:mongo, 1024, w: 1)
+
+    # now streaming a long text file with small memory usage
+    File.stream!(file)
+    |> Stream.with_index
+    #|> Stream.map(fn {name, i} -> insert_one(%{line: i, name: name}) end) # {:insert, %{line: i, name: name}}
+    # |> Stream.into(bulk_stream, (fn {name, i} -> insert_one(%{line: i, name: name}) end))
+    |> Stream.map(fn {name, i} -> bulk_stream.insert_one(%{line: i, name: name}) end)
+    |> Stream.reduce()
+
+    File.stream!(src_filename, [], 512) |> Stream.into(bulk_stream) |> Stream.run()
+
+  end
+
+
+end
diff --git a/lib/mongo/unordered_bulk.ex b/lib/mongo/unordered_bulk.ex