irfanghat
diff --git a/‎.github/workflows/build_and_test.yml‎
Lines changed: 15 additions & 2 deletions b/‎.github/workflows/build_and_test.yml‎
Lines changed: 15 additions & 2 deletions
diff --git a/‎README.md‎
Lines changed: 2 additions & 1 deletion b/‎README.md‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎docker-compose.yaml‎
Lines changed: 16 additions & 2 deletions b/‎docker-compose.yaml‎
Lines changed: 16 additions & 2 deletions
diff --git a/‎docs/API_REFERENCE.md‎
Lines changed: 166 additions & 0 deletions b/‎docs/API_REFERENCE.md‎
Lines changed: 166 additions & 0 deletions
diff --git a/‎src/buf.yaml‎
Lines changed: 0 additions & 25 deletions b/‎src/buf.yaml‎
Lines changed: 0 additions & 25 deletions
diff --git a/‎src/dataframe.cpp‎
Lines changed: 1 addition & 4 deletions b/‎src/dataframe.cpp‎
Lines changed: 1 addition & 4 deletions
diff --git a/‎src/dataframe.h‎
Lines changed: 6 additions & 0 deletions b/‎src/dataframe.h‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎src/functions.cpp‎
Lines changed: 16 additions & 0 deletions b/‎src/functions.cpp‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎src/functions.h‎
Lines changed: 2 additions & 0 deletions b/‎src/functions.h‎
Lines changed: 2 additions & 0 deletions
@@ -32,8 +32,21 @@ jobs:
       - name: Start Spark Connect Server
         run: |
           $HOME/spark/sbin/start-connect-server.sh \
-            --packages org.apache.spark:spark-connect_2.12:3.5.1
-          sleep 10
+            --packages "org.apache.spark:spark-connect_2.12:3.5.3,io.delta:delta-spark_2.12:3.2.0,io.graphframes:graphframes-spark3_2.12:0.10.0,io.graphframes:graphframes-connect-spark3_2.12:0.10.0" \
+            --conf "spark.connect.extensions.relation.classes=org.apache.spark.sql.graphframes.GraphFramesConnect" \
+            --conf "spark.driver.extraJavaOptions=-Divy.cache.dir=/tmp -Divy.home=/tmp -XX:+UseG1GC -XX:+HeapDumpOnOutOfMemoryError" \
+            --conf "spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension" \
+            --conf "spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog" \
+            --conf "spark.driver.memory=4g" \
+            --conf "spark.executor.memory=4g" \
+            --conf "spark.memory.fraction=0.8" \
+            --conf "spark.memory.storageFraction=0.3" \
+            --conf "spark.sql.shuffle.partitions=8" \
+            --conf "spark.default.parallelism=8" \
+            --conf "spark.driver.maxResultSize=2g"
+
+          # wait for server
+          sleep 15
 
       - name: Install gcovr
         run: |
 
@@ -112,6 +112,7 @@ The Spark Connect C++ client is **not a replacement** for Python or Scala Spark
 | Analytics    | Window Functions                     | ○      | Planned             |
 | Catalog      | Table/Database Management            | ○      | Planned             |
 | Streaming    | Structured Streaming                 | ◌      | Not Implemented     |
+| GraphFrames  | Graph processing & analytics         | ●      | Implemented         |
 
 ---
 
@@ -349,7 +350,7 @@ Running a sample application:
 int main()
 {
     auto spark = &SparkSession::builder()
-                     .master("localhost")
+                     .master("sc://localhost")
                      .appName("demo")
                      .getOrCreate();
 
 
@@ -3,17 +3,31 @@ services:
     image: "apache/spark:3.5.3-scala2.12-java17-python3-ubuntu"
     command: >
       /opt/spark/sbin/start-connect-server.sh
-      --packages "org.apache.spark:spark-connect_2.12:3.5.3,io.delta:delta-spark_2.12:3.2.0"
-      --conf "spark.driver.extraJavaOptions=-Divy.cache.dir=/tmp -Divy.home=/tmp"
+      --packages "org.apache.spark:spark-connect_2.12:3.5.3,io.delta:delta-spark_2.12:3.2.0,io.graphframes:graphframes-spark3_2.12:0.10.0,io.graphframes:graphframes-connect-spark3_2.12:0.10.0"
+      --conf "spark.connect.extensions.relation.classes=org.apache.spark.sql.graphframes.GraphFramesConnect"
+      --conf "spark.driver.extraJavaOptions=-Divy.cache.dir=/tmp -Divy.home=/tmp -XX:+UseG1GC -XX:+HeapDumpOnOutOfMemoryError"
       --conf "spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension"
       --conf "spark.sql.catalog.spark_catalog=org.apache.spark.sql.delta.catalog.DeltaCatalog"
+      --conf "spark.driver.memory=4g"
+      --conf "spark.executor.memory=4g"
+      --conf "spark.memory.fraction=0.8"
+      --conf "spark.memory.storageFraction=0.3"
+      --conf "spark.sql.shuffle.partitions=8"
+      --conf "spark.default.parallelism=8"
+      --conf "spark.driver.maxResultSize=2g"
     environment:
       - SPARK_NO_DAEMONIZE=true
     ports:
       - "4040:4040"
       - "15002:15002"
     volumes:
       - ./datasets:/opt/spark/work-dir/datasets
+    deploy:
+      resources:
+        limits:
+          memory: 8g
+        reservations:
+          memory: 4g
     networks:
       - default
 
 
@@ -10,7 +10,12 @@
 int main() {
     Config conf;
     conf.setHost("localhost").setPort(15002);
+    // -----------------------------------------------------------
+    // Alternatively...
+    // conf.setHost("sc://localhost").setPort(15002);
     // conf.setHost("123.45.67.8").setPort(15002);
+    // ...
+    // -----------------------------------------------------------
     SparkSession spark(conf);
 
     auto df = spark->sql("SELECT * FROM range(100)");
@@ -1194,4 +1199,165 @@ df.show();
 | Grant                | Martin               | 72                   | grrm@cmpny.com       | Grant Martin         | adult                |
 | Hannah               | Abbott               | 18                   | h.abbott@hogwarts... | Hannah Abbott        | minor                |
 +----------------------+----------------------+----------------------+----------------------+----------------------+----------------------+
+```
+
+## GraphFrames
+
+### Page Rank
+
+```cpp
+DataFrame *vertices = nullptr;
+DataFrame *edges = nullptr;
+
+vertices = spark->sql(R"(
+    SELECT CAST(id AS INT) AS id, name, age FROM VALUES
+        (1, 'Alice',   34),
+        (2, 'Bob',     36),
+        (3, 'Charlie', 30),
+        (4, 'Anne',    29)
+    AS people(id, name, age)
+)");
+
+edges = spark->sql(R"(
+    SELECT CAST(src AS INT) AS src, CAST(dst AS INT) AS dst, relationship FROM VALUES
+        (1, 2, 'friend'),
+        (2, 3, 'follow'),
+        (3, 1, 'friend'),
+        (1, 4, 'colleague')
+    AS connections(src, dst, relationship)
+)");
+
+auto gf = GraphFrame(*vertices, *edges);
+
+auto rows = gf().pageRank(0.15, 5).collect();
+gf().pageRank(0.15, 5).show();
+```
+
+### Motif Matching
+
+```cpp
+auto gf = GraphFrame(*vertices, *edges);
+
+gf().find("(a)-[e]->(b)");
+gf().find("(a)-[e1]->(b); (b)-[e2]->(c); (c)-[e3]->(a)");
+gf().find("(a)-[e1]->(b); (b)-[e2]->(c)");
+gf().find("(a)-[e]->(b)");
+gf().find("(a)-[e]->(b)").show();
+```
+
+### Triplets
+
+```cpp
+auto gf = GraphFrame(*vertices, *edges);
+gf().triplets();
+gf().triplets().show();
+```
+
+### Filter Edges
+
+```cpp
+auto gf = GraphFrame(*vertices, *edges);
+gf().filterEdges("relationship = 'friend'");
+gf().filterEdges(col("relationship") == lit("friend"));
+gf().filterEdges("relationship = 'enemy'");
+gf().filterEdges("relationship = 'friend'").show()
+```
+
+### Filter Vertices
+
+```cpp
+auto gf = GraphFrame(*vertices, *edges);
+gf().filterVertices("age < 34");
+gf().filterVertices(col("age") < lit(34));
+gf().filterVertices("age > 100");
+gf().filterVertices("age < 34").show();
+```
+
+### Drop Isolated Vertices
+
+```cpp
+auto gf = GraphFrame(*vertices, *edges);
+gf().dropIsolatedVertices();
+
+auto v_with_isolated = spark->sql(R"(
+    SELECT * FROM VALUES
+        (1, 'Alice',   34),
+        (2, 'Bob',     36),
+        (3, 'Charlie', 30),
+        (4, 'Anne',    29),
+        (99, 'Ghost',  99)
+    AS people(id, name, age)
+)");
+
+GraphFrame(v_with_isolated, *edges).dropIsolatedVertices().show();
+```
+
+### Breadth First Search
+
+```cpp
+auto gf = GraphFrame(*vertices, *edges);
+gf().bfs("id = 1", "id = 3");
+gf().bfs("id = 4", "id = 1");
+gf().bfs("id = 1", "id = 2", "relationship = 'friend'");
+gf().bfs(col("id") == lit(1), col("id") == lit(3));
+gf().bfs("id = 1", "id = 3").show();
+```
+
+### Connected Components
+
+```cpp
+auto gf = GraphFrame(*vertices, *edges);
+gf().connectedComponents();
+gf().connectedComponents().show();
+```
+
+### Strongly Connected Components
+
+```cpp
+auto gf = GraphFrame(*vertices, *edges);
+gf().stronglyConnectedComponents(10);
+gf().stronglyConnectedComponents();
+gf().stronglyConnectedComponents().show();
+```
+
+### Shortest Paths
+
+```cpp
+auto gf = GraphFrame(*vertices, *edges);
+gf().shortestPaths(std::vector<int32_t>{1, 3});
+gf().shortestPaths(std::vector<int32_t>{1});
+gf().shortestPaths(std::vector<int32_t>{1}).show();
+```
+
+### Triangle Count
+
+```cpp
+auto gf = GraphFrame(*vertices, *edges);
+
+gf().triangleCount();
+gf().triangleCount().show();
+
+auto rows = gf().triangleCount().collect();
+
+std::map<int32_t, int64_t> counts;
+for (auto &row : rows)
+    counts[row.get<int32_t>("id")] = row.get<int64_t>("count");
+```
+
+### Label Propagation
+
+```cpp
+auto gf = GraphFrame(*vertices, *edges);
+gf().labelPropagation(5);
+```
+
+### Method Chaining (GraphFrames)
+
+```cpp
+// GraphFrames result into plain DataFrame ops
+auto result = gf()
+                .find("(a)-[e]->(b)")
+                .filter("e.relationship = 'friend'");
+
+auto result = gf().pageRank(0.15, 5).filter("pagerank > 0.0");
 ```
@@ -603,12 +603,9 @@ int64_t DataFrame::count()
     auto result_df = this->groupBy().count();
     auto rows = result_df.collect();
 
-    if (rows.empty())
+    if (rows.empty() || rows[0].values.empty())
         return 0;
 
-    // -----------------------------------------------------------
-    // Extract the first column of the first row i.e. the count
-    // -----------------------------------------------------------
     return rows[0].get_long(rows[0].column_names[0]);
 }
 
 
@@ -12,6 +12,11 @@
 
 using namespace spark::sql::types;
 
+namespace graphframes
+{
+    class GraphFrame;
+}
+
 class DataFrameWriter;
 class GroupedData;
 
@@ -369,6 +374,7 @@ class DataFrame
 
 private:
     friend class GroupedData;
+    friend class graphframes::GraphFrame;
 
     std::shared_ptr<spark::connect::SparkConnectService::Stub> stub_;
     spark::connect::Plan plan_;
 
@@ -67,6 +67,15 @@ namespace spark::sql::functions
         return Column(std::move(e));
     }
 
+    Column Column::cast(const std::string &type) const
+    {
+        spark::connect::Expression e;
+        auto *cast = e.mutable_cast();
+        *cast->mutable_expr() = *this->expr;
+        cast->mutable_type()->mutable_unparsed()->set_data_type_string(type);
+        return Column(std::move(e));
+    }
+
     Column lower(const Column &e)
     {
         spark::connect::Expression expr;
@@ -85,6 +94,13 @@ namespace spark::sql::functions
         return Column(std::move(e));
     }
 
+    Column lit(int64_t value)
+    {
+        spark::connect::Expression e;
+        e.mutable_literal()->set_integer(value);
+        return Column(std::move(e));
+    }
+
     Column lit(double value)
     {
         spark::connect::Expression e;
 
@@ -37,6 +37,7 @@ namespace spark::sql::functions
 
         Column alias(const std::string &name) const;
         Column otherwise(const Column &value) const;
+        Column cast(const std::string &type) const;
     };
 
     /**
@@ -48,6 +49,7 @@ namespace spark::sql::functions
      * @brief Creates a `Column` of literal value.
      */
     Column lit(int32_t value);
+    Column lit(int64_t value);
     Column lit(double value);
     Column lit(const std::string &value);