Move environment variables to Dockerfile, add docs to README.md

hegyibalint · hegyibalint · commit 5a84bb50b247 · 2019-04-30T10:40:32.000+02:00
diff --git a/Dockerfile b/Dockerfile
@@ -11,4 +11,9 @@ WORKDIR /opt/ldbc_snb_datagen
 RUN mvn -DskipTests clean assembly:assembly
 
 ENV HADOOP_CLIENT_OPTS '-Xmx8G'
+ENV DATAGEN_SCALE_FACTOR 'snb.interactive.1'
+ENV DATAGEN_PERSON_SERIALIZER 'ldbc.snb.datagen.serializer.snb.interactive.CSVPersonSerializer'
+ENV DATAGEN_INVARIANT_SERIALIZER 'ldbc.snb.datagen.serializer.snb.interactive.CSVInvariantSerializer'
+ENV DATAGEN_PERSON_ACTIVITY_SERIALIZER 'ldbc.snb.datagen.serializer.snb.interactive.CSVPersonActivitySerializer'
+
 CMD /opt/ldbc_snb_datagen/docker_run.sh
diff --git a/README.md b/README.md
@@ -33,6 +33,33 @@ cd $LDBC_SNB_DATAGEN_HOME
 ./run.sh
 ```
 
+## Docker image
+
+The image can be simply built with the provided Dockerfile.
+To build, execute the following command from the project directory:
+```
+docker build . --tag ldbc/datagen
+```
+
+### Running
+
+The project will output it's results in the `/opt/ldbc_snb_datagen/social_network/` directory. In order to save the results of the generation, a directory must be mounted in the container from the host:
+
+```
+mkdir datagen_output
+
+docker run --rm --mount type=bind,source="$(pwd)/datagen_output/",target="/opt/ldbc_snb_datagen/social_network/" ldbc/datagen
+```
+
+### Options
+
+The container image can be customized with environment variables passed through the `docker run` command. The following options are present:
+  * `HADOOP_CLIENT_OPTS`: A standard HADOOP environment variable controlling the Hadoop client parameters. Default is `-Xmx8G` to provide the client enough heap.
+  * `DATAGEN_SCALE_FACTOR`: The scale factor of the generated dataset. Default is `snb.interactive.1`
+  * `DATAGEN_PERSON_SERIALIZER`: The serializer used for Person objects. Default is `ldbc.snb.datagen.serializer.snb.interactive.CSVPersonSerializer`
+  * `DATAGEN_INVARIANT_SERIALIZER` The serializer used for Invariant objects. Default is `ldbc.snb.datagen.serializer.snb.interactive.CSVInvariantSerializer`
+  * `DATAGEN_PERSON_ACTIVITY_SERIALIZER` The serializer used for Invariant objects. Default is `ldbc.snb.datagen.serializer.snb.interactive.CSVPersonActivitySerializer`
+
 <!-- **Datasets** -->
 
 <!-- Publicly available datasets can be found at the LDBC-SNB Amazon Bucket. These datasets are the official SNB datasets and were  generated using version 0.2.6. They are available in the three official supported serializers: CSV, CSVMergeForeign and TTL. The bucket is configured in "Requester Pays" mode, thus in order to access them you need a properly set up AWS client.
diff --git a/docker_run.sh b/docker_run.sh
@@ -1,17 +1,12 @@
 #!/bin/bash
 
-# Variables for the default settings
-DEFAULT_SCALE_FACTOR=snb.interactive.1
-DEFAULT_PERSON_SERIALIZER=ldbc.snb.datagen.serializer.snb.interactive.CSVPersonSerializer
-DEFAULT_INVARIANT_SERIALIZER=ldbc.snb.datagen.serializer.snb.interactive.CSVPersonSerializer
-DEFAULT_PERSON_ACTIVITY_SERIALIZER=ldbc.snb.datagen.serializer.snb.interactive.CSVPersonSerializer
-
 # Parameter serialization
 PARAMS_FILE=params.ini
-echo "ldbc.snb.datagen.generator.scaleFactor:${SCALE_FACTOR:-$DEFAULT_SCALE_FACTOR}" > ${PARAMS_FILE}
-echo "ldbc.snb.datagen.serializer.personSerializer:${PERSON_SERIALIZER:-$DEFAULT_SERIALIZER}" >> ${PARAMS_FILE}
-echo "ldbc.snb.datagen.serializer.invariantSerializer:${INVARIANT_SERIALIZER:-$DEFAULT_INVARIANT_SERIALIZER}" >> ${PARAMS_FILE}
-echo "ldbc.snb.datagen.serializer.personActivitySerializer:${PERSON_ACTIVITY_SERIALIZER:-$DEFAULT_PERSON_ACTIVITY_SERIALIZER}" >> ${PARAMS_FILE}
+echo "ldbc.snb.datagen.generator.numThreads":$(nproc) > ${PARAMS_FILE}
+echo "ldbc.snb.datagen.generator.scaleFactor:${DATAGEN_SCALE_FACTOR}" >> ${PARAMS_FILE}
+echo "ldbc.snb.datagen.serializer.personSerializer:${DATAGEN_PERSON_SERIALIZER}" >> ${PARAMS_FILE}
+echo "ldbc.snb.datagen.serializer.invariantSerializer:${DATAGEN_INVARIANT_SERIALIZER}" >> ${PARAMS_FILE}
+echo "ldbc.snb.datagen.serializer.personActivitySerializer:${DATAGEN_PERSON_ACTIVITY_SERIALIZER}" >> ${PARAMS_FILE}
 
 # Running the generator
 /opt/hadoop-2.6.0/bin/hadoop jar /opt/ldbc_snb_datagen/target/ldbc_snb_datagen-0.2.7-jar-with-dependencies.jar /opt/ldbc_snb_datagen/params.ini