IBM
diff --git a/‎notebooks/Project_CodeNet_LangClass.ipynb
Lines changed: 872 additions & 0 deletions b/‎notebooks/Project_CodeNet_LangClass.ipynb
Lines changed: 872 additions & 0 deletions
diff --git a/‎notebooks/Project_CodeNet_MLM.ipynb
Lines changed: 815 additions & 0 deletions b/‎notebooks/Project_CodeNet_MLM.ipynb
Lines changed: 815 additions & 0 deletions
diff --git a/‎notebooks/README.md
Lines changed: 4 additions & 0 deletions b/‎notebooks/README.md
Lines changed: 4 additions & 0 deletions
diff --git a/‎tools/spt-generator/examples/demos/c/helloworld.json
Lines changed: 77 additions & 6 deletions b/‎tools/spt-generator/examples/demos/c/helloworld.json
Lines changed: 77 additions & 6 deletions
diff --git a/‎tools/tokenizer/Makefile
Lines changed: 4 additions & 14 deletions b/‎tools/tokenizer/Makefile
Lines changed: 4 additions & 14 deletions
diff --git a/‎tools/tokenizer/README.md
Lines changed: 3 additions & 2 deletions b/‎tools/tokenizer/README.md
Lines changed: 3 additions & 2 deletions
diff --git a/‎tools/tokenizer/c++20.kw
Lines changed: 0 additions & 95 deletions b/‎tools/tokenizer/c++20.kw
Lines changed: 0 additions & 95 deletions
@@ -0,0 +1,4 @@
+# Example notebooks for Project CodeNet
+
+This directory contains Jupyter notebooks that show how to use the Project
+CodeNet dataset in several example applications.
@@ -2,122 +2,193 @@
 {
     "graph":{
         "version":"1.0",
+        "src-file":"./helloworld.c",
         "type":"tree",
         "directed":true,
         "order":"bfs",
+        "num-of-nodes":17,
+        "num-of-edges":16,
         "root":0,
         "nodes":[
             {
                 "id":0,
                 "label":"##",
                 "node-type":"Rule",
-                "type-rule-name":"compilationUnit"
+                "type-rule-name":"compilationUnit",
+                "type-rule-index":82,
+                "reserved-word-flag":false,
+                "dfs-index":0,
+                "depth":0
             },
             {
                 "id":1,
                 "label":"##",
                 "node-type":"Rule",
-                "type-rule-name":"functionDefinition"
+                "type-rule-name":"functionDefinition",
+                "type-rule-index":85,
+                "reserved-word-flag":false,
+                "dfs-index":1,
+                "depth":1
             },
             {
                 "id":2,
                 "label":"<EOF>",
                 "node-type":"Token",
                 "type-rule-name":"EOF",
+                "type-rule-index":-1,
+                "reserved-word-flag":false,
+                "dfs-index":16,
+                "depth":1,
                 "token-id":11
             },
             {
                 "id":3,
                 "label":"#()",
                 "node-type":"Rule",
-                "type-rule-name":"directDeclarator"
+                "type-rule-name":"directDeclarator",
+                "type-rule-index":48,
+                "reserved-word-flag":false,
+                "dfs-index":2,
+                "depth":2
             },
             {
                 "id":4,
                 "label":"{#}",
                 "node-type":"Rule",
-                "type-rule-name":"compoundStatement"
+                "type-rule-name":"compoundStatement",
+                "type-rule-index":72,
+                "reserved-word-flag":false,
+                "dfs-index":6,
+                "depth":2
             },
             {
                 "id":5,
                 "label":"main",
                 "node-type":"Token",
                 "type-rule-name":"Identifier",
+                "type-rule-index":105,
+                "reserved-word-flag":false,
+                "dfs-index":3,
+                "depth":3,
                 "token-id":1
             },
             {
                 "id":6,
                 "label":"(",
                 "node-type":"Token",
                 "type-rule-name":"'('",
+                "type-rule-index":59,
+                "reserved-word-flag":true,
+                "dfs-index":4,
+                "depth":3,
                 "token-id":2
             },
             {
                 "id":7,
                 "label":")",
                 "node-type":"Token",
                 "type-rule-name":"')'",
+                "type-rule-index":60,
+                "reserved-word-flag":true,
+                "dfs-index":5,
+                "depth":3,
                 "token-id":3
             },
             {
                 "id":8,
                 "label":"{",
                 "node-type":"Token",
                 "type-rule-name":"'{'",
+                "type-rule-index":63,
+                "reserved-word-flag":true,
+                "dfs-index":7,
+                "depth":3,
                 "token-id":4
             },
             {
                 "id":9,
                 "label":"#;",
                 "node-type":"Rule",
-                "type-rule-name":"expressionStatement"
+                "type-rule-name":"expressionStatement",
+                "type-rule-index":75,
+                "reserved-word-flag":false,
+                "dfs-index":8,
+                "depth":3
             },
             {
                 "id":10,
                 "label":"}",
                 "node-type":"Token",
                 "type-rule-name":"'}'",
+                "type-rule-index":64,
+                "reserved-word-flag":true,
+                "dfs-index":15,
+                "depth":3,
                 "token-id":10
             },
             {
                 "id":11,
                 "label":"#(#)",
                 "node-type":"Rule",
-                "type-rule-name":"postfixExpression"
+                "type-rule-name":"postfixExpression",
+                "type-rule-index":4,
+                "reserved-word-flag":false,
+                "dfs-index":9,
+                "depth":4
             },
             {
                 "id":12,
                 "label":";",
                 "node-type":"Token",
                 "type-rule-name":"';'",
+                "type-rule-index":87,
+                "reserved-word-flag":true,
+                "dfs-index":14,
+                "depth":4,
                 "token-id":9
             },
             {
                 "id":13,
                 "label":"printf",
                 "node-type":"Token",
                 "type-rule-name":"Identifier",
+                "type-rule-index":105,
+                "reserved-word-flag":false,
+                "dfs-index":10,
+                "depth":5,
                 "token-id":5
             },
             {
                 "id":14,
                 "label":"(",
                 "node-type":"Token",
                 "type-rule-name":"'('",
+                "type-rule-index":59,
+                "reserved-word-flag":true,
+                "dfs-index":11,
+                "depth":5,
                 "token-id":6
             },
             {
                 "id":15,
                 "label":"\"Hello World\"",
                 "node-type":"Token",
                 "type-rule-name":"StringLiteral",
+                "type-rule-index":108,
+                "reserved-word-flag":false,
+                "dfs-index":12,
+                "depth":5,
                 "token-id":7
             },
             {
                 "id":16,
                 "label":")",
                 "node-type":"Token",
                 "type-rule-name":"')'",
+                "type-rule-index":60,
+                "reserved-word-flag":true,
+                "dfs-index":13,
+                "depth":5,
                 "token-id":8
             }
         ],
 
@@ -12,29 +12,19 @@ PROGS = tokenize antlr4tojson pytokenize jstokenize
 all: $(PROGS)
 
 tokenize: tokenize.o
-tokenize.o: tokenize.c cpp_keywords.h java_keywords.h
+tokenize.o: tokenize.c
+
 antlr4tojson: antlr4tojson.o
 antlr4tojson.o: antlr4tojson.c
+
 pytokenize: pytokenize.o token_common.o
 pytokenize.o: pytokenize.c token_common.h
+
 jstokenize: jstokenize.o token_common.o
 jstokenize.o: jstokenize.c token_common.h
 
 token_common.o: token_common.c token_common.h
 
-cpp_keywords.h: c++20.kw
-	gperf -LC -Nis_cpp_keyword -Hcpp_hash -c -C -I -m1 --output-file=$@ $<
-
-java_keywords.h: java.kw
-	gperf -LC -Nis_java_keyword -Hjava_hash -c -C -I -m1 --output-file=$@ $<
-	# must change some global names:
-	sed -i \
-	-e 's/TOTAL_KEYWORDS/JAVA_TOTAL_KEYWORDS/g' \
-	-e 's/MIN_WORD_LENGTH/JAVA_MIN_WORD_LENGTH/g' \
-	-e 's/MAX_WORD_LENGTH/JAVA_MAX_WORD_LENGTH/g' \
-	-e 's/MIN_HASH_VALUE/JAVA_MIN_HASH_VALUE/g' \
-	-e 's/MAX_HASH_VALUE/JAVA_MAX_HASH_VALUE/g' $@
-
 .PHONY: clean
 clean:
 	@-rm -f *.o
 
@@ -68,17 +68,18 @@ A tokenizer for C/C++ (and Java) source code with output in 6 formats.
 Recognizes the following token classes: keyword, identifier, integer,
 floating, string, character, operator, and preprocessor.
 
-usage: tokenize [ -1cdhjl:m:no:rsvw ] [ FILES ]
+usage: tokenize [ -1acdhjl:m:no:rsvw ] [ FILES ]
 
 Command line options are:
+-a       : append to output file instead of create or overwrite.
 -c       : treat a # character as the start of a line comment.
 -d       : print debug info to stderr; implies -v.
 -h       : print just this text to stderr and stop.
 -j       : assume input is Java (deprecated: use -l Java or .java).
 -l<lang> : specify language explicitly (C, C++, Java).
 -m<mode> : output mode either plain (default), csv, json, jsonl, xml, or raw.
 -n       : output newlines as a special pseudo token.
--o<file> : name for output file (instead of stdout).
+-o<file> : write output to this file (instead of stdout).
 -s       : enable a special start token specifying the filename.
 -1       : treat all filename arguments as a continuous single input.
 -v       : print action summary to stderr.