Merge pull request #13 from Wikidata-lib/useJsonDumps

tobijat · tobijat · commit 9f977197549c · 2014-11-10T14:30:44.000+01:00
use Json Dumps for analysis
diff --git a/dumpconverter.py b/dumpconverter.py
@@ -2,17 +2,16 @@
 import sys
 import time
 
-from propertysuggester.parser import XmlReader, CsvWriter
+from propertysuggester.parser import JsonReader, CsvWriter
 from propertysuggester.utils.CompressedFileType import CompressedFileType
 
 if __name__ == "__main__":
-    parser = argparse.ArgumentParser(description="this program converts wikidata XML dumps to CSV data.")
-    parser.add_argument("input", help="The XML input file (a wikidata dump)", type=CompressedFileType('r'))
+    parser = argparse.ArgumentParser(description="this program converts wikidata JSON dumps to CSV data.")
+    parser.add_argument("input", help="The JSON input file (a wikidata dump)", type=CompressedFileType('r'))
     parser.add_argument("output", help="The CSV output file (default=sys.stdout)", default=sys.stdout, nargs='?',
                         type=CompressedFileType('wb'))
-    parser.add_argument("-p", "--processes", help="Number of processors to use (default 4)", type=int, default=4)
+    #parser.add_argument("-p", "--processes", help="Number of processors to use (default 4)", type=int, default=4)
     args = parser.parse_args()
-
     start = time.time()
-    CsvWriter.write_csv(XmlReader.read_xml(args.input, args.processes), args.output)
+    CsvWriter.write_csv(JsonReader.read_json(args.input), args.output)
     print "total time: %.2fs" % (time.time() - start)
diff --git a/propertysuggester/parser/JsonReader.py b/propertysuggester/parser/JsonReader.py
@@ -0,0 +1,95 @@
+"""
+read_json returns a generator that yields Entities)
+
+usage:
+with open("file.csv", "r") as f:
+    for entity in read_json(f):
+        do_things()
+
+"""
+from propertysuggester.utils.datamodel import Claim, Entity, Snak
+
+try:
+    import ujson as json
+except ImportError:
+    print "ujson not found"
+    import json as json
+
+
+def read_json(input_file):
+    """
+    @rtype : collections.Iterable[Entity]
+    @type input_file:  file or GzipFile or StringIO.StringIO
+    """
+    count = 0
+    for jsonline in input_file:
+        count += 1
+        if count % 3000 == 0:
+            print "processed %.2fMB" % (input_file.tell() / 1024.0 ** 2)
+
+        if jsonline[0] == "{":
+            jsonline = jsonline.rstrip(",\r\n")
+            data = json.loads(jsonline)
+            if data["type"] == "item":
+                yield _process_json(data)
+
+
+def _process_json(data):
+    title = data["id"]
+    if not "claims" in data:
+        return Entity(title, [])
+    claims = []
+    for property_id, statements in data["claims"].iteritems():
+        for statement in statements:
+            references = []
+            if "references" in statement:
+                for reference in statement["references"]:  # TODO: group reference snaks correctly
+                    for ref_id, snaks in reference["snaks"].iteritems():
+                        for snak in snaks:
+                            ref = _parse_json_snak(snak)
+                            if ref:
+                                references.append(ref)
+            qualifiers = []
+            if "qualifiers" in statement:
+                for qual_id, snaks in statement["qualifiers"].iteritems():
+                    for snak in snaks:
+                        qualifier = _parse_json_snak(snak)
+                        if qualifier:
+                            qualifiers.append(qualifier)
+            claim = _parse_json_snak(statement["mainsnak"])
+            if claim:
+                claims.append(Claim(claim, qualifiers, references))
+
+    return Entity(title, claims)
+
+
+def _parse_json_snak(claim_json):
+    if claim_json["snaktype"] == "value":
+        datatype = claim_json["datatype"]
+        datavalue = claim_json["datavalue"]["value"]
+        if datatype in ("string", "commonsMedia", "url"):
+            value = datavalue
+        elif datatype == "wikibase-item":
+            if datavalue["entity-type"] == "item":
+                value = "Q" + str(datavalue["numeric-id"])
+            else:
+                print "WARNING unknown entitytype: {0}".format(datavalue["entity-type"])
+        elif datatype == "time":
+            value = datavalue["time"]
+        elif datatype == "quantity":
+            value = datavalue["amount"]
+        elif datatype == "globe-coordinate":
+            value = "N{0[latitude]}, E{0[longitude]}".format(datavalue)
+        elif datatype == "monolingualtext":
+            value = u"{0[text]} ({0[language]})".format(datavalue)
+        elif datatype == "bad":
+            # for example in Q2241
+            return None
+        else:
+            print "WARNING unknown wikidata datatype: %s" % datatype
+            return None
+    else:  # novalue, somevalue, ...
+        datatype = "unknown"
+        value = claim_json["snaktype"]
+    property_id = int(claim_json["property"][1:])
+    return Snak(property_id, datatype, value)
diff --git a/propertysuggester/parser/XmlReader.py b/propertysuggester/parser/XmlReader.py
@@ -114,6 +114,7 @@ def _parse_json_snak(claim_json):
         if datatype == "string":
             value = claim_json[3]
         elif datatype == "wikibase-entityid":
+            datatype = "wikibase-item"
             if claim_json[3]["entity-type"] == "item":
                 value = "Q" + str(claim_json[3]["numeric-id"])
             else:
diff --git a/propertysuggester/test/parser/Wikidata-Q15511.json.gz b/propertysuggester/test/parser/Wikidata-Q15511.json.gz
diff --git a/propertysuggester/test/parser/test_abstract_reader.py b/propertysuggester/test/parser/test_abstract_reader.py
@@ -11,8 +11,8 @@ def assert_universe(self, result):
 
         self.assertThat(q1.title, Equals("Q1"))
         self.assertThat(q1.claims, Contains(Claim(Snak(373, "string", "Universe"), [],
-                                                  [Snak(143, "wikibase-entityid", "Q328")])))
-        self.assertThat(q1.claims, Contains(Claim(Snak(31, "wikibase-entityid", "Q223557"))))
-        self.assertThat(q1.claims, Contains(Claim(Snak(31, "wikibase-entityid", "Q1088088"))))
-        self.assertThat(q1.claims, Contains(Claim(Snak(361, "wikibase-entityid", "Q3327819"),
-                                                  [Snak(31, "wikibase-entityid", "Q41719")], [])))
+                                                  [Snak(143, "wikibase-item", "Q328")])))
+        self.assertThat(q1.claims, Contains(Claim(Snak(31, "wikibase-item", "Q223557"))))
+        self.assertThat(q1.claims, Contains(Claim(Snak(31, "wikibase-item", "Q1088088"))))
+        self.assertThat(q1.claims, Contains(Claim(Snak(361, "wikibase-item", "Q3327819"),
+                                                  [Snak(31, "wikibase-item", "Q41719")], [])))
diff --git a/propertysuggester/test/parser/test_csv_reader.py b/propertysuggester/test/parser/test_csv_reader.py
@@ -16,19 +16,19 @@ def setUp(self):
     def test_universe(self):
         out = StringIO()
         out.writelines(["Q1,claim,373,string,Universe\n",
-                        "Q1,reference,143,wikibase-entityid,Q328\n"
-                        "Q1,claim,31,wikibase-entityid,Q223557\n",
-                        "Q1,claim,31,wikibase-entityid,Q1088088\n",
-                        "Q1,claim,361,wikibase-entityid,Q3327819\n",
-                        "Q1,qualifier,31,wikibase-entityid,Q41719\n"])
+                        "Q1,reference,143,wikibase-item,Q328\n"
+                        "Q1,claim,31,wikibase-item,Q223557\n",
+                        "Q1,claim,31,wikibase-item,Q1088088\n",
+                        "Q1,claim,361,wikibase-item,Q3327819\n",
+                        "Q1,qualifier,31,wikibase-item,Q41719\n"])
         out.seek(0)
         result = list(CsvReader.read_csv(out))
         self.assert_universe(result)
 
     def test_multiple_entities(self):
         out = StringIO()
         out.writelines(["Q1,claim,373,string,Universe\n",
-                        "Q2,claim,143,wikibase-entityid,Q328\n"])
+                        "Q2,claim,143,wikibase-item,Q328\n"])
         out.seek(0)
         result = list(CsvReader.read_csv(out))
 
diff --git a/propertysuggester/test/parser/test_json_reader.py b/propertysuggester/test/parser/test_json_reader.py
@@ -0,0 +1,30 @@
+import unittest
+import gzip
+
+from pkg_resources import resource_filename
+from testtools import TestCase
+from testtools.matchers import *
+
+from propertysuggester.test.parser.test_abstract_reader import AbstractUniverseTest
+from propertysuggester.parser import JsonReader
+from propertysuggester.utils.datamodel import Claim, Snak, Entity
+
+
+class JsonReaderTest(AbstractUniverseTest):
+
+    def test_updated_dump(self):
+        with gzip.open(resource_filename(__name__, "Wikidata-Q15511.json.gz"), "r") as f:
+            result = list(JsonReader.read_json(f))
+
+        self.assertThat(result, HasLength(1))
+        q15511 = result[0]
+        self.assertThat(q15511.title, Equals("Q15511"))
+        self.assertThat(q15511.claims, Contains(Claim(Snak(1082, "quantity", "+25"), [Snak(585, "time", "+00000002001-01-01T00:00:00Z"), Snak(459, "wikibase-item", "Q745221")], [Snak(248, "wikibase-item", "Q17597573")])))
+
+    def test_special_cases(self):
+        data = dict([("id", "Q1"), ("type", "item")])
+        self.assertThat(JsonReader._process_json(data), Equals(Entity("Q1", [])))
+
+if __name__ == '__main__':
+    unittest.main()
+    
diff --git a/propertysuggester/test/parser/test_xml_reader.py b/propertysuggester/test/parser/test_xml_reader.py
@@ -23,7 +23,7 @@ def test_updated_dump(self):
         self.assertThat(len(result), Equals(1))
         q9351 = result[0]
         self.assertThat(q9351.title, Equals("Q9351"))
-        self.assertThat(q9351.claims, Contains(Claim(Snak(156, "wikibase-entityid", "Q1647331"))))
+        self.assertThat(q9351.claims, Contains(Claim(Snak(156, "wikibase-item", "Q1647331"))))
         self.assertThat(q9351.claims, Contains(Claim(Snak(1112, "quantity", "+25"))))
 
     def test_special_cases(self):