Adds reader for multiline formeta records

cboehme · cboehme · commit 9ad842e80b6b · 2014-10-09T21:58:23.000+02:00
The `FormetaDecoder` processes only individual records. If the
`LineReader` or `RecordReader` modules are used for splitting an input
stream consisting of a sequence of formeta records, this is quite
inconvenient as records either have to by in a single line or must be
seperated with a record separater character. As such a character is not
defined for the formeta format this is not a good solution.

However, the structure of formeta allows to recognise the end of a
record quite easily without having to properly parse the record. The new
module `FormetaRecordsReader` implements such a splitter. It splits a
sequence of formeta records between each record.
diff --git a/src/main/java/org/culturegraph/mf/stream/converter/FormetaRecordsReader.java b/src/main/java/org/culturegraph/mf/stream/converter/FormetaRecordsReader.java
@@ -0,0 +1,102 @@
+/*
+ * Copyright 2014 Christoph Böhme
+ *
+ * Licensed under the Apache License, Version 2.0 the "License"; you may not use
+ * this file except in compliance with the License. You may obtain a copy of the
+ * License at
+ *
+ * http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS, WITHOUT
+ * WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the
+ * License for the specific language governing permissions and limitations under
+ * the License.
+ */
+package org.culturegraph.mf.stream.converter;
+
+import java.io.IOException;
+import java.io.Reader;
+
+import org.culturegraph.mf.exceptions.MetafactureException;
+import org.culturegraph.mf.formeta.Formeta;
+import org.culturegraph.mf.framework.DefaultObjectPipe;
+import org.culturegraph.mf.framework.ObjectReceiver;
+import org.culturegraph.mf.framework.annotations.Description;
+import org.culturegraph.mf.framework.annotations.In;
+import org.culturegraph.mf.framework.annotations.Out;
+
+/**
+ * Reads a stream of formeta data and splits between each top-level element.
+ *
+ * @author Christoph Böhme
+ *
+ */
+@In(Reader.class)
+@Out(String.class)
+@Description("Reads a stream of formeta data and splits between each top-level element")
+public final class FormetaRecordsReader extends
+		DefaultObjectPipe<Reader, ObjectReceiver<String>> {
+
+	private static final int BUFFER_SIZE = 1024 * 1024 * 16;
+
+	private final StringBuilder builder = new StringBuilder();
+	private final char[] buffer = new char[BUFFER_SIZE];
+
+	@Override
+	public void process(final Reader reader) {
+		assert !isClosed();
+
+		try {
+			boolean readSomething = false;
+			boolean inQuotedText = false;
+			int groupLevel = 0;
+			int size;
+			while ((size = reader.read(buffer)) != -1) {
+				readSomething = true;
+				int offset = 0;
+				for (int i = 0; i < size; ++i) {
+					switch (buffer[i]) {
+					case Formeta.ESCAPE_CHAR:
+						i += 1; // Skip next character
+						break;
+					case Formeta.GROUP_START:
+						if (!inQuotedText) {
+							groupLevel += 1;
+						}
+						break;
+					case Formeta.GROUP_END:
+						if (!inQuotedText) {
+							groupLevel -= 1;
+						}
+						// Fall through
+					case Formeta.ITEM_SEPARATOR:
+						if (!inQuotedText && groupLevel == 0) {
+							builder.append(buffer, offset, i - offset + 1);
+							offset = i + 1;
+							emitRecord();
+						}
+						break;
+					case Formeta.QUOT_CHAR:
+						inQuotedText = !inQuotedText;
+						break;
+					}
+				}
+				builder.append(buffer, offset, size - offset);
+			}
+			if (readSomething) {
+				emitRecord();
+			}
+
+		} catch (final IOException e) {
+			throw new MetafactureException(e);
+		}
+	}
+
+	private void emitRecord() {
+		final String record = builder.toString();
+		getReceiver().process(record);
+		builder.delete(0, builder.length());
+	}
+
+}
diff --git a/src/main/resources/flux-commands.properties b/src/main/resources/flux-commands.properties
@@ -22,7 +22,7 @@ jscript org.culturegraph.mf.stream.pipe.JScriptObjectPipe
 
 as-lines	org.culturegraph.mf.stream.converter.LineReader
 as-records	org.culturegraph.mf.stream.converter.RecordReader
-
+as-formeta-records	org.culturegraph.mf.stream.converter.FormetaRecordsReader
 # Decoders:
 decode-pica org.culturegraph.mf.stream.converter.bib.PicaDecoder
 decode-mab org.culturegraph.mf.stream.converter.bib.MabDecoder
diff --git a/src/test/java/org/culturegraph/mf/stream/converter/FormetaRecordsReaderTest.java b/src/test/java/org/culturegraph/mf/stream/converter/FormetaRecordsReaderTest.java
@@ -0,0 +1,95 @@
+package org.culturegraph.mf.stream.converter;
+
+import static org.mockito.Mockito.verify;
+import static org.mockito.Mockito.verifyNoMoreInteractions;
+
+import java.io.StringReader;
+
+import org.culturegraph.mf.framework.ObjectReceiver;
+import org.junit.After;
+import org.junit.Before;
+import org.junit.Test;
+import org.mockito.Mock;
+import org.mockito.MockitoAnnotations;
+
+public class FormetaRecordsReaderTest {
+
+	private static String SINGLE_RECORD = "l: v";
+
+	private static String RECORD_LITERAL = " l: v,";
+	private static String RECORD_GROUP = " r{l: v}";
+	private static String RECORD_NESTED_GROUP = " r{ e { l: v } }";
+	private static String RECORD_QUOTED_LITERAL = " 'l x': v,";
+	private static String RECORD_LEFT_BRACE_IN_QUOTES = " '{': l,";
+	private static String RECORD_RIGHT_BRACE_IN_QUOTES = " r{ l: '}' }";
+	private static String RECORD_COLON_IN_QUOTES = " ':': v,";
+	private static String RECORD_COMMA_IN_QUOTES = " l: ',v:v',";
+	private static String RECORD_ESCAPED_LEFT_BRACE = " \\{: v,";
+	private static String RECORD_ESCAPED_RIGHT_BRACE = " r{ l: \\} }";
+	private static String RECORD_ESCAPED_COLON = " \\:: v,";
+	private static String RECORD_ESCAPED_COMMA = " l: \\,v\\:v,";
+	private static String RECORD_ESCAPED_QUOTE = " '\\',': v";
+
+	private FormetaRecordsReader formetaRecordsReader;
+
+	@Mock
+	private ObjectReceiver<String> receiver;
+
+	@Before
+	public void setup() {
+		MockitoAnnotations.initMocks(this);
+		formetaRecordsReader = new FormetaRecordsReader();
+		formetaRecordsReader.setReceiver(receiver);
+	}
+
+	@After
+	public void cleanup() {
+		formetaRecordsReader.closeStream();
+	}
+
+	@Test
+	public void shouldProcessSingleRecord() {
+		final StringReader reader = new StringReader(SINGLE_RECORD);
+
+		formetaRecordsReader.process(reader);
+
+		verify(receiver).process(SINGLE_RECORD);
+		verifyNoMoreInteractions(receiver);
+	}
+
+	@Test
+	public void shouldSplitBetweenTopLevelElements() {
+		final String records = RECORD_LITERAL +
+				RECORD_GROUP +
+				RECORD_NESTED_GROUP +
+				RECORD_QUOTED_LITERAL +
+				RECORD_LEFT_BRACE_IN_QUOTES +
+				RECORD_RIGHT_BRACE_IN_QUOTES +
+				RECORD_COLON_IN_QUOTES +
+				RECORD_COMMA_IN_QUOTES +
+				RECORD_ESCAPED_LEFT_BRACE +
+				RECORD_ESCAPED_RIGHT_BRACE +
+				RECORD_ESCAPED_COLON +
+				RECORD_ESCAPED_COMMA +
+				RECORD_ESCAPED_QUOTE;
+
+		final StringReader reader = new StringReader(records);
+
+		formetaRecordsReader.process(reader);
+
+		verify(receiver).process(RECORD_LITERAL);
+		verify(receiver).process(RECORD_GROUP);
+		verify(receiver).process(RECORD_NESTED_GROUP);
+		verify(receiver).process(RECORD_QUOTED_LITERAL);
+		verify(receiver).process(RECORD_LEFT_BRACE_IN_QUOTES);
+		verify(receiver).process(RECORD_RIGHT_BRACE_IN_QUOTES);
+		verify(receiver).process(RECORD_COLON_IN_QUOTES);
+		verify(receiver).process(RECORD_COMMA_IN_QUOTES);
+		verify(receiver).process(RECORD_ESCAPED_LEFT_BRACE);
+		verify(receiver).process(RECORD_ESCAPED_RIGHT_BRACE);
+		verify(receiver).process(RECORD_ESCAPED_COLON);
+		verify(receiver).process(RECORD_ESCAPED_COMMA);
+		verify(receiver).process(RECORD_ESCAPED_QUOTE);
+		verifyNoMoreInteractions(receiver);
+	}
+}