Merge pull request #3 from azu/keitaiso

azu · azu · commit 12a419956a34 · 2015-12-02T10:23:11.000+09:00
名詞同士で囲まれた、はカウントしない
diff --git a/README.md b/README.md
@@ -28,6 +28,16 @@ Configure `"max"` value of the `.textlintrc` file.
 }
 ```
 
+## Example
+
+> これは、長文の例ですが、読点の数が3つ以上あるので、エラーが報告されます。
+
+=> error  一つの文で"、"を3つ以上使用しています
+
+> ビスケットの主な材料は(1)小麦粉、(2)牛乳、(3)ショートニング、(4)バター、(5)砂糖である。
+
+=> No error: 名詞同士で囲まれている `、` はカウントされない
+
 ## Tests
 
     npm test
diff --git a/package.json b/package.json
@@ -36,11 +36,13 @@
     "espower-babel": "^3.3.0",
     "mocha": "^2.3.0",
     "power-assert": "^1.0.0",
-    "textlint": "^3.2.0",
-    "textlint-tester": "^0.2.0"
+    "textlint": "^5.0.3",
+    "textlint-tester": "^0.4.1"
   },
   "dependencies": {
-    "object-assign": "^4.0.1",
+    "kuromojin": "^1.0.2",
+    "sentence-splitter": "^1.2.0",
+    "structured-source": "^3.0.2",
     "textlint-rule-helper": "^1.1.3"
   }
 }
diff --git a/src/max-ten.js b/src/max-ten.js
@@ -1,70 +1,92 @@
 // LICENSE : MIT
 "use strict";
 import {RuleHelper} from "textlint-rule-helper"
-import ObjectAssign from "object-assign"
-const defaultOptions = {max: 3};
-function countTen(text) {
-    return text.split("、").length - 1;
+import {getTokenizer} from "kuromojin";
+import splitSentences from "sentence-splitter";
+import Source from "structured-source";
+const defaultOptions = {
+    max: 3, // 1文に利用できる最大の、の数
+    strict: false // 例外ルールを適応するかどうか
+};
+
+function isSandwichedMeishi({
+    before,
+    token,
+    after
+    }) {
+    if (before === undefined || after === undefined || token === undefined) {
+        return false;
+    }
+    return before.pos === "名詞" && after.pos === "名詞";
 }
 /**
  * @param {RuleContext} context
  * @param {object} options
  */
 export default function (context, options = {}) {
-    options = ObjectAssign({}, defaultOptions, options);
-    const maxLen = options.max;
-    const punctuation = /[。]/;
+    const maxLen = options.max || defaultOptions.max;
+    const isStrict = options.strict || defaultOptions.strict;
     let helper = new RuleHelper(context);
     let {Syntax, RuleError, report, getSource} = context;
-    let currentParagraphTexts = [];
     return {
-        [Syntax.Paragraph](){
-            currentParagraphTexts = []
-        },
-        [Syntax.Str](node){
-            // ignore text from external factor
-            if (helper.isChildNode(node, [Syntax.Link, Syntax.Image, Syntax.BlockQuote])) {
+        [Syntax.Paragraph](node){
+            if (helper.isChildNode(node, [Syntax.BlockQuote])) {
                 return;
             }
-            currentParagraphTexts.push(node);
-        },
-        [Syntax.Paragraph + ":exit"](){
-            let currentTenCount = 0;
+            let sentences = splitSentences(getSource(node), {
+                charRegExp: /[。\?\!？！]/,
+                newLineCharacters: "\n\n"
+            });
             /*
             <p>
             <str><code><img><str>
             <str>
             </p>
              */
-            currentParagraphTexts.forEach(strNode => {
-                let paddingLine = 0;
-                let paddingColumn = 0;
-                let text = getSource(strNode);
-                let characters = text.split("");
-                characters.forEach(char => {
-                    if (char === "、") {
-                        currentTenCount++;
-                    }
-                    if (char === "。") {
-                        // reset
-                        currentTenCount = 0;
-                    }
-                    // report
-                    if (currentTenCount >= maxLen) {
-                        var ruleError = new context.RuleError(`一つの文で"、"を${maxLen}つ以上使用しています`, {
-                            line: paddingLine,
-                            column: paddingColumn
-                        });
-                        report(strNode, ruleError);
-                        currentTenCount = 0;
-                    }
-                    // calc padding{line,column}
-                    if (char === "\n") {
-                        paddingLine++;
-                        paddingColumn = 0;
-                    } else {
-                        paddingColumn++;
-                    }
+            /*
+            # workflow
+            1. split text to sentences
+            2. sentence to tokens
+            3. check tokens
+             */
+            return getTokenizer().then(tokenizer => {
+                sentences.forEach(sentence => {
+                    let text = sentence.value;
+                    let source = new Source(text);
+                    let currentTenCount = 0;
+                    let tokens = tokenizer.tokenizeForSentence(text);
+                    let lastToken = null;
+                    tokens.forEach((token, index) => {
+                        let surface = token.surface_form;
+                        if (surface === "、") {
+                            // 名詞に過去まわれている場合は例外とする
+                            let isSandwiched = isSandwichedMeishi({
+                                before: tokens[index - 1],
+                                token: token,
+                                after: tokens[index + 1]
+                            });
+                            // strictなら例外を例外としない
+                            if (!isStrict && isSandwiched) {
+                                return;
+                            }
+                            currentTenCount++;
+                            lastToken = token;
+                        }
+                        if (surface === "。") {
+                            // reset
+                            currentTenCount = 0;
+                        }
+                        // report
+                        if (currentTenCount >= maxLen) {
+                            let position = source.indexToPosition(lastToken.word_position - 1);
+                            let ruleError = new context.RuleError(`一つの文で"、"を${maxLen}つ以上使用しています`, {
+                                line: position.line - 1,
+                                column: position.column
+                            });
+                            report(node, ruleError);
+                            currentTenCount = 0;
+                        }
+                    });
                 });
             });
         }
diff --git a/test/max-ten-test.js b/test/max-ten-test.js
@@ -1,13 +1,16 @@
 import rule from "../src/max-ten"
 function textIncludeTen(count) {
-    return (new Array(count + 1)).join("テスト、") + "です";
+    return (new Array(count + 1)).join("テスト文章において、") + "です";
 }
 var TextLintTester = require("textlint-tester");
 var tester = new TextLintTester();
 // ruleName, rule, expected[]
 tester.run("max-ten", rule, {
     // default max:3
     valid: [
+        "名詞、名詞、名詞、名詞の場合は例外",
+        "ビスケットの主な材料は(1)小麦粉、(2)牛乳、(3)ショートニング、(4)バター、(5)砂糖である。",
+        "これは、TaskA、TaskB、TaskC、TaskDが処理するものです。",
         {
             text: textIncludeTen(3 - 1)
         },
@@ -24,7 +27,7 @@ tester.run("max-ten", rule, {
     ],
     invalid: [
         {
-            text: `a、b、       c
+            text: `これは、これは、これは
 、d`
             ,
             errors: [
@@ -47,15 +50,15 @@ tester.run("max-ten", rule, {
             ]
         },
         {
-            text: `これは、長文、columnがちゃんと計算、されてるはずです。`,
+            text: `これは、長文の例ですが、columnがちゃんと計算、されてるはずです。`,
             options: {
                 "max": 3
             },
             errors: [
                 {
                     message: `一つの文で"、"を3つ以上使用しています`,
                     line: 1,
-                    column: 21
+                    column: 26
                 }
             ]
         },

Original file line number	Diff line number	Diff line change
`@@ -1,13 +1,16 @@`
`1`	`1`	`import rule from "../src/max-ten"`
`2`	`2`	`function textIncludeTen(count) {`
`3`		`- return (new Array(count + 1)).join("テスト、") + "です";`
	`3`	`+ return (new Array(count + 1)).join("テスト文章において、") + "です";`
`4`	`4`	`}`
`5`	`5`	`var TextLintTester = require("textlint-tester");`
`6`	`6`	`var tester = new TextLintTester();`
`7`	`7`	`// ruleName, rule, expected[]`
`8`	`8`	`tester.run("max-ten", rule, {`
`9`	`9`	`// default max:3`
`10`	`10`	`valid: [`
	`11`	`+ "名詞、名詞、名詞、名詞の場合は例外",`
	`12`	`+ "ビスケットの主な材料は(1)小麦粉、(2)牛乳、(3)ショートニング、(4)バター、(5)砂糖である。",`
	`13`	`+ "これは、TaskA、TaskB、TaskC、TaskDが処理するものです。",`
`11`	`14`	`{`
`12`	`15`	`text: textIncludeTen(3 - 1)`
`13`	`16`	`},`
`@@ -24,7 +27,7 @@ tester.run("max-ten", rule, {`
`24`	`27`	`],`
`25`	`28`	`invalid: [`
`26`	`29`	`{`
`27`		- text: `a、b、 c
	`30`	+ text: `これは、これは、これは
`28`	`31`	、d`
`29`	`32`	`,`
`30`	`33`	`errors: [`
`@@ -47,15 +50,15 @@ tester.run("max-ten", rule, {`
`47`	`50`	`]`
`48`	`51`	`},`
`49`	`52`	`{`
`50`		- text: `これは、長文、columnがちゃんと計算、されてるはずです。`,
	`53`	+ text: `これは、長文の例ですが、columnがちゃんと計算、されてるはずです。`,
`51`	`54`	`options: {`
`52`	`55`	`"max": 3`
`53`	`56`	`},`
`54`	`57`	`errors: [`
`55`	`58`	`{`
`56`	`59`	message: `一つの文で"、"を3つ以上使用しています`,
`57`	`60`	`line: 1,`
`58`		`- column: 21`
	`61`	`+ column: 26`
`59`	`62`	`}`
`60`	`63`	`]`
`61`	`64`	`},`