Исправление медленной работы токенайзера с регулярными выражениями

Столкнулся с проблемой медленной работы токенайзера и нашел решение как исправить это.

В моем случае причина медленной работы была в большом количестве найденных совпадений в регулярном выражении и очень медленной работы метода `Количество` у объекта `КоллекцияСовпаденийРегулярногоВыражения` в [этом месте](https://github.com/Nivanchenko/tokenizer/blob/741bc23e8d9cbd550d395689834e06e874bc3263/src/%D0%9A%D0%BB%D0%B0%D1%81%D1%81%D1%8B/%D0%A1%D0%BF%D0%B5%D1%86%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D1%8F%D0%A2%D0%BE%D0%BA%D0%B5%D0%BD%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D0%BE%D0%B5%D0%92%D1%8B%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5.os#L14). Оборачивание в `Попытку Исключение`  вместо вызова метода `Количество` уже дало ускорение  х20 в моем случае, но вместо этого лучше оптимизировать объект `РегулярноеВыражение`, которое передается в спецификацию токенайзера:

- В паттерне всегда должен быть оператор начала строки `^`. Пример: `^[a-zA-Z]+`
- Для объекта `РегулярноеВыражение` устанавливать свойство `Многострочный = Ложь`.

В этом случае при выполнении регулярного выражения всегда будет максимум 1 найденное совпадение. В моем случае для многострочного текста с 20 тыс. токенами дало прирост x70 к производительности .

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Исправление медленной работы токенайзера с регулярными выражениями #7

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Исправление медленной работы токенайзера с регулярными выражениями #7

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions