took out general logic and added a threshold value

baydakov-georgiy · baydakov-georgiy · commit b663c402c71a · 2025-08-14T14:53:38.000+05:00
diff --git a/app/main/checks/presentation_checks/was_were_check.py b/app/main/checks/presentation_checks/was_were_check.py
@@ -1,29 +1,19 @@
-import re
 from ..base_check import BasePresCriterion, answer
-from app.nlp.is_passive_was_were_sentence import is_passive_was_were_sentece
+from app.nlp.is_passive_was_were_sentence import CritreriaType, generate_output_text, get_was_were_sentences
 
 class PresWasWereCheck(BasePresCriterion):
     label = 'Проверка на пассивные конструкции, начинающиеся с Был/Была/Было/Были, которые можно убрать без потери смысла'
     description = ''
     id = 'pres_was_were_check'
 
-    def __init__(self, file_info):
+    def __init__(self, file_info, threshold=3):
         super().__init__(file_info)
+        self.threshold = threshold
     
     def check(self):
-        detected = {}
-        for slide_index, slide_text in enumerate(self.file.get_text_from_slides()):
-            mock_slide_text = "Было проведено исследование. Было бы здорово. Как бы было здорово. Была проделана работа. Были сделаны шаги..." 
-            sentences = re.split(r'(?<=[.!?…])\s+', mock_slide_text)
-            for sentence_index, sentence in enumerate(sentences):
-                if is_passive_was_were_sentece(sentence):
-                    if slide_index not in detected:
-                        detected[slide_index] = []
-                    detected[slide_index].append(f'{sentence_index+1}: {sentence}')
-        if len(detected):
-            result_str = 'Обнаружены конструкции (Был/Была/Было/Были), которые можно удалить без потери смысла:<br><br>'
-            for slide_index, messages in detected.items():
-                result_str += f'Слайд №{slide_index+1}:<br>' + '<br>'.join(messages) + '<br><br>'
+        detected_sentences, total_sentences = get_was_were_sentences(self.file, CritreriaType.PRESENTATION)
+        if total_sentences > self.threshold:
+            result_str = generate_output_text(detected_sentences, CritreriaType.PRESENTATION)
             result_score = 0
         else:
             result_str = 'Пройдена!'
diff --git a/app/main/checks/report_checks/was_were_check.py b/app/main/checks/report_checks/was_were_check.py
@@ -1,32 +1,21 @@
-import re
 from ..base_check import BaseReportCriterion, answer
-from app.nlp.is_passive_was_were_sentence import is_passive_was_were_sentece
+from app.nlp.is_passive_was_were_sentence import CritreriaType, generate_output_text, get_was_were_sentences
 
 class ReportWasWereCheck(BaseReportCriterion):
     label = 'Проверка на пассивные конструкции, начинающиеся с Был/Была/Было/Были, которые можно убрать без потери смысла'
     description = ''
     id = 'report_was_were_check'
 
-    def __init__(self, file_info):
+    def __init__(self, file_info, threshold=3):
         super().__init__(file_info)
+        self.threshold = threshold
     
     def check(self):
         if self.file.page_counter() < 4:
             return answer(False, 'В отчёте недостаточно страниц. Нечего проверять.')
-        detected = {}
-        for page_index, page_text in self.file.pdf_file.get_text_on_page().items():
-            sentences = re.split(r'(?<=[.!?…])\s+', page_text)
-            for sentence_index, sentence in enumerate(sentences):
-                if is_passive_was_were_sentece(sentence):
-                    if page_index not in detected:
-                        detected[page_index] = []
-                    detected[page_index].append(f'{sentence_index+1}: {sentence}')
-        if len(detected):
-            result_str = 'Обнаружены конструкции (Был/Была/Было/Были), которые можно удалить без потери смысла:<br><br>'
-            for page_index, messages in detected.items():
-                result_str += f'Страница №{page_index+1}:<br>' + '<br>'.join(messages) + '<br><br>'
-                print(f'Страница №{page_index+1}:<br>' + '<br>'.join(messages) + '<br><br>')
-                print()
+        detected, total_sentences = get_was_were_sentences(self.file, CritreriaType.REPORT)
+        if total_sentences > self.threshold:
+            result_str = generate_output_text(detected, CritreriaType.REPORT)
             result_score = 0
         else:
             result_str = 'Пройдена!'
diff --git a/app/nlp/is_passive_was_were_sentence.py b/app/nlp/is_passive_was_were_sentence.py
@@ -1,14 +1,51 @@
 import re
 import pymorphy2
 import string
+from enum import Enum
 
 morph = pymorphy2.MorphAnalyzer()
 
+
+class CritreriaType(Enum):
+    REPORT=0
+    PRESENTATION=1
+
+
+def criteria_type_to_str(type: CritreriaType):
+    if type == CritreriaType.REPORT:
+        return "Страница"
+    elif type == CritreriaType.PRESENTATION:
+        return "Слайд"
+    else:
+        return "Элемент"
+
+def get_content_by_file(file, type: CritreriaType):
+    if type == CritreriaType.REPORT:
+        return file.pdf_file.get_text_on_page().items()
+    elif type == CritreriaType.PRESENTATION:
+        return enumerate(file.get_text_from_slides())
+
 def clean_word(word):
     punct = string.punctuation.replace('-', '')
     return word.translate(str.maketrans('', '', punct))
 
+
 def is_passive_was_were_sentece(sentence):
+    """
+    Примеры плохих предложений (пассивные конструкции с "Был*" - можно убрать):
+    - Был проведен анализ данных
+    - Была выполнена работа по исследованию
+    - Было принято решение о внедрении
+    - Были получены следующие результаты
+    - Была создана база данных
+    
+    Примеры хороших предложений ("Был*" нельзя убрать):
+    - Было бы здорово получить новые данные
+    - Был сильный скачок напряжения
+    - Были времена, когда это казалось невозможным
+    - Был студентом университета три года назад
+    - Была программистом до выхода на пенсию
+    """
     first_words = re.split(r'\s+', sentence.strip(), maxsplit=2)
     if len(first_words) < 2:
         return False
@@ -23,4 +60,27 @@ def is_passive_was_were_sentece(sentence):
         second_word_parsed = morph.parse(second_word)[0]
         return ('PRTS' in second_word_parsed.tag and 
                 'pssv' in second_word_parsed.tag)
-    return False
+    return False
+
+
+def generate_output_text(detected_senteces, type: CritreriaType):
+    output = 'Обнаружены конструкции (Был/Была/Было/Были), которые можно удалить без потери смысла:<br><br>'
+    for index, messages in detected_senteces.items():
+        output_type = criteria_type_to_str(type)
+        output += f'{output_type} №{index + 1}: <br>' + '<br>'.join(messages) + '<br><br>'
+    return output
+
+
+def get_was_were_sentences(file, type: CritreriaType):
+    detected = {}
+    total_sentences = 0
+    for page_index, page_text in get_content_by_file(file, type):
+        sentences = re.split(r'(?<=[.!?…])\s+', page_text)
+        for sentence_index, sentence in enumerate(sentences):
+            if is_passive_was_were_sentece(sentence):
+                total_sentences += 1
+                if page_index not in detected:
+                    detected[page_index] = []
+                truncated_sentence = sentence[:30] + '...' if len(sentence) > 30 else sentence
+                detected[page_index].append(f'{sentence_index+1}: {truncated_sentence}')
+    return detected, total_sentences