new scoring

VaughnKHHo · VaughnKHHo · commit 7a7b0614cddd · 2025-12-18T12:55:06.000+02:00
diff --git a/psl_proof/__main__.py b/psl_proof/__main__.py
@@ -15,11 +15,11 @@
 def load_config() -> Dict[str, Any]:
     """Load proof configuration from environment variables."""
     config = {
-        'dlp_id': 4,
+        'dlp_id': 21,
         'input_dir': INPUT_DIR,
         'salt': '5EkntCWI',
         # 'validator_base_api_url': 'https://api.vana.genesis.dfusion.ai'
-        'validator_base_api_url': ' https://27ef7490d36e.ngrok-free.app'
+        'validator_base_api_url': 'https://b1858a42a344.ngrok-free.app'
     }
     logging.info(f"Using config: {json.dumps(config, indent=2)}")
     return config
diff --git a/psl_proof/models/cargo_data.py b/psl_proof/models/cargo_data.py
@@ -135,8 +135,10 @@ def to_submission_json(self) :
         return json
 
     def submission_by(self):
+        # Bot always stores reference as 'telegram:{userId}' regardless of source
+        # So normalize telegramMiner -> telegram for token verification
         source = self.source
-        if (source == DataSource.telegramMiner):
+        if source == DataSource.telegramMiner:
            source = DataSource.telegram
         return f"{source.name}:{self.user}"
 
diff --git a/psl_proof/models/submission_dtos.py b/psl_proof/models/submission_dtos.py
@@ -1,4 +1,4 @@
-from typing import List, Dict, Any
+from typing import List, Dict, Any, Optional
 from dataclasses import dataclass, field
 from datetime import datetime
 
@@ -31,4 +31,30 @@ class SubmissionHistory:
 @dataclass
 class SubmitDataResponse:
     is_valid: bool
-    error_text: str
+    error_text: str
+
+@dataclass
+class ChatEvaluationSummary:
+    """Summary of evaluation for a single chat"""
+    source_chat_id: str
+    message_count: int
+    chat_quality: float
+    chat_uniqueness: float
+
+@dataclass
+class EvaluationDetails:
+    """Details of the evaluation"""
+    total_messages: int
+    unique_messages: int
+    llm_reasoning: Optional[str] = None
+    chat_summaries: List[ChatEvaluationSummary] = field(default_factory=list)
+
+@dataclass
+class EvaluateSubmissionResponse:
+    """Response from the /api/submissions/evaluate endpoint"""
+    is_valid: bool
+    error_text: str
+    quality: float = 0.0
+    uniqueness: float = 0.0
+    score: float = 0.0  # Final score: Quality × Uniqueness (multiplicative)
+    details: Optional[EvaluationDetails] = None
diff --git a/psl_proof/models/verification_dtos.py b/psl_proof/models/verification_dtos.py
@@ -7,3 +7,4 @@ class VerifyTokenResult:
     is_valid: bool
     error_text: str
     proof_token: str
+    cooldown_period_hours: float = 0  # Cooldown period from backend config
diff --git a/psl_proof/proof.py b/psl_proof/proof.py
@@ -8,8 +8,7 @@
 from psl_proof.models.proof_response import ProofResponse
 from psl_proof.utils.hashing_utils import salted_data, serialize_bloom_filter_base64, deserialize_bloom_filter_base64
 from psl_proof.models.cargo_data import SourceChatData, CargoData, SourceData, DataSource, MetaData, DataSource
-from psl_proof.utils.validate_data import validate_data, get_total_score
-from psl_proof.utils.submission import submit_data
+from psl_proof.utils.submission import submit_data, evaluate_submission
 from psl_proof.utils.verification import verify_token, VerifyTokenResult
 from psl_proof.models.submission_dtos import ChatHistory, SubmissionChat, SubmissionHistory
 from psl_proof.utils.submission import get_submission_historical_data
@@ -29,12 +28,13 @@ def generate(self) -> ProofResponse:
         current_timestamp = datetime.now(timezone.utc)
 
         source_data = None
+        raw_input_data = None  # Keep raw data for evaluate endpoint
         for input_filename in os.listdir(self.config['input_dir']):
             input_file = os.path.join(self.config['input_dir'], input_filename)
             with open(input_file, 'r') as f:
-                input_data = json.load(f)
+                raw_input_data = json.load(f)
                 source_data = get_source_data(
-                    input_data,
+                    raw_input_data,
                     current_timestamp
                 )
                 break
@@ -50,11 +50,13 @@ def generate(self) -> ProofResponse:
             source_data
         )
         is_data_authentic = verify_result
+        cooldown_period_hours = 4
         if is_data_authentic:
             #print(f"verify_result: {verify_result}")
             is_data_authentic = verify_result.is_valid
             proof_failed_reason = verify_result.error_text
             source_data.proof_token = verify_result.proof_token
+            cooldown_period_hours = verify_result.cooldown_period_hours
 
         cargo_data = CargoData(
             source_data = source_data,
@@ -73,11 +75,11 @@ def generate(self) -> ProofResponse:
             cargo_data.chat_histories = submission_history_data.chat_histories
             cargo_data.last_submission = submission_history_data.last_submission
 
-        cool_down_period = 4 # hours
+        # Use cooldown period from backend config
         submission_time_elapsed = cargo_data.submission_time_elapsed()
-        if is_data_authentic and cargo_data.last_submission and submission_time_elapsed < cool_down_period:
+        if is_data_authentic and cargo_data.last_submission and submission_time_elapsed < cooldown_period_hours:
             is_data_authentic = False
-            proof_failed_reason = f"Last submission was made within the past {cool_down_period} hours"
+            proof_failed_reason = f"Last submission was made within the past {cooldown_period_hours} hours"
 
         metadata = MetaData(
           source_id = source_user_hash_64,
@@ -102,54 +104,58 @@ def generate(self) -> ProofResponse:
             logging.info(f"ProofResponseAttributes: {json.dumps(self.proof_response.attributes, indent=2)}")
             return self.proof_response
 
-        #validate/proof data ...
-        validate_data(
+        # Call backend evaluate endpoint for quality and uniqueness scores
+        # This replaces the local validate_data call
+        evaluate_result = evaluate_submission(
             self.config,
-            cargo_data,
-            self.proof_response
+            source_data,
+            raw_input_data
         )
+        
+        if not evaluate_result.is_valid:
+            print(f"Evaluation failed: {evaluate_result.error_text}")
+            self.proof_response.set_proof_is_invalid()
+            self.proof_response.attributes = {
+                'proof_valid': False,
+                'proof_failed_reason': evaluate_result.error_text,
+                'did_score_content': False,
+                'source': source_data.source.name,
+                'revision': data_revision,
+                'submitted_on': current_timestamp.isoformat()
+            }
+            self.proof_response.metadata = metadata
+            logging.info(f"ProofResponseAttributes: {json.dumps(self.proof_response.attributes, indent=2)}")
+            return self.proof_response
 
-        maximum_score = 1
-        reward_factor = 100 # Maximium VFSN, Max. reward per chat --> 1 VFSN.
-        self.proof_response.quality = cargo_data.total_quality / reward_factor
-        if (self.proof_response.quality > maximum_score):
-            self.proof_response.quality = maximum_score
-
-        self.proof_response.uniqueness = cargo_data.total_uniqueness / reward_factor
-        if (self.proof_response.uniqueness > maximum_score):
-            self.proof_response.uniqueness = maximum_score
-        #score data
-        total_score = get_total_score(
-            self.proof_response.quality,
-            self.proof_response.uniqueness
-        )
-        print(f"Scores >> Quality: {self.proof_response.quality} | Uniqueness: {self.proof_response.uniqueness} | Total: {total_score}")
+        # Use scores from backend evaluation (multiplicative formula: Quality × Uniqueness)
+        maximum_score = 1.0
+        self.proof_response.quality = min(evaluate_result.quality, maximum_score)
+        self.proof_response.uniqueness = min(evaluate_result.uniqueness, maximum_score)
+        
+        # Use backend's pre-calculated score directly (Quality × Uniqueness)
+        total_score = min(evaluate_result.score, maximum_score)
+        print(f"Scores >> Quality: {self.proof_response.quality:.4f} | Uniqueness: {self.proof_response.uniqueness:.4f} | Total: {total_score:.4f} (Q×U)")
 
-        minimum_score = 0.05 / reward_factor
-        self.proof_response.valid = True # might other factor affect it
-        self.proof_response.score = total_score
-        if total_score < minimum_score:
-            self.proof_response.score = minimum_score
-        if total_score > maximum_score:
-            self.proof_response.score = maximum_score
+        minimum_score = 0.0005  # 0.05 / 100
+        self.proof_response.valid = True
+        self.proof_response.score = max(minimum_score, min(total_score, maximum_score))
 
-        print(f"Proof score: {self.proof_response.score }")
+        print(f"Proof score: {self.proof_response.score}")
         self.proof_response.attributes = {
             'score': self.proof_response.score,
             'did_score_content': True,
             'source': source_data.source.name,
             'revision': data_revision,
-            'submitted_on': current_timestamp.isoformat() #,
-            #'chat_data': cargo_data.get_chat_list_data()
+            'submitted_on': current_timestamp.isoformat()
         }
         self.proof_response.metadata = metadata
 
-        #Submit Source data to server
+        # Submit source data to server (submission metadata only, raw data already stored by evaluate)
         submit_data_result = submit_data(
             self.config,
             source_data
         )
-        if submit_data_result and not submit_data_result.is_valid :
+        if submit_data_result and not submit_data_result.is_valid:
             logging.info(f"submit data failed: {submit_data_result.error_text}")
             self.proof_response.set_proof_is_invalid()
             self.proof_response.attributes.pop('score', None)
diff --git a/psl_proof/utils/feature_extraction.py b/psl_proof/utils/feature_extraction.py
@@ -1,26 +1,26 @@
-from keybert import KeyBERT
-from transformers import pipeline
-
-def get_keywords_keybert(chats):
-    kw_model = KeyBERT(model="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
-    keywords = kw_model.extract_keywords(chats)
-    return keywords
-
-def get_sentiment_data(chats):
-    #Patrick_ToCheck this model do not work...
-    #sentiment_analyzer = pipeline("sentiment-analysis", model="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
-    sentiment_analyzer = pipeline("sentiment-analysis", model="cardiffnlp/twitter-xlm-roberta-base-sentiment-multilingual")
-
-    messages = chats.split(">") #TODO use real way to split out different messages
-    #TODO: make sure no single message is too long for classification, can break it up if length too long
-    sentiments = sentiment_analyzer(messages)
-    category_scores = {"positive": 0, "neutral": 0, "negative": 0}
-    category_counts = {"positive": 0, "neutral": 0, "negative": 0}
-    for result in sentiments:
-        label = result['label'].lower()
-        category_scores[label] += result['score']
-        category_counts[label] += 1
-    # Normalize scores by dividing by the total number of messages
-    total_messages = len(messages)
-    normalized_scores = {key: (category_scores[key] / total_messages) for key in category_scores}
-    return normalized_scores
+from keybert import KeyBERT
+from transformers import pipeline
+
+def get_keywords_keybert(chats):
+    kw_model = KeyBERT(model="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+    keywords = kw_model.extract_keywords(chats)
+    return keywords
+
+def get_sentiment_data(chats):
+    #Patrick_ToCheck this model do not work...
+    #sentiment_analyzer = pipeline("sentiment-analysis", model="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+    sentiment_analyzer = pipeline("sentiment-analysis", model="cardiffnlp/twitter-xlm-roberta-base-sentiment-multilingual")
+
+    messages = chats.split(">") #TODO use real way to split out different messages
+    #TODO: make sure no single message is too long for classification, can break it up if length too long
+    sentiments = sentiment_analyzer(messages)
+    category_scores = {"positive": 0, "neutral": 0, "negative": 0}
+    category_counts = {"positive": 0, "neutral": 0, "negative": 0}
+    for result in sentiments:
+        label = result['label'].lower()
+        category_scores[label] += result['score']
+        category_counts[label] += 1
+    # Normalize scores by dividing by the total number of messages
+    total_messages = len(messages)
+    normalized_scores = {key: (category_scores[key] / total_messages) for key in category_scores}
+    return normalized_scores
diff --git a/psl_proof/utils/submission.py b/psl_proof/utils/submission.py
diff --git a/psl_proof/utils/verification.py b/psl_proof/utils/verification.py