move indexer to a proper module

drjova · drjova · commit 1defd3f6849d · 2020-03-02T11:24:29.000+01:00
diff --git a/backend/inspirehep/indexer/__init__.py b/backend/inspirehep/indexer/__init__.py
diff --git a/backend/inspirehep/indexer/base.py b/backend/inspirehep/indexer/base.py
diff --git a/backend/inspirehep/indexer/cli.py b/backend/inspirehep/indexer/cli.py
diff --git a/backend/inspirehep/indexer/tasks.py b/backend/inspirehep/indexer/tasks.py
@@ -0,0 +1,149 @@
+# -*- coding: utf-8 -*-
+#
+# Copyright (C) 2019 CERN.
+#
+# inspirehep is free software; you can redistribute it and/or modify it under
+# the terms of the MIT License; see LICENSE file for more details.
+
+import structlog
+from celery import shared_task
+from elasticsearch import NotFoundError
+from sqlalchemy.exc import (
+    DisconnectionError,
+    OperationalError,
+    ResourceClosedError,
+    TimeoutError,
+    UnboundExecutionError,
+)
+from sqlalchemy.orm.exc import NoResultFound, StaleDataError
+
+from inspirehep.indexer.base import InspireRecordIndexer
+from inspirehep.indexer.utils import get_record
+from inspirehep.records.api import AuthorsRecord, LiteratureRecord
+
+LOGGER = structlog.getLogger()
+
+
+CELERY_INDEX_RECORD_RETRY_ON_EXCEPTIONS = (
+    NoResultFound,
+    StaleDataError,
+    DisconnectionError,
+    TimeoutError,
+    UnboundExecutionError,
+    ResourceClosedError,
+    OperationalError,
+)
+
+
+@shared_task(ignore_result=False, bind=True)
+def batch_index(self, records_uuids, request_timeout=None):
+    """Process all provided references and index them in bulk.
+    Be sure that uuids are not duplicated in batch.
+    Args:
+        records_uuids (list): list of uuids to process. All duplicates will be removed.
+        request_timeout: Timeout in which ES should respond. Otherwise break.
+
+    Returns:
+        dict: dict with success count and failure list
+                (with uuids of failed records)
+    """
+    LOGGER.info(f"Starting task `batch_index for {len(records_uuids)} records")
+    return InspireRecordIndexer().bulk_index(records_uuids, request_timeout)
+
+
+def process_references_for_record(record):
+    """Tries to find differences in record references.
+
+    Gets all references from  reference field and publication_info.conference_record
+    field and forces to reindex records which reference changed to update
+    their statistics.
+
+    Args:
+        record: Record object in which references has changed.
+            (not possible to pas this when called as a celery task)
+
+    Returns:
+        list(str): Statistics from the job.
+    """
+    uuids = record.get_modified_references()
+    uuids.extend(record.get_newest_linked_conferences_uuid())
+    uuids = list(set(uuids))
+    if uuids:
+        LOGGER.info(
+            f"Found {len(uuids)} references changed, indexing them", uuid=str(record.id)
+        )
+        return batch_index(uuids)
+    LOGGER.info("No references changed", uuid=str(record.id))
+
+
+def process_author_papers_if_author_changed_name(record):
+    """Checks if author has changed his name and reindexes all his papers if he did
+
+    Checks `name` dictionary to check if name or preferred name changed.
+
+    Args:
+        record(AuthorsRecord): Author record for which name could change.
+
+    Returns:
+        list(str): Statistics from the job.
+    """
+    if record.get("name") == record._previous_version.get("name"):
+        return None
+    # This is not 100% safe as it might happen that paper will be in the middle
+    # of indexing (with author loaded before name changes) but not yet in ES.
+    # This might result in paper not re-indexed with proper data.
+    # Chances that this will happen are extremely small, but non 0.
+    # For now we should try this solution as it's faster and cheaper,
+    # but if we will notice records which are not updated,
+    # we should consider more complex way.
+    # Solution to this would be to create table similar to citations table which would
+    # hold relation between papers and authors
+    # and it would be source for papers of author.
+    uuids = record.get_papers_uuids()
+    if uuids:
+        LOGGER.info(
+            f"Found {len(uuids)} papers assigned to author whose name changed. "
+            f"Indexing all of them.",
+            uuid=str(record.id),
+        )
+        return batch_index(uuids)
+
+
+@shared_task(
+    ignore_result=True,
+    bind=True,
+    retry_backoff=2,
+    retry_kwargs={"max_retries": 6},
+    autoretry_for=CELERY_INDEX_RECORD_RETRY_ON_EXCEPTIONS,
+)
+def index_record(self, uuid, record_version=None, force_delete=None):
+    """Record indexing.
+
+    Args:
+        self: task instance (binded automatically)
+        uuid (str): UUID of the record which should be reindexed.
+        record_version (int): Version of the record to reindex (will be checked).
+        force_delete (bool): if set to True will delete record from es even if
+            metadata says that record is not deleted.
+    Returns:
+        list(dict): Statistics from processing references.
+    """
+    LOGGER.debug("Indexing record", uuid=str(uuid), version=record_version)
+    record = get_record(uuid, record_version)
+
+    if not force_delete:
+        deleted = record.get("deleted", False)
+
+    if force_delete or deleted:
+        try:
+            InspireRecordIndexer().delete(record)
+            LOGGER.debug("Record removed from ES", uuid=str(uuid))
+        except NotFoundError:
+            LOGGER.debug("Record to delete not found", uuid=str(uuid))
+    else:
+        InspireRecordIndexer().index(record)
+
+    if isinstance(record, LiteratureRecord):
+        process_references_for_record(record=record)
+    if isinstance(record, AuthorsRecord):
+        process_author_papers_if_author_changed_name(record=record)
diff --git a/backend/inspirehep/indexer/utils.py b/backend/inspirehep/indexer/utils.py
diff --git a/backend/inspirehep/migrator/tasks.py b/backend/inspirehep/migrator/tasks.py
@@ -26,6 +26,7 @@
 from invenio_pidstore.models import PersistentIdentifier
 from jsonschema import ValidationError
 
+from inspirehep.indexer.tasks import batch_index
 from inspirehep.migrator.models import LegacyRecordsMirror
 from inspirehep.migrator.utils import (
     cache_afs_file_locations,
@@ -37,7 +38,6 @@
 from inspirehep.pidstore.api import PidStoreBase
 from inspirehep.records.api import InspireRecord, LiteratureRecord
 from inspirehep.records.errors import DownloadFileError
-from inspirehep.records.indexer.tasks import batch_index
 from inspirehep.records.receivers import index_after_commit
 from inspirehep.records.tasks import update_records_relations
 from inspirehep.utils import chunker
diff --git a/backend/inspirehep/records/api/base.py b/backend/inspirehep/records/api/base.py
@@ -23,9 +23,9 @@
 from sqlalchemy import tuple_
 from sqlalchemy.orm.attributes import flag_modified
 
+from inspirehep.indexer.base import InspireRecordIndexer
 from inspirehep.pidstore.api import PidStoreBase
 from inspirehep.records.errors import MissingSerializerError, WrongRecordSubclass
-from inspirehep.records.indexer.base import InspireRecordIndexer
 
 LOGGER = structlog.getLogger()
 
@@ -377,7 +377,7 @@ def index(self, force_delete=None, delay=True):
                 If not set, tries to determine automatically if record should be deleted
             delay: if True will start the index task async otherwise async.
         """
-        from inspirehep.records.indexer.tasks import index_record
+        from inspirehep.indexer.tasks import index_record
 
         arguments = {
             "uuid": str(self.id),
diff --git a/backend/inspirehep/records/indexer/tasks.py b/backend/inspirehep/records/indexer/tasks.py
@@ -17,9 +17,9 @@
 )
 from sqlalchemy.orm.exc import NoResultFound, StaleDataError
 
+from inspirehep.indexer.base import InspireRecordIndexer
+from inspirehep.indexer.utils import get_record
 from inspirehep.records.api import AuthorsRecord, LiteratureRecord
-from inspirehep.records.indexer.base import InspireRecordIndexer
-from inspirehep.records.indexer.utils import get_record
 
 LOGGER = structlog.getLogger()
 
diff --git a/backend/setup.py b/backend/setup.py
@@ -92,7 +92,7 @@
             "inspirehep_migrator = inspirehep.migrator.models",
         ],
         "invenio_celery.tasks": [
-            "inspirehep_indexer = inspirehep.records.indexer.tasks",
+            "inspirehep_indexer = inspirehep.indexer.tasks",
             "inspirehep_migrator = inspirehep.migrator.tasks",
             "inspirehep_orcid = inspirehep.orcid.tasks",
             "inspirehep_submissions = inspirehep.submissions.tasks",
diff --git a/backend/tests/integration-async/records/indexer/test_indexer_cli.py b/backend/tests/integration-async/records/indexer/test_indexer_cli.py
@@ -9,6 +9,7 @@
 from invenio_records.models import RecordMetadata
 from mock import patch
 
+from inspirehep.indexer.cli import get_query_records_to_index, reindex_records
 from inspirehep.records.api import (
     AuthorsRecord,
     ConferencesRecord,
@@ -19,7 +20,6 @@
     JournalsRecord,
     LiteratureRecord,
 )
-from inspirehep.records.indexer.cli import get_query_records_to_index, reindex_records
 
 
 @pytest.fixture
@@ -68,7 +68,7 @@ def test_reindex_record_lit_fails_with_invalid_record(
     check_n_records_reindex_for_pidtype,
 ):
     broken_field = {"_desy_bookkeeping": {"date": '"2013-01-14_final'}}
-    with patch("inspirehep.records.indexer.base.InspireRecordIndexer"):
+    with patch("inspirehep.indexer.base.InspireRecordIndexer"):
         with patch("inspirehep.records.api.base.schema_validate"):
             generate_records(count=1, data=broken_field, skip_validation=True)
 
@@ -84,7 +84,7 @@ def test_reindex_record_lit_fails_with_invalid_field_content(
 ):
     invalid_field = {"titles": ["i am not an object"]}
 
-    with patch("inspirehep.records.indexer.base.InspireRecordIndexer"):
+    with patch("inspirehep.indexer.base.InspireRecordIndexer"):
         with patch("inspirehep.records.api.base.schema_validate"):
             generate_records(count=1, data=invalid_field, skip_validation=True)
 
@@ -101,7 +101,7 @@ def test_reindex_records_lit_one_fails_and_two_ok(
     invalid_field = {"titles": ["i am not an object"]}
 
     generate_records(count=2)
-    with patch("inspirehep.records.indexer.base.InspireRecordIndexer"):
+    with patch("inspirehep.indexer.base.InspireRecordIndexer"):
         with patch("inspirehep.records.api.base.schema_validate"):
             generate_records(count=1, data=invalid_field, skip_validation=True)
 
diff --git a/backend/tests/integration/migrator/test_migrator_tasks.py b/backend/tests/integration/migrator/test_migrator_tasks.py
@@ -210,7 +210,7 @@ def test_migrate_and_insert_record_invalid_record_update_regression(base_app, db
         b"</record>"
     )
 
-    with patch("inspirehep.records.indexer.base.InspireRecordIndexer") as mock_indexer:
+    with patch("inspirehep.indexer.base.InspireRecordIndexer") as mock_indexer:
         migrate_and_insert_record(raw_record)
 
         prod_record = LegacyRecordsMirror.query.filter(
diff --git a/backend/tests/integration/records/indexer/test_remap_cli.py b/backend/tests/integration/records/indexer/test_remap_cli.py
@@ -11,7 +11,7 @@
 from invenio_search.utils import build_index_name
 from mock import patch
 
-from inspirehep.records.indexer.cli import index
+from inspirehep.indexer.cli import index
 
 
 def test_remap_one_index(base_app, es_clear, script_info):
diff --git a/backend/tests/unit/records/indexer/test_base.py b/backend/tests/unit/records/indexer/test_base.py
@@ -7,8 +7,8 @@
 
 import mock
 
+from inspirehep.indexer.base import InspireRecordIndexer
 from inspirehep.records.api import LiteratureRecord
-from inspirehep.records.indexer.base import InspireRecordIndexer
 
 
 @mock.patch(
@@ -21,8 +21,8 @@
     "inspirehep.records.marshmallow.literature.es.LiteratureElasticSearchSchema.get_latex_us_display"
 )
 @mock.patch("flask_sqlalchemy._QueryProperty.__get__")
-@mock.patch("inspirehep.records.indexer.base.before_record_index")
-@mock.patch("inspirehep.records.indexer.base.current_app")
+@mock.patch("inspirehep.indexer.base.before_record_index")
+@mock.patch("inspirehep.indexer.base.current_app")
 @mock.patch("inspirehep.records.api.base.RecordMetadata")
 def test_indexer_prepare_record(
     record_metadata_mock,
@@ -47,11 +47,10 @@ def test_indexer_prepare_record(
 
 @mock.patch("invenio_indexer.api.build_alias_name", return_value="prefixed-index")
 @mock.patch(
-    "inspirehep.records.indexer.base.InspireRecordIndexer._prepare_record",
-    return_value={},
+    "inspirehep.indexer.base.InspireRecordIndexer._prepare_record", return_value={}
 )
 @mock.patch(
-    "inspirehep.records.indexer.base.InspireRecordIndexer.record_to_index",
+    "inspirehep.indexer.base.InspireRecordIndexer.record_to_index",
     return_value=(None, None),
 )
 def test_process_bulk_record_for_index(
@@ -80,11 +79,10 @@ def test_process_bulk_record_for_index(
 
 @mock.patch("invenio_indexer.api.build_alias_name", return_value="prefixed-index")
 @mock.patch(
-    "inspirehep.records.indexer.base.InspireRecordIndexer._prepare_record",
-    return_value={},
+    "inspirehep.indexer.base.InspireRecordIndexer._prepare_record", return_value={}
 )
 @mock.patch(
-    "inspirehep.records.indexer.base.InspireRecordIndexer.record_to_index",
+    "inspirehep.indexer.base.InspireRecordIndexer.record_to_index",
     return_value=("test_index", "test_type"),
 )
 def test_process_bulk_record_for_index_default_values(
diff --git a/backend/tests/unit/records/indexer/test_index_record.py b/backend/tests/unit/records/indexer/test_index_record.py
@@ -16,13 +16,11 @@
     UnboundExecutionError,
 )
 
-from inspirehep.records.indexer.tasks import index_record
+from inspirehep.indexer.tasks import index_record
 
 
-@mock.patch(
-    "inspirehep.records.indexer.tasks.get_record", side_effect=DisconnectionError
-)
-@mock.patch("inspirehep.records.indexer.tasks.index_record.retry", side_effect=Retry)
+@mock.patch("inspirehep.indexer.tasks.get_record", side_effect=DisconnectionError)
+@mock.patch("inspirehep.indexer.tasks.index_record.retry", side_effect=Retry)
 def test_indexer_restarts_when_db_exception_DisconnectionError_occurs(
     retry_mock, get_record_mock
 ):
@@ -33,8 +31,8 @@ def test_indexer_restarts_when_db_exception_DisconnectionError_occurs(
     retry_mock.assert_called_once()
 
 
-@mock.patch("inspirehep.records.indexer.tasks.get_record", side_effect=TimeoutError)
-@mock.patch("inspirehep.records.indexer.tasks.index_record.retry", side_effect=Retry)
+@mock.patch("inspirehep.indexer.tasks.get_record", side_effect=TimeoutError)
+@mock.patch("inspirehep.indexer.tasks.index_record.retry", side_effect=Retry)
 def test_indexer_restarts_when_db_exception_TimeoutError_occurs(
     retry_mock, get_record_mock
 ):
@@ -45,10 +43,8 @@ def test_indexer_restarts_when_db_exception_TimeoutError_occurs(
     retry_mock.assert_called_once()
 
 
-@mock.patch(
-    "inspirehep.records.indexer.tasks.get_record", side_effect=InvalidatePoolError
-)
-@mock.patch("inspirehep.records.indexer.tasks.index_record.retry", side_effect=Retry)
+@mock.patch("inspirehep.indexer.tasks.get_record", side_effect=InvalidatePoolError)
+@mock.patch("inspirehep.indexer.tasks.index_record.retry", side_effect=Retry)
 def test_indexer_restarts_when_db_exception_InvalidatePoolError_occurs(
     retry_mock, get_record_mock
 ):
@@ -59,10 +55,8 @@ def test_indexer_restarts_when_db_exception_InvalidatePoolError_occurs(
     retry_mock.assert_called_once()
 
 
-@mock.patch(
-    "inspirehep.records.indexer.tasks.get_record", side_effect=UnboundExecutionError
-)
-@mock.patch("inspirehep.records.indexer.tasks.index_record.retry", side_effect=Retry)
+@mock.patch("inspirehep.indexer.tasks.get_record", side_effect=UnboundExecutionError)
+@mock.patch("inspirehep.indexer.tasks.index_record.retry", side_effect=Retry)
 def test_indexer_restarts_when_db_exception_UnboundExecutionError_occurs(
     retry_mock, get_record_mock
 ):
@@ -73,10 +67,8 @@ def test_indexer_restarts_when_db_exception_UnboundExecutionError_occurs(
     retry_mock.assert_called_once()
 
 
-@mock.patch(
-    "inspirehep.records.indexer.tasks.get_record", side_effect=ResourceClosedError
-)
-@mock.patch("inspirehep.records.indexer.tasks.index_record.retry", side_effect=Retry)
+@mock.patch("inspirehep.indexer.tasks.get_record", side_effect=ResourceClosedError)
+@mock.patch("inspirehep.indexer.tasks.index_record.retry", side_effect=Retry)
 def test_indexer_restarts_when_db_exception_ResourceClosedError_occurs(
     retry_mock, get_record_mock
 ):
@@ -87,9 +79,9 @@ def test_indexer_restarts_when_db_exception_ResourceClosedError_occurs(
     retry_mock.assert_called_once()
 
 
-@mock.patch("inspirehep.records.indexer.tasks.get_record")
-@mock.patch("inspirehep.records.indexer.tasks.index_record.retry")
-@mock.patch("inspirehep.records.indexer.tasks.InspireRecordIndexer")
+@mock.patch("inspirehep.indexer.tasks.get_record")
+@mock.patch("inspirehep.indexer.tasks.index_record.retry")
+@mock.patch("inspirehep.indexer.tasks.InspireRecordIndexer")
 def test_indexer_do_not_restarts_when_no_exception(
     indexer_mock, retry_mock, get_record_mock
 ):

Original file line number	Diff line number	Diff line change
`@@ -17,9 +17,9 @@`
`17`	`17`	`)`
`18`	`18`	`from sqlalchemy.orm.exc import NoResultFound, StaleDataError`
`19`	`19`
	`20`	`+from inspirehep.indexer.base import InspireRecordIndexer`
	`21`	`+from inspirehep.indexer.utils import get_record`
`20`	`22`	`from inspirehep.records.api import AuthorsRecord, LiteratureRecord`
`21`		`-from inspirehep.records.indexer.base import InspireRecordIndexer`
`22`		`-from inspirehep.records.indexer.utils import get_record`
`23`	`23`
`24`	`24`	`LOGGER = structlog.getLogger()`
`25`	`25`