Merge pull request #439 from max-svistunov/lcore-307-update-chunk-metadata

openshift-merge-bot[bot] · web-flow · commit 80dd461a29dc · 2025-07-08T18:00:38.000Z
LCORE-307 Add docs_url and title metadata to chunks
diff --git a/scripts/html_chunking/chunker.py b/scripts/html_chunking/chunker.py
@@ -38,6 +38,12 @@ def find_first_anchor(chunk_soup: BeautifulSoup) -> Optional[str]:
     return None
 
 
+def get_document_title(soup: BeautifulSoup) -> str:
+    """Extracts the document title from the <h1> tag."""
+    h1_tag = soup.find('h1')
+    return h1_tag.get_text(strip=True) if h1_tag else "Untitled"
+
+
 def chunk_html(
     html_content: str,
     source_url: str,
@@ -63,13 +69,17 @@ def chunk_html(
     )
 
     try:
+        soup = BeautifulSoup(html_content, 'html.parser')
+        doc_title = get_document_title(soup)
+
         if count_html_tokens(html_content, options.count_tag_tokens) <= options.max_token_limit:
-            return [Chunk(text=html_content, metadata={"source": source_url})]
+            metadata = {"docs_url": source_url, "title": doc_title}
+            return [Chunk(text=html_content, metadata=metadata)]
     except Exception as e:
         warnings.warn("Could not pre-calculate total tokens: %s. Proceeding with chunking." % e)
+        doc_title = "Untitled"
 
     try:
-        soup = BeautifulSoup(html_content, 'html.parser')
         body = soup.body or soup
         string_chunks = _split_element_by_children(body, options)
     except Exception as e:
@@ -92,10 +102,10 @@ def chunk_html(
         final_anchor = last_seen_anchor
         
         full_source_url = f"{source_url}#{final_anchor}" if final_anchor else source_url
-        metadata = {"source": full_source_url}
+        metadata = {"docs_url": full_source_url, "title": doc_title}
         final_chunks.append(Chunk(text=s_chunk, metadata=metadata))
 
-    return final_chunks if final_chunks else [Chunk(text=html_content, metadata={"source": source_url})]
+    return final_chunks if final_chunks else [Chunk(text=html_content, metadata={"docs_url": source_url, "title": doc_title})]
 
 
 def _split_element_by_children(element: Tag, options: ChunkingOptions) -> List[str]:
diff --git a/scripts/html_chunking/example.py b/scripts/html_chunking/example.py
@@ -72,7 +72,7 @@ def generate_html_report(output_path: str, chunks: List['Chunk'], original_token
             
             style = " style='background-color:#FFE0E0;'" if token_count > max_token_limit else ""
             f.write(f'<div class="chunk-header"{style}>Chunk {i} ({token_count} tokens)</div>\n')
-            f.write(f'<div class="chunk-meta"><strong>Source:</strong> {chunk.metadata.get("source", "N/A")}</div>\n')
+            f.write(f'<div class="chunk-meta"><strong>Title:</strong> {chunk.metadata.get("title", "N/A")}<br><strong>Source:</strong> {chunk.metadata.get("docs_url", "N/A")}</div>\n')
             f.write('<div class="chunk-content">\n')
             f.write(chunk.text)
             f.write('\n</div>\n')
diff --git a/scripts/html_chunking/test_chunker.py b/scripts/html_chunking/test_chunker.py
@@ -33,11 +33,12 @@ class TestHtmlChunker(unittest.TestCase):
 
     def test_chunk_html_small_input(self):
         """Tests that HTML smaller than the max_token_limit is not chunked."""
-        html = "<html><body><p>This is a small test.</p></body></html>"
+        html = "<html><body><h1>My Title</h1><p>This is a small test.</p></body></html>"
         chunks = chunk_html(html, "http://example.com/small", max_token_limit=100)
         self.assertEqual(len(chunks), 1)
         self.assertEqual(chunks[0].text, html)
-        self.assertEqual(chunks[0].metadata["source"], "http://example.com/small")
+        self.assertEqual(chunks[0].metadata["docs_url"], "http://example.com/small")
+        self.assertEqual(chunks[0].metadata["title"], "My Title")
 
     def test_basic_splitting(self):
         """Tests basic splitting of multiple paragraphs."""
@@ -153,24 +154,28 @@ def test_metadata_anchor_handling(self):
         
         self.assertGreaterEqual(len(chunks), 3)
 
-        self.assertEqual(chunks[0].metadata["source"], "http://example.com/meta")
+        # The first chunk might not have a specific anchor if it's just the title
+        self.assertIn(chunks[0].metadata["docs_url"], ["http://example.com/meta", "http://example.com/meta#intro"])
+        self.assertEqual(chunks[0].metadata["title"], "Intro")
 
         topic1_chunks = [c for c in chunks if "Topic 1" in c.text or "Content 1" in c.text or "More content 1" in c.text]
-        self.assertTrue(all(c.metadata["source"] == "http://example.com/meta#topic1" for c in topic1_chunks))
+        self.assertTrue(all(c.metadata["docs_url"] == "http://example.com/meta#topic1" for c in topic1_chunks))
         
         final_thoughts_chunk = next((c for c in chunks if "Final words" in c.text), None)
         
         self.assertIsNotNone(final_thoughts_chunk, "Final thoughts chunk not found")
         
-        self.assertEqual(final_thoughts_chunk.metadata["source"], "http://example.com/meta#final-thoughts")
+        self.assertEqual(final_thoughts_chunk.metadata["docs_url"], "http://example.com/meta#final-thoughts")
+        self.assertEqual(final_thoughts_chunk.metadata["title"], "Intro")
 
     def test_no_anchor_found(self):
         """Tests that the source URL has no anchor if no IDs are present."""
-        html = "<html><body><p>Paragraph 1.</p><p>Paragraph 2.</p></body></html>"
+        html = "<html><body><h1>No Anchor Title</h1><p>Paragraph 1.</p><p>Paragraph 2.</p></body></html>"
         chunks = chunk_html(html, "http://example.com/no-anchor", max_token_limit=15)
         self.assertEqual(len(chunks), 2)
-        self.assertEqual(chunks[0].metadata["source"], "http://example.com/no-anchor")
-        self.assertEqual(chunks[1].metadata["source"], "http://example.com/no-anchor")
+        self.assertEqual(chunks[0].metadata["docs_url"], "http://example.com/no-anchor")
+        self.assertEqual(chunks[1].metadata["docs_url"], "http://example.com/no-anchor")
+        self.assertEqual(chunks[0].metadata["title"], "No Anchor Title")
 
     def test_empty_html(self):
         """Tests that empty or minimal HTML does not cause errors."""
diff --git a/scripts/html_embeddings/README.md b/scripts/html_embeddings/README.md
@@ -174,11 +174,12 @@ Chunks are saved as JSON files with the following structure:
     "version": "4.18",
     "file_path": "monitoring/index.html",
     "doc_type": "openshift_documentation",
-    "source": "https://docs.redhat.com/en/documentation/openshift_container_platform/4.18/html-single/monitoring/",
+    "title": "Monitoring Guide",
+    "docs_url": "https://docs.redhat.com/en/documentation/openshift_container_platform/4.18/html-single/monitoring/",
     "chunk_index": 1,
     "total_chunks": 45,
     "token_count": 375,
-    "source_file": "monitoring/index.html",
+    "source_file": "monitoring/index.html"
   }
 }
 ```