Checkpoint

Steve Ramage · Steve Ramage · commit b90c9093950f · 2025-02-17T11:45:07.000-08:00
diff --git a/buildSrc/src/main/groovy/GenerateDataFromManPages.groovy b/buildSrc/src/main/groovy/GenerateDataFromManPages.groovy
@@ -5,6 +5,7 @@ import org.gradle.api.tasks.OutputDirectory
 import org.gradle.api.tasks.TaskAction
 import org.gradle.api.tasks.Internal
 import org.w3c.dom.Document
+import org.w3c.dom.Element
 import org.w3c.dom.Node
 import org.w3c.dom.NodeList
 import org.w3c.dom.ls.DOMImplementationLS
@@ -14,6 +15,7 @@ import org.xml.sax.InputSource
 
 import javax.xml.parsers.DocumentBuilder
 import javax.xml.parsers.DocumentBuilderFactory
+import javax.xml.transform.OutputKeys
 import javax.xml.transform.Transformer
 import javax.xml.transform.TransformerFactory
 import javax.xml.transform.dom.DOMSource
@@ -22,8 +24,8 @@ import javax.xml.transform.stream.StreamSource
 import javax.xml.xpath.XPath
 import javax.xml.xpath.XPathConstants
 import javax.xml.xpath.XPathFactory
+import java.util.concurrent.ConcurrentHashMap
 import java.util.regex.Matcher
-import java.util.regex.Pattern
 
 /**
  * This task scans the systemd source code man pages to extract the set of available options as well as (eventually) documentation.
@@ -464,7 +466,6 @@ class GenerateDataFromManPages extends DefaultTask {
     // 🔥 Regex to match <xi:include href="some.xml" xpointer="some-id"/> (xpointer is optional)
     def includePattern = /<xi:include\s+href="([^"]+)"(?:\s+xpointer="([^"]+)")?\s*\/>/
 
-
     return xmlContent.replaceAll(includePattern) { match, href, xpointer ->
       File includedFile = new File(baseDir, href)
 
@@ -473,27 +474,80 @@ class GenerateDataFromManPages extends DefaultTask {
         return "<!-- Failed to include: $href -->"
       }
 
-      String includedContent = includedFile.text
 
-      if (xpointer) {
-        // Extract only the element with the specified ID
+      // ✅ Load XML properly instead of using regex
+      String xptr = xpointer
+      String includedContent = GenerateDataFromManPages.extractElementById(includedFile, xptr)
+
+      return includedContent ?: "<!-- Failed to find xpointer '$xpointer' in $href -->"
+
+    }
+  }
+
+  private static final Map<String, String> cache = new ConcurrentHashMap<>()
+
+  private static String extractElementById(File xmlFile, String elementId) {
+    String cacheKey = xmlFile.getAbsolutePath() + "::" + elementId
+
+    // ✅ Check cache before processing
+    if (cache.containsKey(cacheKey)) {
+      return cache.get(cacheKey)
+    }
 
-        //includedContent = extractById(includedContent, xpointer) ?: "<!-- Failed to find xpointer '$xpointer' in $href -->"
+    try {
+      println("Processing $cacheKey")
 
-        def xmlContent2 = includedContent
-        def idPattern = Pattern.compile(/<([a-zA-Z0-9:_-]+)\s+[^>]*id=["']$xpointer["'][^>]*>(.*?)<\/\1>/, Pattern.DOTALL)
-        def matcher = xmlContent2 =~ idPattern
+      DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance()
+      factory.setNamespaceAware(true) // Needed for XML ID lookup
+      DocumentBuilder builder = factory.newDocumentBuilder()
 
-        def resContent = matcher.find() ? matcher.group(0) : null
+      Document document = builder.parse(new InputSource(xmlFile.newReader()))
+      document.getDocumentElement().normalize()
 
-        includedContent = "<!--xi:include='$href' xpointer='$xpointer'-->" + resContent + "<!-- /xi:include='$href' xpointer='$xpointer' -->"
+      // Find element with matching id
+      Node targetNode = findElementById(document, elementId)
+      if (targetNode == null) {
+        println "⚠️ WARNING: Element with id='$elementId' not found in ${xmlFile.name}"
+        return null
       }
 
-      return includedContent
+      // ✅ Convert the found node back to an XML string
+      String extractedXml = nodeToString(targetNode)
+      String value = "<!--xi:include='$xmlFile.name' xpointer='$elementId'-->" + extractedXml + "<!-- /xi:include='$xmlFile.name' xpointer='$elementId' -->"
+      cache.put(cacheKey, value)
+
+      return value
+
+    } catch (Exception e) {
+      println "❌ ERROR: Failed to extract element by id='$elementId' from ${xmlFile.name}: ${e.message}"
+      cache.put(cacheKey, null)
     }
   }
 
+  private static Node findElementById(Document document, String elementId) {
+    def elements = document.getElementsByTagName("*") // Get all elements
+    for (int i = 0; i < elements.length; i++) {
+      Element element = elements.item(i)
+      if (element.hasAttribute("id") && element.getAttribute("id") == elementId) {
+        return element
+      }
+    }
+    return null
+  }
 
+  private static String nodeToString(Node node) {
+    try {
+      TransformerFactory transformerFactory = TransformerFactory.newInstance()
+      Transformer transformer = transformerFactory.newTransformer()
+      transformer.setOutputProperty(OutputKeys.OMIT_XML_DECLARATION, "yes")
+      StringWriter writer = new StringWriter()
+      transformer.transform(new DOMSource(node), new StreamResult(writer))
+      return writer.toString()
+    } catch (Exception e) {
+      println "❌ ERROR: Failed to convert node to string: ${e.message}"
+      return ""
+    }
+  }
   /**
    * Transforms the supplied document with the supplied transformer
    * @param document - XML Document to transform