Add create_tag for LexborHTMLParser

rushter · rushter · commit e67a408316a6 · 2025-12-06T16:04:09.000+04:00
diff --git a/selectolax/lexbor.pyi b/selectolax/lexbor.pyi
@@ -1254,11 +1254,42 @@ class LexborHTMLParser:
         None
         """
         ...
+    def create_node(self, tag: str) -> LexborNode:
+        """Given an HTML tag name, e.g. `"div"`, create a single empty node for that tag,
+        e.g. `"<div></div>"`.
+
+
+        Parameters
+        ----------
+        tag_name : str
+            Name of the tag to create.
+
+        Returns
+        -------
+        LexborNode
+            Newly created element node.
+        Raises
+        ------
+        SelectolaxError
+            If the element cannot be created.
+
+        Examples
+        --------
+        >>> parser = LexborHTMLParser("<div></div>")
+        >>> new_node = parser.create_node("span")
+        >>> new_node.tag_name
+        'span'
+        >>> parser.css_first("div").append_child(new_node)
+        >>> parser.html
+        '<html><head></head><body><div><span></span></div></body></html>'
+        """
 
 def create_tag(tag: str) -> LexborNode:
     """
     Given an HTML tag name, e.g. `"div"`, create a single empty node for that tag,
     e.g. `"<div></div>"`.
+
+    Use `LexborHTMLParser().create_node(..)` if you need to create a node tied to a specific parser instance.
     """
     ...
 
diff --git a/selectolax/lexbor.pyx b/selectolax/lexbor.pyx
@@ -704,3 +704,51 @@ cdef class LexborHTMLParser:
         None
         """
         self.root.inner_html = html
+
+    def create_node(self, str tag):
+        """Given an HTML tag name, e.g. `"div"`, create a single empty node for that tag,
+        e.g. `"<div></div>"`.
+
+        Parameters
+        ----------
+        tag_name : str
+            Name of the tag to create.
+
+        Returns
+        -------
+        LexborNode
+            Newly created element node.
+        Raises
+        ------
+        SelectolaxError
+            If the element cannot be created.
+
+        Examples
+        --------
+        >>> parser = LexborHTMLParser("<div></div>")
+        >>> new_node = parser.create_node("span")
+        >>> new_node.tag_name
+        'span'
+        >>> parser.root.append_child(new_node)
+        >>> parser.html
+        '<html><head></head><body><div><span></span></div></body></html>'
+        """
+        cdef lxb_html_element_t* element
+        cdef lxb_dom_node_t* dom_node
+        if not tag_name:
+            raise SelectolaxError("Tag name cannot be empty")
+        pybyte_name = tag_name.encode('UTF-8')
+
+        element = lxb_html_document_create_element(
+            self.document,
+            <const lxb_char_t *> pybyte_name,
+            len(pybyte_name),
+            NULL
+        )
+
+        if element == NULL:
+            raise SelectolaxError(f"Can't create element for tag '{tag_name}'")
+
+        dom_node = <lxb_dom_node_t *> element
+
+        return LexborNode.new(dom_node, self)
diff --git a/selectolax/lexbor/util.pxi b/selectolax/lexbor/util.pxi
@@ -7,6 +7,8 @@ def create_tag(tag: str):
     """
     Given an HTML tag name, e.g. `"div"`, create a single empty node for that tag,
     e.g. `"<div></div>"`.
+
+    Use `LexborHTMLParser().create_node(..)` if you need to create a node tied to a specific parser instance.
     """
     return LexborHTMLParser(f"<{tag}></{tag}>", is_fragment=True).root
 
diff --git a/tests/test_lexbor.py b/tests/test_lexbor.py
@@ -691,7 +691,6 @@ def test_double_unwrap_prevention():
 
 
 def test_clone_complex_modifications():
-    """Test cloning with complex document modifications."""
     html = "<div><p>Original</p><span>Content</span></div>"
     parser = LexborHTMLParser(html)
 
@@ -710,3 +709,53 @@ def test_clone_complex_modifications():
 
     cloned_text = cloned.root.text()
     assert "Modified" not in cloned_text
+
+
+def test_create_node_basic():
+    parser = LexborHTMLParser("<div></div>")
+    new_node = parser.create_node("span")
+    assert new_node.tag == "span"
+    assert new_node.parent is None
+
+    parser.css_first("div").insert_child(new_node)
+    expected_html = "<html><head></head><body><div><span></span></div></body></html>"
+    assert parser.html == expected_html
+
+
+def test_create_node_different_tags():
+    parser = LexborHTMLParser("<div></div>")
+    root = parser.root
+    assert root is not None
+
+    tags_to_test = ["p", "span", "div", "h1", "custom-tag"]
+    for tag in tags_to_test:
+        new_node = parser.create_node(tag)
+        assert new_node.tag == tag
+        root.insert_child(new_node)
+
+    html = parser.html
+    assert html is not None
+    for tag in tags_to_test:
+        assert f"<{tag}></{tag}>" in html
+
+
+def test_create_node_with_attributes():
+    parser = LexborHTMLParser("<div></div>")
+    new_node = parser.create_node("a")
+    new_node.attrs["href"] = "https://example.com"
+    new_node.attrs["class"] = "link"
+
+    parser.root.insert_child(new_node)
+    html = parser.html
+    assert html is not None
+    assert 'href="https://example.com"' in html
+    assert 'class="link"' in html
+
+
+def test_create_node_empty_tag_name():
+    parser = LexborHTMLParser("<div></div>")
+    try:
+        parser.create_node("")
+        assert False, "Should have raised an exception"
+    except SelectolaxError:
+        pass
diff --git a/tests/test_lexbor_fragment.py b/tests/test_lexbor_fragment.py
@@ -1,6 +1,6 @@
 from inspect import cleandoc
 import pytest
-from selectolax.lexbor import LexborHTMLParser
+from selectolax.lexbor import LexborHTMLParser, SelectolaxError
 
 
 def clean_doc(text: str) -> str:
@@ -418,14 +418,12 @@ def test_attributes_access_on_non_element():
     ],
 )
 def test_fragment_parsing_malformed_html(malformed_html):
-    """Test fragment parsing with malformed HTML."""
     parser = LexborHTMLParser(malformed_html, is_fragment=True)
     html_result = parser.html
     assert html_result is None or isinstance(html_result, str)
 
 
 def test_fragment_only_text():
-    """Test fragment parsing with only text."""
     text_only = "Just plain text"
     parser = LexborHTMLParser(text_only, is_fragment=True)
     html_result = parser.html
@@ -434,7 +432,6 @@ def test_fragment_only_text():
 
 
 def test_fragment_only_comment():
-    """Test fragment parsing with only comment."""
     comment_only = "<!-- Just a comment -->"
     parser = LexborHTMLParser(comment_only, is_fragment=True)
     html_result = parser.html
@@ -443,10 +440,61 @@ def test_fragment_only_comment():
 
 
 def test_fragment_mixed_content():
-    """Test fragment parsing with mixed content."""
     mixed = "Text <!-- comment --> <div>element</div> more text"
     parser = LexborHTMLParser(mixed, is_fragment=True)
     html_result = parser.html
     assert html_result is not None
     assert "Text" in html_result
     assert "element" in html_result
+
+
+def test_fragment_create_node_basic():
+    parser = LexborHTMLParser("<div></div>", is_fragment=True)
+    assert parser.root is not None
+    new_node = parser.create_node("span")
+    assert new_node.tag == "span"
+    assert new_node.parent is None
+
+    parser.root.insert_child(new_node)
+    expected_html = "<div><span></span></div>"
+    assert parser.html == expected_html
+
+
+def test_fragment_create_node_different_tags():
+    parser = LexborHTMLParser("<div></div>", is_fragment=True)
+    root = parser.root
+    assert root is not None
+
+    tags_to_test = ["p", "span", "div", "h1", "custom-tag"]
+    for tag in tags_to_test:
+        new_node = parser.create_node(tag)
+        assert new_node.tag == tag
+        root.insert_child(new_node)
+
+    html = parser.html
+    assert html is not None
+    for tag in tags_to_test:
+        assert f"<{tag}></{tag}>" in html
+
+
+def test_fragment_create_node_with_attributes():
+    parser = LexborHTMLParser("<div></div>", is_fragment=True)
+    assert parser.root is not None
+    new_node = parser.create_node("a")
+    new_node.attrs["href"] = "https://example.com"
+    new_node.attrs["class"] = "link"
+
+    parser.root.insert_child(new_node)
+    html = parser.html
+    assert html is not None
+    assert 'href="https://example.com"' in html
+    assert 'class="link"' in html
+
+
+def test_fragment_create_node_empty_tag_name():
+    parser = LexborHTMLParser("<div></div>", is_fragment=True)
+    try:
+        parser.create_node("")
+        assert False, "Should have raised an exception"
+    except SelectolaxError:
+        pass