Added tests to rtf and pptx parsers, bringing the total to 282

trypsynth · trypsynth · commit 1131de52222d · 2026-02-16T07:14:22.000-07:00
diff --git a/src/parser/pptx.rs b/src/parser/pptx.rs
@@ -191,3 +191,79 @@ fn traverse_for_text(
 		traverse_for_text(child, text, links, slide_start, rels);
 	}
 }
+
+#[cfg(test)]
+mod tests {
+	use std::collections::HashMap;
+
+	use roxmltree::Document as XmlDocument;
+	use rstest::rstest;
+
+	use super::{extract_slide_number, extract_slide_text, extract_slide_title, is_title_shape};
+
+	#[rstest]
+	#[case("ppt/slides/slide1.xml", 1)]
+	#[case("ppt/slides/slide12.xml", 12)]
+	#[case("slide007.xml", 7)]
+	#[case("ppt/slides/custom.xml", 0)]
+	fn extract_slide_number_parses_digits(#[case] name: &str, #[case] expected: usize) {
+		assert_eq!(extract_slide_number(name), expected);
+	}
+
+	#[test]
+	fn is_title_shape_true_for_title_and_center_title() {
+		let xml = r#"
+			<root>
+				<sp><nvSpPr><nvPr><ph type="title" /></nvPr></nvSpPr></sp>
+				<sp><nvSpPr><nvPr><ph type="ctrTitle" /></nvPr></nvSpPr></sp>
+			</root>
+		"#;
+		let doc = XmlDocument::parse(xml).expect("xml parse");
+		let shapes: Vec<_> = doc.descendants().filter(|n| n.tag_name().name() == "sp").collect();
+		assert!(is_title_shape(shapes[0]));
+		assert!(is_title_shape(shapes[1]));
+	}
+
+	#[test]
+	fn is_title_shape_false_without_title_placeholder() {
+		let xml = r#"<root><sp><nvSpPr><nvPr><ph type="body" /></nvPr></nvSpPr></sp></root>"#;
+		let doc = XmlDocument::parse(xml).expect("xml parse");
+		let shape = doc.descendants().find(|n| n.tag_name().name() == "sp").expect("shape");
+		assert!(!is_title_shape(shape));
+	}
+
+	#[test]
+	fn extract_slide_title_uses_first_non_empty_title_shape() {
+		let xml = r#"
+			<root>
+				<sp><nvSpPr><nvPr><ph type="title" /></nvPr></nvSpPr><txBody><p><r><t>  </t></r></p></txBody></sp>
+				<sp><nvSpPr><nvPr><ph type="title" /></nvPr></nvSpPr><txBody><p><r><t>Agenda</t></r></p></txBody></sp>
+			</root>
+		"#;
+		let doc = XmlDocument::parse(xml).expect("xml parse");
+		assert_eq!(extract_slide_title(doc.root()), "Agenda");
+	}
+
+	#[test]
+	fn extract_slide_title_returns_empty_when_missing() {
+		let xml = r#"<root><sp><txBody><p><r><t>Body text</t></r></p></txBody></sp></root>"#;
+		let doc = XmlDocument::parse(xml).expect("xml parse");
+		assert!(extract_slide_title(doc.root()).is_empty());
+	}
+
+	#[test]
+	fn extract_slide_text_collects_paragraphs_and_breaks() {
+		let xml = r#"
+			<root>
+				<p><r><t>Hello</t></r><br/><r><t>World</t></r></p>
+				<p><r><t>Next</t></r></p>
+			</root>
+		"#;
+		let doc = XmlDocument::parse(xml).expect("xml parse");
+		let mut links = Vec::new();
+		let rels = HashMap::new();
+		let text = extract_slide_text(doc.root(), &mut links, 0, &rels);
+		assert_eq!(text, "Hello\nWorld\nNext\n");
+		assert!(links.is_empty());
+	}
+}
diff --git a/src/parser/rtf.rs b/src/parser/rtf.rs
@@ -221,3 +221,78 @@ fn extract_content_from_tokens(tokens: &[Token]) -> DocumentBuffer {
 	}
 	result
 }
+
+#[cfg(test)]
+mod tests {
+	use encoding_rs::Encoding;
+	use rstest::rstest;
+
+	use super::{encoding_for_codepage, extract_codepage, hex_digit, parse_hex_pair, resolve_hex_escapes};
+
+	fn enc_name(enc: &'static Encoding) -> &'static str {
+		enc.name()
+	}
+
+	#[rstest]
+	#[case(1252, "windows-1252")]
+	#[case(1251, "windows-1251")]
+	#[case(1258, "windows-1258")]
+	#[case(874, "windows-874")]
+	#[case(9999, "windows-1252")]
+	fn encoding_for_codepage_maps_supported_and_defaults(#[case] codepage: i32, #[case] expected: &str) {
+		assert_eq!(enc_name(encoding_for_codepage(codepage)), expected);
+	}
+
+	#[rstest]
+	#[case("{\\rtf1\\ansi\\ansicpg1251 hello}", "windows-1251")]
+	#[case("{\\rtf1\\ansi\\ansicpg1258 hello}", "windows-1258")]
+	#[case("{\\rtf1\\ansi\\ansicpgNOTNUM hello}", "windows-1252")]
+	#[case("{\\rtf1\\ansi hello}", "windows-1252")]
+	fn extract_codepage_reads_ansicpg_when_present(#[case] rtf: &str, #[case] expected: &str) {
+		assert_eq!(enc_name(extract_codepage(rtf)), expected);
+	}
+
+	#[rstest]
+	#[case(b'0', Some(0))]
+	#[case(b'9', Some(9))]
+	#[case(b'a', Some(10))]
+	#[case(b'f', Some(15))]
+	#[case(b'A', Some(10))]
+	#[case(b'F', Some(15))]
+	#[case(b'g', None)]
+	#[case(b'/', None)]
+	fn hex_digit_classifies_ascii_hex(#[case] input: u8, #[case] expected: Option<u8>) {
+		assert_eq!(hex_digit(input), expected);
+	}
+
+	#[rstest]
+	#[case(b'4', b'1', Some(0x41))]
+	#[case(b'e', b'9', Some(0xE9))]
+	#[case(b'E', b'9', Some(0xE9))]
+	#[case(b'Z', b'9', None)]
+	#[case(b'1', b'X', None)]
+	fn parse_hex_pair_parses_and_rejects_invalid(#[case] h1: u8, #[case] h2: u8, #[case] expected: Option<u8>) {
+		assert_eq!(parse_hex_pair(h1, h2), expected);
+	}
+
+	#[test]
+	fn resolve_hex_escapes_decodes_high_bytes_only() {
+		let input = "Cafe\\'e9 and plain";
+		let output = resolve_hex_escapes(input, encoding_rs::WINDOWS_1252);
+		assert_eq!(output, "Cafeé and plain");
+	}
+
+	#[test]
+	fn resolve_hex_escapes_keeps_ascii_escape_sequences() {
+		let input = "Escaped brace: \\'7b and slash: \\'5c";
+		let output = resolve_hex_escapes(input, encoding_rs::WINDOWS_1252);
+		assert_eq!(output, input);
+	}
+
+	#[test]
+	fn resolve_hex_escapes_ignores_invalid_hex_sequences() {
+		let input = "Broken: \\'zz and mixed: \\'G1";
+		let output = resolve_hex_escapes(input, encoding_rs::WINDOWS_1252);
+		assert_eq!(output, input);
+	}
+}