fix: 编码问题

yefansky · yefansky · commit 462d69fe1e48 · 2025-09-14T01:22:59.000+08:00
diff --git a/src/fuzzyMatch.ts b/src/fuzzyMatch.ts
@@ -1,4 +1,4 @@
-// ================ ���Ͷ��� ================
+// ================ 类型定义 ================
 interface MatchPosition {
     start: number;
     end: number;
@@ -9,7 +9,7 @@ interface NormalizedContent {
     mapping: number[];
 }
 
-// ================ ����ʵ�� ================
+// ================ 核心实现 ================
 const MAX_EDIT_DISTANCE = 5;
 const SEGMENT_COUNT = MAX_EDIT_DISTANCE + 1;
 
@@ -18,42 +18,42 @@ export function applyFuzzyGlobalReplace(
     strOldContent: string,
     strNewContent: string
 ): string {
-    // �ڶ��׶Σ�ģ��ƥ������
+    // 第二阶段：模糊匹配流程
     const { content: normContent, mapping } = normalizeContent(strContent);
     const pattern = normalizePattern(strOldContent);
 
-    // ��Ƭ���Һ�ѡλ��
+    // 分片查找候选位置
     const candidates = findCandidatePositions(normContent, pattern);
 
-    // ��֤����ȡ��Чƥ��
+    // 验证并获取有效匹配
     const matches = verifyMatches(normContent, pattern, candidates, mapping);
 
     if (matches.length === 0) {
-        throw new Error(`GLOBAL-REPLACEʧ�ܣ�δ�ҵ�����${MAX_EDIT_DISTANCE}���ַ������ƥ��`);
+        throw new Error(`GLOBAL-REPLACE失败：未找到允许${MAX_EDIT_DISTANCE}个字符差异的匹配`);
     }
 
-    // Ӧ���滻
+    // 应用替换
     return applyReplacements(strContent, matches, strNewContent);
 }
 
-// ================ �㷨����ģ�� ================
+// ================ 算法核心模块 ================
 export function normalizeContent(original: string): { content: string; mapping: number[] } {
-    // ��һ����ȥ��ע��
+    // 第一步：去除注释
     const { content: noComments, mapping: mapping1 } = removeComments(original);
 
-    // �ڶ�����ȥ������ǰ��Ŀո�
+    // 第二步：去除符号前后的空格
     const { content: noSymbolSpaces, mapping: mapping2 } = removeSymbolSpaces(noComments);
 
-    // �������������з���Ϊ�ո񣬲��ϲ������Ŀո�
+    // 第三步：将换行符改为空格，并合并连续的空格
     const { content: finalContent, mapping: mapping3 } = normalizeWhitespace(noSymbolSpaces);
 
-    // �ϲ� mapping
+    // 合并 mapping
     const finalMapping = mapping3.map(idx => mapping2[idx]).map(idx => mapping1[idx]);
 
     return { content: finalContent, mapping: finalMapping };
 }
 
-// ��������1��ȥ��ע�ͣ���ȷ�� mapping �����ϸ��Ӧÿ������ַ����������з���
+// 辅助函数1：去除注释，并确保 mapping 数组严格对应每个输出字符（包括换行符）
 export function removeComments(original: string): { content: string; mapping: number[] } {
     const astrLines: string[] = original.split('\n');
     let strContent: string = "";
@@ -65,27 +65,27 @@ export function removeComments(original: string): { content: string; mapping: nu
         const nCommentIndex: number = strLine.indexOf('//');
         const strCleanLine: string = nCommentIndex !== -1 ? strLine.slice(0, nCommentIndex) : strLine;
         
-        // ����������������ݣ�����¼ӳ��
+        // 添加清理后的行内容，并记录映射
         strContent += strCleanLine;
         for (let nI: number = 0; nI < strCleanLine.length; nI++) {
             arrMapping.push(nCurrentPos + nI);
         }
 
-        // ֻ���ڲ������һ��ʱ���ӻ��з�
+        // 只有在不是最后一行时添加换行符
         if (i < astrLines.length - 1) {
             strContent += "\n";
             arrMapping.push(nCurrentPos + strLine.length);
-            nCurrentPos += strLine.length + 1; // +1 ��ʾ���з�
+            nCurrentPos += strLine.length + 1; // +1 表示换行符
         } else {
-            nCurrentPos += strLine.length; // ���һ��û�л��з�
+            nCurrentPos += strLine.length; // 最后一行没有换行符
         }
     }
     return { content: strContent, mapping: arrMapping };
 }
 
-// ��������2��ȥ������ǰ��Ŀո�
+// 辅助函数2：去除符号前后的空格
 export function removeSymbolSpaces(strContentIn: string): { content: string; mapping: number[] } {
-    // �����������ʽ��ƥ�䳣������
+    // 更新正则表达式，匹配常见符号
     const regSymbols: RegExp = /[+\-/*()\[\]{};=,'"`!&|]/;
     let strNewContent: string = "";
     const arrMapping: number[] = [];
@@ -94,59 +94,59 @@ export function removeSymbolSpaces(strContentIn: string): { content: string; map
     for (let nI: number = 0; nI < nLen; nI++) {
         const strCurrentChar: string = strContentIn[nI];
         
-        // ʹ���������ʽƥ�����пհ��ַ����ո��Ʊ��������з��ȣ�
+        // 使用正则表达式匹配所有空白字符（空格、制表符、换行符等）
         if (/\s/.test(strCurrentChar) && strCurrentChar !== '\n') {
-            // ���������һ���ǿհ��ַ�
+            // 查找向左第一个非空白字符
             let nPrev: number = nI - 1;
             while (nPrev >= 0 && /\s/.test(strContentIn[nPrev])) {
                 nPrev--;
             }
-            // �������ҵ�һ���ǿհ��ַ�
+            // 查找向右第一个非空白字符
             let nNext: number = nI + 1;
             while (nNext < nLen && /\s/.test(strContentIn[nNext])) {
                 nNext++;
             }
             
             let bSkipSpace: boolean = false;
-            // ���ǰһ���ַ��Ƿ��ţ�������ǰ�հ��ַ�
+            // 如果前一个字符是符号，跳过当前空白字符
             if (nPrev >= 0 && regSymbols.test(strContentIn[nPrev])) {
                 bSkipSpace = true;
             }
-            // �����һ���ַ��Ƿ��ţ�������ǰ�հ��ַ�
+            // 如果后一个字符是符号，跳过当前空白字符
             if (nNext < nLen && regSymbols.test(strContentIn[nNext])) {
                 bSkipSpace = true;
             }
             
             if (bSkipSpace) {
-                continue; // �������Ÿ����Ŀհ��ַ�
+                continue; // 跳过符号附近的空白字符
             }
         }
         
-        // �����ǿհ��ַ���δ�����Ŀհ��ַ�
+        // 保留非空白字符或未跳过的空白字符
         strNewContent += strCurrentChar;
         arrMapping.push(nI);
     }
     
     return { content: strNewContent, mapping: arrMapping };
 }
 
-// ��������3�������з���Ϊ�ո񣬲��ϲ������Ŀո�
+// 辅助函数3：将换行符改为空格，并合并连续的空格
 export function normalizeWhitespace(content: string): { content: string; mapping: number[] }
 {
     let strNewContent: string = "";
     let arrMapping: number[] = [];
-    let bAtLineStart: boolean = true;          // ��ǵ�ǰ�Ƿ�������
-    let nPendingSpaceIndex: number | null = null; // �����ӿո��ԭʼ����
+    let bAtLineStart: boolean = true;          // 标记当前是否处于行首
+    let nPendingSpaceIndex: number | null = null; // 待添加空格的原始索引
 
     for (let nIdx = 0; nIdx < content.length; nIdx++)
     {
         const chChar: string = content[nIdx];
 
         if (chChar === '\n')
         {
-            // �������з�ʱ�����������ӵĿո񣨱�����β�ո�
+            // 遇到换行符时，丢弃待添加的空格（避免行尾空格）
             nPendingSpaceIndex = null;
-            // ������Ϊ�ջ���һ���ַ����ǻ��з��������ӻ��з�
+            // 如果输出为空或上一个字符不是换行符，则添加换行符
             if (strNewContent.length === 0 || strNewContent[strNewContent.length - 1] !== '\n')
             {
                 strNewContent += '\n';
@@ -156,7 +156,7 @@ export function normalizeWhitespace(content: string): { content: string; mapping
         }
         else if (/\s/.test(chChar))
         {
-            // �����ǻ��пհ��ַ�����������ף�����ԣ����򣬼�¼��һ���հ��ַ�����
+            // 遇到非换行空白字符：如果在行首，则忽略；否则，记录第一个空白字符索引
             if (!bAtLineStart)
             {
                 if (nPendingSpaceIndex === null)
@@ -167,7 +167,7 @@ export function normalizeWhitespace(content: string): { content: string; mapping
         }
         else
         {
-            // �����ǿհ��ַ�ʱ������д����ӵĿո��������һ���ո�
+            // 遇到非空白字符时，如果有待添加的空格则先输出一个空格
             if (nPendingSpaceIndex !== null)
             {
                 strNewContent += ' ';
@@ -235,13 +235,13 @@ export function verifyMatches(
         }
     });
     
-    // ����ҵ�����Ѻ�ѡ������̰�ķ�ʽ��չƥ�䷶Χ
+    // 如果找到了最佳候选，则用贪心方式扩展匹配范围
     if (bestMatch && bestCandidate !== -1)
     {
         let candidateIdx: number = bestCandidate;
         let patternIdx: number = 0;
         let startIndex: number = -1;
-        // ����Ѻ�ѡ��㿪ʼ��̰��ɨ���ѡ��������ƥ����ַ���ͬ���ƽ�ģʽ���±�
+        // 从最佳候选起点开始，贪心扫描候选区域，遇到匹配的字符则同步推进模式串下标
         while (candidateIdx < content.length && patternIdx < pattern.length)
         {
             if (content.charAt(candidateIdx) === pattern.charAt(patternIdx))
@@ -256,7 +256,7 @@ export function verifyMatches(
         }
 
         let tmpMatch : MatchPosition = bestMatch;
-        // nCandidateIdx ��Ϊ����ƥ�����λ�ã�ע�����������һ��ƥ����1��λ�ã�
+        // nCandidateIdx 作为最终匹配结束位置（注意这里是最后一次匹配后加1的位置）
         tmpMatch.start = mapping[startIndex];
         tmpMatch.end = mapping[Math.min(candidateIdx, content.length - 1)];
         bestMatch = tmpMatch;
@@ -265,7 +265,7 @@ export function verifyMatches(
     return bestMatch ? [bestMatch] : [];
 }
 
-// ================ ���ߺ��� ================
+// ================ 工具函数 ================
 function splitPatternWithStart(pattern: string, count: number): { segment: string, start: number }[] {
     const segments: { segment: string, start: number }[] = [];
     const minSegmentLength = 3;
@@ -289,7 +289,7 @@ function calculateEditDistance(a: string, b: string, maxDistance: number): numbe
         return Infinity;
     }
 
-    // ʹ�ù��������Ż�
+    // 使用滚动数组优化
     let prevRow = Array(b.length + 1).fill(0).map((_, i) => i);
     let currentRow = new Array(b.length + 1);
 
diff --git a/src/utiliti.ts b/src/utiliti.ts
@@ -8,41 +8,41 @@ export function activate(context: ExtensionContext) {
 }
 
 /**
- * ��ȡ�ļ�����������루GBK��UTF-8 ��� BOM �� UTF-8��ת��Ϊ UTF-8 �ַ���
- * @param filePath �ļ�·��
- * @returns ת����� UTF-8 �ַ���
- * @throws ����޷���ȡ�ļ������ʧ�ܣ��׳�����
+ * 读取文件并根据其编码（GBK、UTF-8 或带 BOM 的 UTF-8）转换为 UTF-8 字符串
+ * @param filePath 文件路径
+ * @returns 转换后的 UTF-8 字符串
+ * @throws 如果无法读取文件或解码失败，抛出错误
  */
 export async function readFileAsUtf8(filePath: string): Promise<string> {
     try {
-        // ��ȡ�ļ���ԭʼ Buffer
+        // 读取文件的原始 Buffer
         const buffer = await fs.readFile(filePath);
 
-        // ����Ƿ�Ϊ�� BOM �� UTF-8
+        // 检测是否为带 BOM 的 UTF-8
         const isUtf8WithBom =
             buffer.length >= 3 &&
             buffer[0] === 0xEF &&
             buffer[1] === 0xBB &&
             buffer[2] === 0xBF;
 
         if (isUtf8WithBom) {
-            // �Ƴ� BOM ����Ϊ UTF-8 ����
+            // 移除 BOM 并作为 UTF-8 解码
             return buffer.slice(3).toString('utf8');
         }
 
-        // ������Ϊ UTF-8 ����
+        // 尝试作为 UTF-8 解码
         try {
-            // ����֤�Ƿ�����Ч�� UTF-8
+            // 先验证是否是有效的 UTF-8
             const utf8Text = buffer.toString('utf8');
-            // �򵥵� UTF-8 ��Ч�Լ�飺���±����Ƚ�
+            // 简单的 UTF-8 有效性检查：重新编码后比较
             if (Buffer.from(utf8Text, 'utf8').equals(buffer)) {
                 return utf8Text;
             }
         } catch (utf8Error) {
-            // ��� UTF-8 ����ʧ�ܣ��������� GBK
+            // 如果 UTF-8 解码失败，继续尝试 GBK
         }
 
-        // ������Ϊ GBK ����
+        // 尝试作为 GBK 解码
         try {
             const gbkText = iconv.decode(buffer, 'gbk');
             return gbkText;