readme

Sunny-DotNet · Sunny-DotNet · commit a142b55c4dc0 · 2025-12-26T18:09:34.000+08:00
diff --git a/src/CommonCrawl.Parquet/README.fr.md b/src/CommonCrawl.Parquet/README.fr.md
@@ -0,0 +1,56 @@
+# CommonCrawl.Parquet
+
+[English](README.md) | [中文](README.zh-CN.md) | [日本語](README.ja.md) | [Français](README.fr.md)
+
+Une bibliothèque .NET pour lire les données d'index Common Crawl stockées au format Parquet. Cette bibliothèque fournit des modèles fortement typés et un lecteur efficace pour traiter les enregistrements d'index Common Crawl.
+
+## Fonctionnalités
+
+- **Modèles fortement typés** : Mappe le schéma Parquet de Common Crawl à la classe C# `IndexTableRecord`.
+- **Lecture efficace** : Utilise `ParquetReader` pour lire les fichiers Parquet de manière asynchrone.
+- **Filtrage** : Prend en charge les prédicats pour filtrer les enregistrements lors de la lecture.
+
+## Installation
+
+Assurez-vous de disposer des dépendances nécessaires. Ce projet utilise `Parquet.Net`.
+
+## Utilisation
+
+Vous pouvez utiliser `ParquetReader.Instance` pour lire des fichiers Parquet. Le lecteur renvoie un `IAsyncEnumerable<T>`, permettant un traitement efficace de la mémoire.
+
+```csharp
+using CommonCrawl.Readers;
+using CommonCrawl.Models;
+
+// Lire à partir d'un chemin de fichier
+var reader = ParquetReader.Instance;
+string filePath = "path/to/cc-index.parquet";
+
+await foreach (var record in reader.ReadAsAsyncEnumerable<IndexTableRecord>(filePath))
+{
+    Console.WriteLine($"URL : {record.Url}, Date de récupération : {record.FetchTime}");
+}
+
+// Lire avec un filtre (par exemple, uniquement les récupérations réussies)
+await foreach (var record in reader.ReadAsAsyncEnumerable<IndexTableRecord>(filePath, r => r.FetchStatus == 200))
+{
+    Console.WriteLine($"URL valide trouvée : {record.Url}");
+}
+```
+
+## Modèles
+
+### IndexTableRecord
+
+Représente un enregistrement unique dans l'index Common Crawl. Les propriétés clés incluent :
+
+- `Url` : La chaîne URL complète.
+- `UrlSurtKey` : Clé URL SURT pour la canonicalisation.
+- `UrlHostName` : Nom d'hôte de l'URL.
+- `FetchTime` : Horodatage de la capture.
+- `FetchStatus` : Code d'état HTTP.
+- `ContentMimeType` : Type MIME du contenu.
+- `WarcFilename` : Emplacement du fichier WARC dans le bucket S3 de Common Crawl.
+- `WarcRecordOffset` & `WarcRecordLength` : Position de l'enregistrement dans le fichier WARC.
+
+Pour une liste complète des champs, reportez-vous au [code source](Models/IndexTableRecord.cs) ou au [Schéma d'index Common Crawl](https://github.com/commoncrawl/cc-index-table/blob/main/src/main/resources/schema/cc-index-schema-flat.json).
diff --git a/src/CommonCrawl.Parquet/README.ja.md b/src/CommonCrawl.Parquet/README.ja.md
@@ -0,0 +1,56 @@
+# CommonCrawl.Parquet
+
+[English](README.md) | [中文](README.zh-CN.md) | [日本語](README.ja.md) | [Français](README.fr.md)
+
+Parquet形式で保存されたCommon Crawlインデックスデータを読み取るための.NETライブラリです。このライブラリは、Common Crawlインデックスレコードを処理するための強力に型付けされたモデルと効率的なリーダーを提供します。
+
+## 特徴
+
+- **強力に型付けされたモデル**: Common Crawl Parquetスキーマを `IndexTableRecord` C#クラスにマッピングします。
+- **効率的な読み取り**: `ParquetReader`を使用してParquetファイルを非同期に読み取ります。
+- **フィルタリング**: 読み取り時に述語（Predicate）を使用してレコードをフィルタリングできます。
+
+## インストール
+
+必要な依存関係があることを確認してください。このプロジェクトは `Parquet.Net` を使用しています。
+
+## 使い方
+
+`ParquetReader.Instance` を使用してParquetファイルを読み取ることができます。リーダーは `IAsyncEnumerable<T>` を返すため、メモリ効率の良い処理が可能です。
+
+```csharp
+using CommonCrawl.Readers;
+using CommonCrawl.Models;
+
+// ファイルパスから読み取る
+var reader = ParquetReader.Instance;
+string filePath = "path/to/cc-index.parquet";
+
+await foreach (var record in reader.ReadAsAsyncEnumerable<IndexTableRecord>(filePath))
+{
+    Console.WriteLine($"URL: {record.Url}, 取得日時: {record.FetchTime}");
+}
+
+// フィルタを使用して読み取る（例：成功した取得のみ）
+await foreach (var record in reader.ReadAsAsyncEnumerable<IndexTableRecord>(filePath, r => r.FetchStatus == 200))
+{
+    Console.WriteLine($"有効なURLが見つかりました: {record.Url}");
+}
+```
+
+## モデル
+
+### IndexTableRecord
+
+Common Crawlインデックス内の単一のレコードを表します。主なプロパティは以下の通りです：
+
+- `Url`: 完全なURL文字列。
+- `UrlSurtKey`: 正規化のためのSURT URLキー。
+- `UrlHostName`: URLのホスト名。
+- `FetchTime`: キャプチャのタイムスタンプ。
+- `FetchStatus`: HTTPステータスコード。
+- `ContentMimeType`: コンテンツのMIMEタイプ。
+- `WarcFilename`: Common CrawlのS3バケット内のWARCファイルの場所。
+- `WarcRecordOffset` & `WarcRecordLength`: WARCファイル内のレコードの位置。
+
+フィールドの完全なリストについては、[ソースコード](Models/IndexTableRecord.cs) または [Common Crawl インデックススキーマ](https://github.com/commoncrawl/cc-index-table/blob/main/src/main/resources/schema/cc-index-schema-flat.json) を参照してください。
diff --git a/src/CommonCrawl.Parquet/README.md b/src/CommonCrawl.Parquet/README.md
@@ -0,0 +1,56 @@
+# CommonCrawl.Parquet
+
+[English](README.md) | [中文](README.zh-CN.md) | [日本語](README.ja.md) | [Français](README.fr.md)
+
+A .NET library for reading Common Crawl index data stored in Parquet format. This library provides strongly-typed models and an efficient reader to process Common Crawl index records.
+
+## Features
+
+- **Strongly Typed Models**: Maps Common Crawl Parquet schema to the `IndexTableRecord` C# class.
+- **Efficient Reading**: Uses `ParquetReader` to read Parquet files asynchronously.
+- **Filtering**: Supports predicates to filter records while reading.
+
+## Installation
+
+Ensure you have the necessary dependencies. This project uses `Parquet.Net`.
+
+## Usage
+
+You can use `ParquetReader.Instance` to read Parquet files. The reader returns an `IAsyncEnumerable<T>`, allowing for memory-efficient processing.
+
+```csharp
+using CommonCrawl.Readers;
+using CommonCrawl.Models;
+
+// Read from a file path
+var reader = ParquetReader.Instance;
+string filePath = "path/to/cc-index.parquet";
+
+await foreach (var record in reader.ReadAsAsyncEnumerable<IndexTableRecord>(filePath))
+{
+    Console.WriteLine($"URL: {record.Url}, Fetch Time: {record.FetchTime}");
+}
+
+// Read with a filter (e.g., only successful fetches)
+await foreach (var record in reader.ReadAsAsyncEnumerable<IndexTableRecord>(filePath, r => r.FetchStatus == 200))
+{
+    Console.WriteLine($"Found valid URL: {record.Url}");
+}
+```
+
+## Models
+
+### IndexTableRecord
+
+Represents a single record in the Common Crawl index. Key properties include:
+
+- `Url`: The full URL string.
+- `UrlSurtKey`: SURT URL key for canonicalization.
+- `UrlHostName`: Hostname of the URL.
+- `FetchTime`: Timestamp of the capture.
+- `FetchStatus`: HTTP status code.
+- `ContentMimeType`: MIME type of the content.
+- `WarcFilename`: Location of the WARC file in Common Crawl's S3 bucket.
+- `WarcRecordOffset` & `WarcRecordLength`: Position of the record in the WARC file.
+
+For a full list of fields, refer to the [source code](Models/IndexTableRecord.cs) or the [Common Crawl Index Schema](https://github.com/commoncrawl/cc-index-table/blob/main/src/main/resources/schema/cc-index-schema-flat.json).
diff --git a/src/CommonCrawl.Parquet/README.zh-CN.md b/src/CommonCrawl.Parquet/README.zh-CN.md
@@ -0,0 +1,56 @@
+# CommonCrawl.Parquet
+
+[English](README.md) | [中文](README.zh-CN.md) | [日本語](README.ja.md) | [Français](README.fr.md)
+
+这是一个用于读取 Parquet 格式的 Common Crawl 索引数据的 .NET 库。该库提供了强类型模型和高效的读取器来处理 Common Crawl 索引记录。
+
+## 功能特性
+
+- **强类型模型**：将 Common Crawl Parquet 模式映射到 `IndexTableRecord` C# 类。
+- **高效读取**：使用 `ParquetReader` 异步读取 Parquet 文件。
+- **过滤支持**：支持在读取时使用谓词（Predicate）过滤记录。
+
+## 安装
+
+请确保您已安装必要的依赖项。本项目使用 `Parquet.Net`。
+
+## 使用方法
+
+您可以使用 `ParquetReader.Instance` 读取 Parquet 文件。读取器返回 `IAsyncEnumerable<T>`，支持内存高效的处理方式。
+
+```csharp
+using CommonCrawl.Readers;
+using CommonCrawl.Models;
+
+// 从文件路径读取
+var reader = ParquetReader.Instance;
+string filePath = "path/to/cc-index.parquet";
+
+await foreach (var record in reader.ReadAsAsyncEnumerable<IndexTableRecord>(filePath))
+{
+    Console.WriteLine($"URL: {record.Url}, 抓取时间: {record.FetchTime}");
+}
+
+// 带过滤条件的读取 (例如：仅读取成功的抓取)
+await foreach (var record in reader.ReadAsAsyncEnumerable<IndexTableRecord>(filePath, r => r.FetchStatus == 200))
+{
+    Console.WriteLine($"发现有效 URL: {record.Url}");
+}
+```
+
+## 模型
+
+### IndexTableRecord
+
+表示 Common Crawl 索引中的一条记录。主要属性包括：
+
+- `Url`: 完整的 URL 字符串。
+- `UrlSurtKey`: 用于规范化的 SURT URL 键。
+- `UrlHostName`: URL 的主机名。
+- `FetchTime`: 抓取的时间戳。
+- `FetchStatus`: HTTP 状态码。
+- `ContentMimeType`: 内容的 MIME 类型。
+- `WarcFilename`: WARC 文件在 Common Crawl S3 存储桶中的位置。
+- `WarcRecordOffset` & `WarcRecordLength`: 记录在 WARC 文件中的位置。
+
+有关字段的完整列表，请参阅 [源代码](Models/IndexTableRecord.cs) 或 [Common Crawl 索引模式](https://github.com/commoncrawl/cc-index-table/blob/main/src/main/resources/schema/cc-index-schema-flat.json)。