huggingface
diff --git a/‎README.md
Lines changed: 5 additions & 0 deletions b/‎README.md
Lines changed: 5 additions & 0 deletions
diff --git a/‎packages/inference/README.md
Lines changed: 6 additions & 0 deletions b/‎packages/inference/README.md
Lines changed: 6 additions & 0 deletions
diff --git a/‎packages/inference/package.json
Lines changed: 3 additions & 3 deletions b/‎packages/inference/package.json
Lines changed: 3 additions & 3 deletions
diff --git a/‎packages/inference/pnpm-lock.yaml
Lines changed: 38 additions & 30 deletions b/‎packages/inference/pnpm-lock.yaml
Lines changed: 38 additions & 30 deletions
diff --git a/‎packages/inference/src/HfInference.ts
Lines changed: 26 additions & 0 deletions b/‎packages/inference/src/HfInference.ts
Lines changed: 26 additions & 0 deletions
@@ -97,6 +97,11 @@ await inference.textToImage({
     negative_prompt: 'blurry',
   }
 })
+
+await inference.imageToText({
+  data: await (await fetch('https://picsum.photos/300/300')).blob(),
+  model: 'nlpconnect/vit-gpt2-image-captioning',  
+})
 ```
 
 There are more features of course, check each library's README!
 
@@ -157,6 +157,11 @@ await hf.textToImage({
     negative_prompt: 'blurry',
   }
 })
+
+await hf.imageToText({
+  data: readFileSync('test/cats.png'),
+  model: 'nlpconnect/vit-gpt2-image-captioning'
+})
 ```
 
 ## Supported Tasks
@@ -188,6 +193,7 @@ await hf.textToImage({
 - [x] Object detection
 - [x] Image segmentation
 - [x] Text to image
+- [x] Image to text
 
 ## Running tests
 
 
@@ -45,15 +45,15 @@
 		"format": "prettier --write .",
 		"format:check": "prettier --check .",
 		"prepublishOnly": "pnpm run build",
-		"test": "vitest run",
-		"test:browser": "vitest run --browser.name=chrome --browser.headless",
+		"test": "vitest run --config vitest.config.ts",
+		"test:browser": "vitest run --browser.name=chrome --browser.headless --config vitest.config.ts",
 		"type-check": "tsc"
 	},
 	"devDependencies": {
 		"@types/node": "18.13.0",
 		"typescript": "4.9.5",
 		"vite": "^4.1.4",
-		"vitest": "^0.29.2"
+		"vitest": "^0.29.8"
 	},
 	"resolutions": {}
 }
@@ -608,6 +608,20 @@ export type TextToImageArgs = Args & {
 
 export type TextToImageReturn = Blob;
 
+export type ImageToTextArgs = Args & {
+	/**
+	 * Binary image data
+	 */
+	data: Blob | ArrayBuffer;
+};
+
+export interface ImageToTextReturn {
+	/**
+	 * The generated caption
+	 */
+	generated_text: string;
+}
+
 export class HfInference {
 	private readonly apiKey: string;
 	private readonly defaultOptions: Options;
@@ -946,6 +960,18 @@ export class HfInference {
 		return res;
 	}
 
+	/**
+	 * This task reads some image input and outputs the text caption.
+	 */
+	public async imageToText(args: ImageToTextArgs, options?: Options): Promise<ImageToTextReturn> {
+		return (
+			await this.request<[ImageToTextReturn]>(args, {
+				...options,
+				binary: true,
+			})
+		)?.[0];
+	}
+
 	/**
 	 * Helper that prepares request arguments
 	 */