Future-House
diff --git a/‎.github/workflows/publish.yml‎
Lines changed: 7 additions & 7 deletions b/‎.github/workflows/publish.yml‎
Lines changed: 7 additions & 7 deletions
diff --git a/‎.github/workflows/tests.yml‎
Lines changed: 7 additions & 7 deletions b/‎.github/workflows/tests.yml‎
Lines changed: 7 additions & 7 deletions
diff --git a/‎.pre-commit-config.yaml‎
Lines changed: 2 additions & 2 deletions b/‎.pre-commit-config.yaml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎README.md‎
Lines changed: 3 additions & 2 deletions b/‎README.md‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎packages/labbench/README.md‎
Lines changed: 121 additions & 0 deletions b/‎packages/labbench/README.md‎
Lines changed: 121 additions & 0 deletions
diff --git a/‎packages/litqa/pyproject.toml‎ ‎packages/labbench/pyproject.toml‎packages/litqa/pyproject.toml renamed to packages/labbench/pyproject.toml
Lines changed: 7 additions & 5 deletions b/‎packages/litqa/pyproject.toml‎ ‎packages/labbench/pyproject.toml‎packages/litqa/pyproject.toml renamed to packages/labbench/pyproject.toml
Lines changed: 7 additions & 5 deletions
diff --git a/‎…/litqa/src/aviary/envs/litqa/__init__.py‎ ‎…nch/src/aviary/envs/labbench/__init__.py‎packages/litqa/src/aviary/envs/litqa/__init__.py renamed to packages/labbench/src/aviary/envs/labbench/__init__.py
Lines changed: 14 additions & 10 deletions b/‎…/litqa/src/aviary/envs/litqa/__init__.py‎ ‎…nch/src/aviary/envs/labbench/__init__.py‎packages/litqa/src/aviary/envs/litqa/__init__.py renamed to packages/labbench/src/aviary/envs/labbench/__init__.py
Lines changed: 14 additions & 10 deletions
@@ -45,18 +45,18 @@ jobs:
           path: dist
       - name: Clean up aviary.hotpotqa build # Work around https://github.com/hynek/build-and-inspect-python-package/issues/174
         run: rm -r ${{ steps.build-aviary-hotpotqa.outputs.dist }}
-      - id: build-aviary-litqa
+      - id: build-aviary-labbench
         uses: hynek/build-and-inspect-python-package@v2
         with:
-          path: packages/litqa
-          upload-name-suffix: -litqa
-      - name: Download built aviary.litqa artifact to dist/
+          path: packages/labbench
+          upload-name-suffix: -labbench
+      - name: Download built aviary.labbench artifact to dist/
         uses: actions/download-artifact@v7
         with:
-          name: ${{ steps.build-aviary-litqa.outputs.artifact-name }}
+          name: ${{ steps.build-aviary-labbench.outputs.artifact-name }}
           path: dist
-      - name: Clean up aviary.litqa build # Work around https://github.com/hynek/build-and-inspect-python-package/issues/174
-        run: rm -r ${{ steps.build-aviary-litqa.outputs.dist }}
+      - name: Clean up aviary.labbench build # Work around https://github.com/hynek/build-and-inspect-python-package/issues/174
+        run: rm -r ${{ steps.build-aviary-labbench.outputs.dist }}
       - id: build-aviary-lfrqa
         uses: hynek/build-and-inspect-python-package@v2
         with:
 
@@ -69,16 +69,16 @@ jobs:
       - name: Clean up aviary.hotpotqa build # Work around https://github.com/hynek/build-and-inspect-python-package/issues/174
         if: matrix.python-version == '3.11'
         run: rm -r ${{ steps.build-hotpotqa.outputs.dist }}
-      - name: Check aviary.litqa build
-        id: build-litqa
+      - name: Check aviary.labbench build
+        id: build-labbench
         if: matrix.python-version == '3.11'
         uses: hynek/build-and-inspect-python-package@v2
         with:
-          path: packages/litqa
-          upload-name-suffix: -litqa
-      - name: Clean up aviary.litqa build # Work around https://github.com/hynek/build-and-inspect-python-package/issues/174
+          path: packages/labbench
+          upload-name-suffix: -labbench
+      - name: Clean up aviary.labbench build # Work around https://github.com/hynek/build-and-inspect-python-package/issues/174
         if: matrix.python-version == '3.11'
-        run: rm -r ${{ steps.build-litqa.outputs.dist }}
+        run: rm -r ${{ steps.build-labbench.outputs.dist }}
       - name: Check aviary.lfrqa build
         id: build-lfrqa
         if: matrix.python-version == '3.11'
@@ -116,7 +116,7 @@ jobs:
         uses: actions/cache@v5
         with:
           path: ~/.cache/huggingface/datasets
-          key: ${{ runner.os }}-datasets-${{ hashFiles('packages/gsm8k') }}-${{ hashFiles('packages/hotpotqa') }}-${{ hashFiles('packages/litqa') }}-${{ hashFiles('packages/lfrqa') }}-${{ hashFiles('packages/notebook') }}
+          key: ${{ runner.os }}-datasets-${{ hashFiles('packages/gsm8k') }}-${{ hashFiles('packages/hotpotqa') }}-${{ hashFiles('packages/labbench') }}-${{ hashFiles('packages/lfrqa') }}-${{ hashFiles('packages/notebook') }}
           restore-keys: ${{ runner.os }}-datasets-
       - run: uv run pytest -n 16 --dist=loadfile # auto only launches 8 workers in CI, despite runners have 16 cores
         env:
 
@@ -37,7 +37,7 @@ repos:
         args:
           - --word-list=.secrets.allowlist
           - --exclude-files=.secrets.baseline$
-        exclude: tests/cassettes|litqa/tests/stub_data
+        exclude: tests/cassettes|labbench/tests/stub_data
   - repo: https://github.com/jumanjihouse/pre-commit-hooks
     rev: 3.0.0
     hooks:
@@ -48,7 +48,7 @@ repos:
       - id: codespell
         additional_dependencies: [".[toml]"]
         exclude_types: [jupyter]
-        exclude: '.*\.b64$|litqa/tests/stub_data'
+        exclude: '.*\.b64$|labbench/tests/stub_data'
   - repo: https://github.com/pappasam/toml-sort
     rev: v0.24.3
     hooks:
 
@@ -58,7 +58,7 @@ pip install fhaviary
 To install aviary together with the incumbent environments:
 
 ```bash
-pip install 'fhaviary[gsm8k,hotpotqa,litqa,lfrqa,notebook]'
+pip install 'fhaviary[gsm8k,hotpotqa,labbench,lfrqa,notebook]'
 ```
 
 To run the tutorial notebooks:
@@ -424,9 +424,10 @@ Below we list some pre-existing environments implemented in Aviary:
 | ----------- | -------------------------------------------------------------- | -------------------- | ------------------------------------------------------- |
 | GSM8k       | [`aviary.gsm8k`](https://pypi.org/project/aviary.gsm8k/)       | `fhaviary[gsm8k]`    | [`README.md`](packages/gsm8k/README.md#installation)    |
 | HotPotQA    | [`aviary.hotpotqa`](https://pypi.org/project/aviary.hotpotqa/) | `fhaviary[hotpotqa]` | [`README.md`](packages/hotpotqa/README.md#installation) |
-| LitQA       | [`aviary.litqa`](https://pypi.org/project/aviary.litqa/)       | `fhaviary[litqa]`    | [`README.md`](packages/litqa/README.md#installation)    |
+| LAB-Bench   | [`aviary.labbench`](https://pypi.org/project/aviary.labbench/) | `fhaviary[labbench]` | [`README.md`](packages/labbench/README.md#installation) |
 | LFRQA       | [`aviary.lfrqa`](https://pypi.org/project/aviary.lfrqa/)       | `fhaviary[lfrqa]`    | [`README.md`](packages/lfrqa/README.md#installation)    |
 | Notebook    | [`aviary.notebook`](https://pypi.org/project/aviary.notebook/) | `fhaviary[notebook]` | [`README.md`](packages/notebook/README.md#installation) |
+| LitQA       | [`aviary.litqa`](https://pypi.org/project/aviary.litqa/)       | Moved to `labbench`  | Moved to `labbench`                                     |
 
 ### Task Datasets
 
 
@@ -0,0 +1,121 @@
+# aviary.labbench
+
+LAB-Bench environments implemented with aviary,
+allowing agents to perform question answering on scientific tasks.
+
+## Installation
+
+To install the LAB-Bench environment, run:
+
+```bash
+pip install 'fhaviary[labbench]'
+```
+
+## Usage
+
+In [`labbench/env.py`](src/aviary/envs/labbench/env.py), you will find:
+
+- `GradablePaperQAEnvironment`: an PaperQA-backed environment
+  that can grade answers given an evaluation function.
+- `ImageQAEnvironment`: an `GradablePaperQAEnvironment`
+  subclass for QA where image(s) are pre-added.
+
+And in [`labbench/task.py`](src/aviary/envs/labbench/task.py), you will find:
+
+- `TextQATaskDataset`: a task dataset designed to
+  pull down FigQA, LitQA2, or TableQA from Hugging Face,
+  and create one `GradablePaperQAEnvironment` per question.
+- `ImageQATaskDataset`: a task dataset that pairs with `ImageQAEnvironment`
+  for FigQA or TableQA.
+
+Here is an example of how to use them:
+
+```python
+import os
+
+from ldp.agent import SimpleAgent
+from ldp.alg import Evaluator, EvaluatorConfig, MeanMetricsCallback
+from paperqa import Settings
+
+from aviary.env import TaskDataset
+
+
+async def evaluate(folder_of_litqa_v2_papers: str | os.PathLike) -> None:
+    settings = Settings(paper_directory=folder_of_litqa_v2_papers)
+    dataset = TaskDataset.from_name("litqa2", settings=settings)
+    metrics_callback = MeanMetricsCallback(eval_dataset=dataset)
+
+    evaluator = Evaluator(
+        config=EvaluatorConfig(batch_size=3),
+        agent=SimpleAgent(),
+        dataset=dataset,
+        callbacks=[metrics_callback],
+    )
+    await evaluator.evaluate()
+    print(metrics_callback.eval_means)
+```
+
+### Image Question-Answer
+
+This is an environment/dataset for giving PaperQA a `Docs` object with
+the image(s) for one LAB-Bench question.
+It's designed to be a comparison with zero-shotting the question to a LLM,
+but instead of a singular prompt the image is put through the PaperQA agent loop.
+
+```python
+from typing import cast
+
+import litellm
+import pytest
+from ldp.agent import Agent
+from ldp.alg import (
+    Evaluator,
+    EvaluatorConfig,
+    MeanMetricsCallback,
+    StoreTrajectoriesCallback,
+)
+from paperqa.settings import AgentSettings, IndexSettings
+
+from aviary.envs.labbench import (
+    ImageQAEnvironment,
+    ImageQATaskDataset,
+    LABBenchDatasets,
+)
+
+
+@pytest.mark.asyncio
+async def test_image_qa(tmp_path) -> None:
+    litellm.num_retries = 8  # Mitigate connection-related failures
+    settings = ImageQAEnvironment.make_base_settings()
+    settings.agent = AgentSettings(
+        agent_type="ldp.agent.SimpleAgent",
+        index=IndexSettings(paper_directory=tmp_path),
+        # TODO: add image support for paper_search
+        tool_names={"gather_evidence", "gen_answer", "complete", "reset"},
+        agent_evidence_n=3,  # Bumped up to collect several perspectives
+    )
+    dataset = ImageQATaskDataset(dataset=LABBenchDatasets.TABLE_QA, settings=settings)
+    t_cb = StoreTrajectoriesCallback()
+    m_cb = MeanMetricsCallback(eval_dataset=dataset, track_tool_usage=True)
+    evaluator = Evaluator(
+        config=EvaluatorConfig(
+            batch_size=256,  # Use batch size greater than FigQA size and TableQA size
+            max_rollout_steps=18,  # Match aviary paper's PaperQA setting
+        ),
+        agent=cast(Agent, await settings.make_ldp_agent(settings.agent.agent_type)),
+        dataset=dataset,
+        callbacks=[t_cb, m_cb],
+    )
+    await evaluator.evaluate()
+    print(m_cb.eval_means)
+```
+
+## References
+
+[1] Skarlinski et al.
+[Language agents achieve superhuman synthesis of scientific knowledge](https://arxiv.org/abs/2409.13740).
+ArXiv:2409.13740, 2024.
+
+[2] Laurent et al.
+[LAB-Bench: Measuring Capabilities of Language Models for Biology Research](https://arxiv.org/abs/2407.10362).
+ArXiv:2407.10362, 2024.
@@ -22,14 +22,14 @@ dependencies = [
     "fhaviary>=0.14",  # For MultipleChoiceQuestion
     "fhlmi",
     "ldp>=0.25.2",  # Pin for lmi migration
-    "paper-qa>=5.14.0",  # Pin for lmi migration
+    "paper-qa[pymupdf]>=2025",  # Pin for multimodal
     "pydantic~=2.0",
     "tenacity",
     "typing-extensions; python_version <= '3.12'",  # For TypeVar default
 ]
-description = "LitQA environment implemented with aviary"
+description = "LAB-Bench environments implemented with aviary"
 dynamic = ["version"]
-name = "aviary.litqa"
+name = "aviary.labbench"
 readme = "README.md"
 requires-python = ">=3.11"
 
@@ -38,10 +38,12 @@ datasets = [
     "datasets>=2.15",  # Lower pin for https://github.com/huggingface/datasets/pull/6404
 ]
 dev = [
-    "aviary.litqa[datasets]",
+    "aviary.labbench[datasets,typing]",
+    "pandas",
     "paper-qa>=5.29.1",  # Pin for gen_answer's EmptyDocsError, with fix
     "tantivy>=0.25.0; python_version >= '3.14'",  # For Python 3.14 support
 ]
+typing = ["pillow"]
 
 [tool.ruff]
 extend = "../../pyproject.toml"
@@ -51,4 +53,4 @@ where = ["src"]
 
 [tool.setuptools_scm]
 root = "../.."
-version_file = "src/aviary/envs/litqa/version.py"
+version_file = "src/aviary/envs/labbench/version.py"
@@ -1,27 +1,31 @@
 from .env import (
     DEFAULT_REWARD_MAPPING,
     GradablePaperQAEnvironment,
+    ImageQAEnvironment,
     make_discounted_returns,
 )
 from .task import (
     DEFAULT_AVIARY_PAPER_HF_HUB_NAME,
     DEFAULT_LABBENCH_HF_HUB_NAME,
-    TASK_DATASET_NAME,
-    LitQATaskDataset,
-    LitQAv2TaskDataset,
-    LitQAv2TaskSplit,
-    read_litqa_v2_from_hub,
+    ImageQATaskDataset,
+    LABBenchDatasets,
+    PaperQATaskDataset,
+    TextQATaskDataset,
+    TextQATaskSplit,
+    read_ds_from_hub,
 )
 
 __all__ = [
     "DEFAULT_AVIARY_PAPER_HF_HUB_NAME",
     "DEFAULT_LABBENCH_HF_HUB_NAME",
     "DEFAULT_REWARD_MAPPING",
-    "TASK_DATASET_NAME",
     "GradablePaperQAEnvironment",
-    "LitQATaskDataset",
-    "LitQAv2TaskDataset",
-    "LitQAv2TaskSplit",
+    "ImageQAEnvironment",
+    "ImageQATaskDataset",
+    "LABBenchDatasets",
+    "PaperQATaskDataset",
+    "TextQATaskDataset",
+    "TextQATaskSplit",
     "make_discounted_returns",
-    "read_litqa_v2_from_hub",
+    "read_ds_from_hub",
 ]