Timus - Autonomous Multi-Agent Desktop AI

Timus ist ein autonomes Multi-Agent-System fuer Desktop-Automatisierung, Web-Recherche, Code-Generierung und kreative Aufgaben. Es kombiniert 7 spezialisierte KI-Agenten mit 50+ Tools ueber einen zentralen MCP-Server.

Branding:

Primary Logo: assets/branding/timus-logo-primary.svg
Icon: assets/branding/timus-icon.svg
Glow Logo (PNG): assets/branding/timus-logo-glow.png

Lizenz und Markenhinweis

Lizenz: Apache License 2.0 (LICENSE)
Copyright: Fatih Altiok und Contributors
Hinweis: Der Name "Timus" und zugehoerige Branding-Elemente (z. B. Logo) sind nicht durch die Apache-2.0-Lizenz freigegeben.

Aktueller Stand (2026-02-19)

Florence-2 Vision Integration (Phase 1–7) abgeschlossen:

Florence-2 (microsoft/Florence-2-large-ft, ~3GB VRAM) als primäres Vision-Modell integriert
VisionClient im VisualNemotronAgent v4: Florence-2 (PRIMARY) → GPT-4 Vision → Qwen-VL
Neues MCP-Tool florence2_tool mit 6 async Funktionen inkl. florence2_hybrid_analysis (Florence-2 + PaddleOCR)
Hybrid-Pipeline aktiv: Florence-2 für UI-Detection, PaddleOCR für Texte inkl. Confidence und ocr_backend-Status
PaddleOCR Runtime-Härtung für CPU-Setups (device=cpu, enable_hpi=false, enable_mkldnn=false) mit API-Fallbacks
NemotronClient mit LLM-Fallback (LOCAL_LLM via LOCAL_LLM_URL)
Feature-Flag FLORENCE2_ENABLED=true/false in .env
Pre-existing Bug in utils/skill_types.py behoben (falsche @property-Dekoration)
Vollständige Test-Suite: 184 bestanden, 3 übersprungen

Abschlussdoku: docs/ABSCHLUSSBERICHT_Florence2_Integration_2026-02-19.md

Memory-Stabilisierung (Meilenstein 6, 2026-02-17):

Deterministisches Interaction-Logging zentral in run_agent(...)
Working-Memory-Layer mit Budget + Prompt-Injektion
Dynamische Relevanz/Decay-Logik fuer Kurzzeit- und Langzeitkontext
Runtime-Telemetrie pro Agent-Run in Event-Metadaten
Quality-Gates + E2E-Readiness Tests
Unified Recall-Pipeline: episodische interaction_events + semantisches Langzeit-Memory
Session-Kontinuitaet im Dispatcher (eine Chat-Session statt neuer Session-ID pro Turn)

Wichtige Doku-Dateien:

docs/MEMORY_ARCHITECTURE.md
docs/MILESTONE6_RUNBOOK.md
docs/RELEASE_NOTES_MILESTONE6.md
docs/SESSION_LOG_2026-02-17_MILESTONES_0_TO_6.md

Schnelle Verifikation:

pytest -q tests/
pytest -q tests/test_florence2_hybrid_paddleocr.py
python tools/florence2_tool/setup_florence2.py  # Florence-2 Diagnose

CI-Gates (GitHub Actions):

Workflow: .github/workflows/ci.yml
Abgesicherte Gates:
- Gate 1: Syntax-Compile (python -m py_compile auf Kernmodulen)
- Gate 2: Regression-Tests (tests/test_milestone5_quality_gates.py + tests/test_milestone6_e2e_readiness.py)
- Gate 3: Readiness-Check (python verify_milestone6.py)
CI-Dependencies: requirements-ci.txt

Architektur

Benutzer-Input
      |
      v
main_dispatcher.py
  ├─ Query-Sanitizing
  ├─ Intent-Analyse (Keyword + LLM)
  ├─ Policy-Gate (check_query_policy)
  └─ Lane-/Session-Orchestrierung (lane_manager)
      |
      v
Agent-Auswahl (AGENT_CLASS_MAP)
  executor | research | reasoning | creative
  development | meta | visual | vision_qwen | visual_nemotron
      |
      v
agent/base_agent.py
  ├─ Working-Memory-Injektion
  ├─ Recall-Fast-Path (session-aware)
  ├─ Tool-Loop-Guard + Runtime-Telemetrie
  └─ Remote-Tool-Registry-Sync (/get_tool_schemas/openai)
      |
      v
MCP-Server :5000 (FastAPI + JSON-RPC)
  ├─ tool_registry_v2 / Schemas
  ├─ Tool-Validierung (serverseitig)
  └─ Tools: Browser, Vision, OCR, Mouse, Search, File, Memory, Voice, ...
      |
      +--> florence2_hybrid_analysis (VisualNemotron v4 Vision-Pfad)
      |     ├─ Florence-2: <CAPTION> + <OD> (UI-Elemente + BBoxes)
      |     ├─ PaddleOCR (CPU): Text + BBoxes + Confidence
      |     ├─ Merge: summary_prompt + ocr_backend status
      |     └─ Nemotron Decision -> PyAutoGUI/MCP Action-Ausführung
      |
      +--> Externe Systeme: Desktop (PyAutoGUI), Browser (Playwright), APIs
      |
      +--> memory/memory_system.py (kanonischer Memory-Kern)
            ├─ interaction_events (deterministisches Logging)
            ├─ unified_recall (episodisch + semantisch)
            ├─ working_memory_context (Budget + Decay + Relevanz)
            └─ runtime memory snapshots

flowchart TD
    U["User Input"] --> D["main_dispatcher.py"]
    D --> DS["query sanitize"]
    D --> DI["intent analysis"]
    D --> DP["policy gate"]
    D --> DL["lane and session"]
    DL --> A["agent selection"]

    A --> B["agent/base_agent.py"]
    B --> BW["working memory inject"]
    B --> BR["recall fast path"]
    B --> BT["loop guard and telemetry"]
    B --> BRG["remote registry sync"]

    B --> M["MCP server 5000 json-rpc"]
    M --> TR["tool_registry_v2 and validation"]
    M --> T["tool modules"]
    T --> FH["florence2_hybrid_analysis"]
    FH --> FC["Florence-2 CAPTION + OD"]
    FH --> PO["PaddleOCR CPU text+bbox+conf"]
    FC --> FM["merge summary_prompt + ocr_backend"]
    PO --> FM
    FM --> ND["Nemotron decision"]
    ND --> PA["PyAutoGUI and MCP actions"]
    T --> E["desktop browser apis"]
    T --> MM["memory/memory_system.py"]
    MM --> IE["interaction events"]
    MM --> UR["unified recall"]
    MM --> WM["working memory context"]

Agenten

ExecutorAgent

Modell: gpt-5-mini (OpenAI)
Aufgabe: Schnelle einfache Tasks - Dateien lesen/schreiben, Websuche, Zusammenfassungen, einfache Fragen
Max Iterationen: 30

DeepResearchAgent

Modell: deepseek-reasoner (DeepSeek)
Aufgabe: Tiefenrecherche mit These-Antithese-Synthese Framework, Source Quality Rating, akademische Quellenanalyse
Max Iterationen: 8

ReasoningAgent

Modell: nvidia/nemotron-3-nano-30b-a3b (OpenRouter)
Aufgabe: Komplexe Multi-Step-Analyse, Debugging, Architektur-Entscheidungen, Root-Cause-Analyse, Pro/Contra-Abwaegungen
Besonderheit: enable_thinking-Steuerung fuer Nemotron Reasoning

CreativeAgent

Modell: gpt-5.2 (OpenAI)
Aufgabe: Bildgenerierung (DALL-E), kreative Texte, Gedichte, Songs
Besonderheit: Hybrid-Workflow - GPT-5.1 generiert detaillierten Prompt, Nemotron strukturiert den Tool-Call

DeveloperAgent / DeveloperAgentV2

Modell: mercury-coder-small (Inception Labs)
Aufgabe: Code-Generierung, Refactoring, Skripte, Datei-Operationen
V2-Features: Context-Files Support, Code-Validierung (AST, Style, Security), Multi-Tool Support, Fehler-Recovery

MetaAgent

Modell: claude-sonnet-4-5 (Anthropic)
Aufgabe: Workflow-Planung, mehrstufige Aufgaben koordinieren, Agent-Orchestrierung
Besonderheit: Skill-System mit automatischer Skill-Auswahl und Progressive Disclosure

VisualAgent

Modell: claude-sonnet-4-5 (Anthropic)
Aufgabe: Desktop-/Browser-Automatisierung mit Screenshot-Analyse
3-Stufen-Praezision:
1. SoM (Set-of-Mark) - Grob-Lokalisierung (+-50px)
2. Mouse Feedback Tool - Fein-Lokalisierung (+-5px)
3. Cursor-Typ als Echtzeit-Feedback (ibeam = Textfeld, hand = klickbar)
Features: ROI-Management, Loop-Recovery, Screen-Change-Gate, Strukturierte Navigation

VisualNemotronAgent v4 (Desktop Edition)

Modell: Nemotron + Florence-2 (PRIMARY) / GPT-4 Vision / Qwen2-VL
Aufgabe: Komplexe mehrstufige Desktop-Automatisierung
Tech: PyAutoGUI + SoM fuer echte Maus-Klicks auf dem ganzen Desktop
Vision-Kaskade: Florence-2 lokal (3GB VRAM) → GPT-4 Vision API → Qwen-VL lokal
LLM-Fallback: Nemotron (OpenRouter) → LOCAL_LLM (konfigurierbar via LOCAL_LLM_URL)

Agent-zu-Agent Delegation

Agenten koennen zur Laufzeit andere Agenten um Hilfe bitten — als normalen MCP-Tool-Call ueber delegate_to_agent. Ein MetaAgent kann z.B. den ResearchAgent fuer Recherche und den DeveloperAgent fuer Code-Generierung delegieren.

Beispiel: "Recherchiere KI-Sicherheit und erstelle einen Plan"

1. Dispatcher         -> MetaAgent
2. MetaAgent          -> delegate_to_agent(research, "Recherchiere KI-Sicherheit")
3.   Registry         -> Lazy-erstellt DeepResearchAgent (holt tools_description)
4.   DeepResearchAgent-> Ergebnis zurueck an MetaAgent
5. MetaAgent          -> nutzt Ergebnis fuer Plan -> Final Answer

Features:

Lazy-Instantiierung: Agenten werden erst bei erster Delegation erstellt (Factory-Pattern)
Loop-Prevention: Delegation-Stack verhindert zirkulaere Aufrufe (A->B->A)
Max Tiefe: Maximal 3 verschachtelte Delegationen
Capability-Suche: find_agent_by_capability("vision") findet den VisualAgent

Tools (50+ Module)

Vision und UI-Automation

Tool	Funktionen
ocr_tool	GPU-beschleunigte OCR mit PaddleOCR (`read_text_from_screen`)
som_tool	Set-of-Mark UI-Element-Erkennung (`describe_screen_elements`, `scan_ui_elements`)
visual_grounding_tool	Text-Extraktion vom Bildschirm (`get_all_screen_text`, `list_monitors`)
visual_segmentation_tool	Screenshot-Erfassung (`get_screenshot`)
visual_click_tool	Praezises Klicken auf UI-Elemente
mouse_tool	Maus-Steuerung (`click_at`, `move_mouse`, `type_text`, `scroll`)
mouse_feedback_tool	Cursor-Typ-Feedback fuer Fein-Lokalisierung (`get_mouse_position`)
screen_change_detector	Optimierung: nur bei Bildschirm-Aenderungen analysieren
hybrid_detection_tool	Kombiniert DOM + Vision fuer beste Trefferquote
screen_contract_tool	Screenshot-Optimierung und Komprimierung
annotator_tool	Screenshot-Beschriftung mit GPT-5.2
icon_recognition_tool	Icon-Erkennung auf dem Desktop
verified_vision_tool	Verifizierte Vision-Ausgaben
cookie_banner_tool	Cookie-Banner Erkennung und Behandlung

Browser und Navigation

Tool	Funktionen
browser_tool	`open_url`, `click_by_text`, `click_by_selector`, `get_text`, `list_links`, `type_text`, `get_page_content`, `dismiss_overlays`, `browser_session_status`, `browser_save_session`, `browser_close_session`, `browser_cleanup_expired`
browser_controller	DOM-First Browser-Control mit State-Tracking und Session-ID Propagation
smart_navigation_tool	Webseiten-Analyse (`analyze_current_page`)
visual_browser_tool	Vision-basierte Browser-Steuerung
application_launcher	Desktop-Apps starten (`list_applications`, `open_application`)

Recherche und Information

Tool	Funktionen
search_tool	Web-Suche via DataForSEO (Google, Bing, DuckDuckGo, Yahoo)
deep_research	v5.0 - These-Antithese-Synthese, Source Quality Rating, Multi-Runden-Recherche
document_parser	Dokumenten-Analyse und Parsing
summarizer	Text-Zusammenfassung
fact_corroborator	Fakten-Verifizierung mit Cross-Checks
verification_tool	Aktions-Verifizierung (`capture_screen_before_action`, `verify_action_result`, `check_for_errors`)

Entwicklung

Tool	Funktionen
developer_tool	Code-Generierung via Inception Labs mercury-coder (`implement_feature`)
inception_tool	Health-Check fuer Inception-Service
file_system_tool	Datei-Operationen (`list_directory`, `write_file`, `read_file`, `list_agent_files`)
text_finder_tool	Text-Suche in Dateien

Kreativ

Tool	Funktionen
creative_tool	Bildgenerierung mit DALL-E 3 (`generate_image`)
voice_tool	Text-to-Speech Synthese (`voice_list_voices`)

System und Administration

Tool	Funktionen
system_monitor_tool	System-Auslastung (CPU, RAM, Festplatte)
maintenance_tool	Cleanup und Wartung
debug_tool	Debugging-Utilities
timing_tool	Performance-Messung

Memory und Wissen

Tool	Funktionen
memory_tool	`remember`, `recall`, `get_memory_context`, `get_known_facts`, `get_memory_stats`, `find_related_memories`, `sync_memory_to_markdown`
reflection_tool	Selbst-Reflexion des Agenten
reflection_engine	Automatisierte Post-Task Analyse mit Pattern-Erkennung und Learning-Speicherung
curator_tool	Kuratierung von Inhalten

Planung und Koordination

Tool	Funktionen
delegation_tool	Agent-zu-Agent Delegation (`delegate_to_agent`, `find_agent_by_capability`)
planner	Task-Planung (`add_task`, `list_available_skills`)
skill_manager_tool	Skill-Verwaltung (`list_skills`, `learn_new_skill`, `register_new_tool_in_server`, `create_tool_from_pattern`)
skill_recorder	Skill-Aufzeichnung (`get_recording_status`, `list_recordings`)
report_generator	Report-Generierung
save_results	Ergebnis-Speicherung
decision_verifier	Entscheidungs-Verifizierung

Vision Language Models

Tool	Funktionen
florence2_tool	Florence-2 Integration (lokal auf GPU) — `florence2_health`, `florence2_full_analysis`, `florence2_hybrid_analysis`, `florence2_detect_ui`, `florence2_ocr`, `florence2_analyze_region`
qwen_vl_tool	Qwen2-VL Integration (lokal auf GPU, Fallback)

Memory-System v2.0

Drei-Ebenen-Architektur mit Hybrid-Suche, automatisierter Reflexion und bidirektionalem Sync:

Memory System v2.0
|
+-- SessionMemory (Kurzzeit)
|   +-- Letzte N Nachrichten (max 20)
|   +-- Aktuelle Entitaeten (Pronomen-Aufloesung)
|   +-- Current Topic
|
+-- PersistentMemory (Langzeit - SQLite + ChromaDB + Markdown)
|   +-- Fakten mit Vertrauenswert und Quelle
|   +-- Konversations-Zusammenfassungen
|   +-- Benutzer-Profile und Praeferenzen
|   +-- Erkannte Muster und Entscheidungen
|
+-- SemanticMemoryStore (ChromaDB Vektor-Store)
|   +-- Embedding-basierte semantische Suche
|   +-- Hybrid-Suche: ChromaDB (Vektoren) + FTS5 (Keywords)
|   +-- Kategorie-Filter und Relevanz-Ranking
|
+-- MarkdownStore (Bidirektionaler Sync)
|   +-- USER.md - Benutzer-Profil (manuell editierbar)
|   +-- SOUL.md - Behavior Hooks und Persoenlichkeit
|   +-- MEMORY.md - Langzeit-Erinnerungen
|   +-- daily/ - Taegliche Logs
|
+-- ReflectionEngine (Post-Task Analyse)
    +-- Automatische Reflexion nach jeder Aufgabe
    +-- Pattern-Erkennung (was funktioniert, was nicht)
    +-- Speichert Learnings als patterns/decisions/improvements

Features:

Automatische Fakten-Extraktion aus Konversationen
Semantische Hybrid-Suche (ChromaDB Embeddings + FTS5 Keyword-Suche)
Entity Resolution (er/sie/es -> konkrete Entitaet)
Self-Model: Lernt Benutzer-Muster ueber Zeit
Post-Task Reflexion mit automatischer Learning-Speicherung
Bidirektionaler Sync: SQLite <-> Markdown <-> ChromaDB
Manuell editierbare Markdown-Dateien mit automatischer Rueck-Synchronisation

Browser-Isolation

Session-isolierte Browser-Kontexte mit persistentem State:

PersistentContextManager
├── Session-Pool (max 5 parallele Kontexte)
├── LRU Eviction bei Limit ("default" geschuetzt)
├── Cookie/LocalStorage Persistenz via storage_state
├── Session-Timeout Cleanup (60 min)
└── Retry-Handler
    ├── Exponential Backoff (2s, 5s, 10s)
    └── CAPTCHA/Cloudflare-Erkennung

# Session-isoliert browsen
result = await open_url("https://example.com", session_id="user_123")
await browser_save_session("user_123")       # State speichern
await browser_close_session("user_123")      # Session schliessen

# Konfiguration via ENV
BROWSER_MAX_CONTEXTS=5
BROWSER_SESSION_TIMEOUT=60
BROWSER_MAX_RETRIES=3
BROWSER_RETRY_DELAYS=2,5,10

Proaktiver Scheduler

Der Heartbeat-Scheduler fuehrt in konfigurierbaren Intervallen autonome Aktionen aus:

Aktion	Intervall	Beschreibung
Task-Check	Jedes Heartbeat (15 min)	Prueft `tasks.json` auf pending/in_progress
Self-Model Refresh	Alle 60 min	Aktualisiert Self-Model via LLM
Memory Sync	Alle 4 Heartbeats	SQLite -> Markdown Sync

# Konfiguration via ENV
HEARTBEAT_ENABLED=true
HEARTBEAT_INTERVAL_MINUTES=15
HEARTBEAT_SELF_MODEL_REFRESH_INTERVAL=60
REFLECTION_ENABLED=true

Skill-System

Timus verfuegt ueber ein duales Skill-System:

1. YAML-Skills (Agent-Workflows)

Skills werden in YAML+Markdown definiert und vom MetaAgent automatisch eingesetzt:

---
name: skill-name
description: Wann dieser Skill verwendet wird
tags: [automation, web]
---
# Anweisungen
Schritt-fuer-Schritt Anleitungen fuer den Agenten

2. Python-Skills (Tool-Generierung)

Automatisch generierte Python-Tools ueber create_tool_from_pattern:

Quality-Gate: Duplikat-Check -> Code-Generierung -> AST-Validierung -> Auto-Registrierung
Safeguards: Pattern muss 3x auftreten, 1h Cooldown, Confidence >= 0.7
UI-Pattern Templates: 8 vorgefertigte Templates (calendar_picker, modal_handler, form_filler, infinite_scroll, login_handler, cookie_banner, dropdown_selector, table_extraction)

Vorhandene Skills:

image_loader_skill - Bild-Laden mit Groessen-Anpassung
terminal_control_skill - Shell-Befehle mit Safety-Checks
skill-creator - Meta-Skill zum Erstellen neuer Skills

Skills werden vom MetaAgent automatisch erkannt und bei passenden Tasks eingesetzt.

Unterstuetzte LLM-Provider

Provider	Modelle	Verwendung
OpenAI	gpt-5, gpt-5.2, gpt-5-mini, gpt-4o	Executor, Creative
Anthropic	claude-sonnet-4-5, claude-opus-4-6	Meta, Visual
DeepSeek	deepseek-reasoner	Deep Research
Inception Labs	mercury-coder-small	Developer
NVIDIA / OpenRouter	nemotron-3-nano-30b-a3b	Reasoning
Google	Gemini	Placeholder

Jeder Agent kann ueber Environment-Variablen auf ein anderes Modell/Provider umkonfiguriert werden.

Externe Services

Service	Zweck
DataForSEO	Web-Suche (Google, Bing, DuckDuckGo, Yahoo)
DALL-E 3	Bildgenerierung
ChromaDB	Vector-Datenbank fuer Memory
Playwright	Browser-Automation
PyAutoGUI	Desktop-Steuerung (Maus/Tastatur)
PaddleOCR	GPU-beschleunigte Texterkennung
Florence-2	Primäres lokales Vision-Modell (UI-Detection + OCR, ~3GB VRAM)
Qwen2-VL	Lokales Vision-Language-Modell (Fallback)

Installation

Voraussetzungen

Python 3.11+
NVIDIA GPU mit CUDA (empfohlen fuer OCR, Vision Models)
16GB+ RAM

Setup

git clone https://github.com/fatihaltiok/Agentus-Timus.git
cd Agentus-Timus
pip install -r requirements.txt

# .env erstellen (siehe .env.example)
cp .env.example .env
# API Keys eintragen

Environment-Variablen

# LLM Provider Keys
OPENAI_API_KEY=sk-...
ANTHROPIC_API_KEY=sk-ant-...
INCEPTION_API_KEY=...
DEEPSEEK_API_KEY=...
OPENROUTER_API_KEY=...

# Services
DATAFORSEO_USER=...
DATAFORSEO_PASS=...

# Konfiguration
VISION_MODEL=claude-sonnet-4-5-20250929
ACTIVE_MONITOR=1
USE_MOUSE_FEEDBACK=1
USE_SCREEN_CHANGE_GATE=false
AUTO_OPEN_FILES=true
TIMUS_LIVE_STATUS=true

# Florence-2 Vision (VisualNemotronAgent v4)
FLORENCE2_ENABLED=true
FLORENCE2_MODEL=microsoft/Florence-2-large-ft
LOCAL_LLM_URL=                 # optional: lokaler LLM-Fallback fuer Nemotron
LOCAL_LLM_MODEL=               # z.B. Qwen/Qwen2.5-7B-Instruct
HF_TOKEN=hf_...                # fuer HuggingFace Modell-Download

TIMUS_LIVE_STATUS=true zeigt eine aktive Laufzeitanzeige im Terminal:

Welcher Agent gerade aktiv ist
In welcher Phase der Agent ist (thinking, tool_active, final, ...)
Welches Tool gerade laeuft

Starten

# Alles in 3 separaten Terminals (MCP + Dispatcher + Hybrid)
./start_timus_three_terminals.sh

# 1. MCP-Server starten
python server/mcp_server.py

# 2. Dispatcher starten
python main_dispatcher.py

# Optional: Hybrid Voice/Text separat
python timus_hybrid_v2.py

Hinweis zum Startskript:

start_timus_three_terminals.sh aktiviert standardmäßig automatisch die Conda-Umgebung timus.
Falls der Env-Name anders ist: TIMUS_CONDA_ENV=<name> ./start_timus_three_terminals.sh
Falls du einen eigenen Aktivierungsbefehl brauchst: TIMUS_ACTIVATE_CMD='source .../conda.sh && conda activate <name>' ./start_timus_three_terminals.sh

Verwendung

Nach dem Start des Dispatchers koennen Aufgaben in natuerlicher Sprache eingegeben werden:

Du> Wie spat ist es?                          -> ExecutorAgent
Du> Recherchiere KI-Sicherheit                -> DeepResearchAgent
Du> asyncio vs threading fuer 100 API-Calls?  -> ReasoningAgent
Du> Male ein Bild von einem Hund im Park      -> CreativeAgent
Du> Schreibe ein Python-Skript fuer...        -> DeveloperAgent
Du> Erstelle einen Plan fuer...               -> MetaAgent
Du> Oeffne Firefox und gehe zu google.com     -> VisualAgent

Der Dispatcher erkennt automatisch den Intent und waehlt den passenden Agenten.

Session-Hinweise:

new session oder /new startet eine neue Chat-Session-ID.
Ohne Reset bleibt der episodische Kontext ueber mehrere Turns erhalten.

Beispiel fuer Live-Status-Ausgabe:

⏱️ Status [21:22:05] | Agent EXECUTOR | THINKING | Step 2/30
⏱️ Status [21:22:06] | Agent EXECUTOR | TOOL_ACTIVE | Tool search_web | {'query': 'beste grafikkarten 2026'}
⏱️ Status [21:22:08] | Agent EXECUTOR | TOOL_DONE | Tool search_web | ok

Projektstruktur

timus/
├── agent/
│   ├── shared/              # Shared Utilities (MCP Client, Screenshot, Parser)
│   ├── agents/              # 7 spezialisierte Agenten
│   ├── agent_registry.py    # Agent-Registry mit Factory-Pattern + Delegation
│   ├── base_agent.py        # BaseAgent mit Multi-Provider Support
│   ├── providers.py         # LLM Provider-Infrastruktur
│   ├── prompts.py           # System Prompts
│   ├── visual_agent.py      # Standalone Visual Agent v2.1
│   ├── developer_agent_v2.py
│   ├── visual_nemotron_agent_v4.py
│   └── timus_consolidated.py  # Re-Export Shim
├── tools/                   # 50+ Tool-Module
│   ├── ocr_tool/
│   ├── som_tool/
│   ├── browser_tool/        # Browser mit Session-Isolation + Retry
│   │   ├── persistent_context.py  # PersistentContextManager
│   │   └── retry_handler.py       # Exponential Backoff + CAPTCHA
│   ├── mouse_tool/
│   ├── search_tool/
│   ├── creative_tool/
│   ├── developer_tool/
│   ├── delegation_tool/     # Agent-zu-Agent Delegation (MCP-Tool)
│   ├── florence2_tool/      # Florence-2 Vision (UI-Detection + OCR, Primary)
│   ├── memory_tool/
│   └── ...
├── orchestration/
│   ├── scheduler.py         # Proaktiver Heartbeat-Scheduler
│   └── lane_manager.py      # Lane-basierte Task-Verwaltung
├── server/
│   └── mcp_server.py        # MCP Server (FastAPI, Port 5000)
├── skills/                  # Erlernbare Skills
│   └── templates/           # UI-Pattern Templates (8 Patterns)
├── memory/
│   ├── memory_system.py     # Memory v2.0 (Hybrid-Suche, Sync)
│   ├── reflection_engine.py # Post-Task Reflexion
│   └── markdown_store/      # USER.md, SOUL.md, MEMORY.md
├── tests/
│   ├── test_milestone5_quality_gates.py
│   ├── test_milestone6_e2e_readiness.py
│   └── ...                  # Weitere Test-Suites
├── verify_milestone6.py     # Go/No-Go Schnellcheck fuer Milestone 6
├── utils/                   # Hilfsfunktionen
├── config/                  # Personality-System
├── main_dispatcher.py       # Zentral-Dispatcher
└── docs/                    # Dokumentation + Runbooks
    ├── MEMORY_ARCHITECTURE.md
    ├── MILESTONE6_RUNBOOK.md
    ├── RELEASE_NOTES_MILESTONE6.md
    ├── SESSION_LOG_2026-02-17_MILESTONES_0_TO_6.md
    └── ABSCHLUSSBERICHT_Florence2_Integration_2026-02-19.md

Lizenz

Timus - Autonomous Multi-Agent Desktop AI

Name		Name	Last commit message	Last commit date
Latest commit History 127 Commits
.github/workflows		.github/workflows
agent		agent
archive/agent		archive/agent
assets/branding		assets/branding
config		config
docs		docs
icons		icons
memory		memory
orchestration		orchestration
server		server
skills		skills
test_project		test_project
tests		tests
tools		tools
utils		utils
...		...
.env.example		.env.example
.gitignore		.gitignore
CLAUDE_SESSION_LOG_2026-02-01.md		CLAUDE_SESSION_LOG_2026-02-01.md
CONTEXT_OVERFLOW_FIX.md		CONTEXT_OVERFLOW_FIX.md
D435_MOONDREAM3_SETUP.md		D435_MOONDREAM3_SETUP.md
DEEP_RESEARCH_V5.1_IMPLEMENTATION_PLAN.md		DEEP_RESEARCH_V5.1_IMPLEMENTATION_PLAN.md
DEEP_RESEARCH_V5_UPGRADE.md		DEEP_RESEARCH_V5_UPGRADE.md
DEVELOPER_AGENT_REVIEW.md		DEVELOPER_AGENT_REVIEW.md
DEVELOPER_AGENT_TEST_RESULTS.md		DEVELOPER_AGENT_TEST_RESULTS.md
DEVELOPER_AGENT_V2_CONTEXT_FILES_UPDATE.md		DEVELOPER_AGENT_V2_CONTEXT_FILES_UPDATE.md
DEVELOPER_AGENT_V2_IMPROVEMENTS.md		DEVELOPER_AGENT_V2_IMPROVEMENTS.md
DEVELOPER_AGENT_V2_REAL_PROJECT_TEST.md		DEVELOPER_AGENT_V2_REAL_PROJECT_TEST.md
DEVELOPMENT_HISTORY_VISION_STABILITY.md		DEVELOPMENT_HISTORY_VISION_STABILITY.md
DOM_FIRST_IMPLEMENTATION_REPORT.md		DOM_FIRST_IMPLEMENTATION_REPORT.md
DOM_FIRST_SUCCESS_REPORT.md		DOM_FIRST_SUCCESS_REPORT.md
IMPLEMENTATION_PLAN.md		IMPLEMENTATION_PLAN.md
LICENSE		LICENSE
LIST_AGENT_FILES_FIX.md		LIST_AGENT_FILES_FIX.md
LOOP_DETECTION_FIX.md		LOOP_DETECTION_FIX.md
META_AGENT_IMPROVEMENTS.md		META_AGENT_IMPROVEMENTS.md
MOONDREAM_NEMOTRON_SETUP.md		MOONDREAM_NEMOTRON_SETUP.md
NOTICE		NOTICE
OCR_MULTI_BACKEND.md		OCR_MULTI_BACKEND.md
PIPELINE_TEST_RESULTS.md		PIPELINE_TEST_RESULTS.md
PROGRESS_REPORT_2026-02-08.md		PROGRESS_REPORT_2026-02-08.md
QWEN_VL_SETUP.md		QWEN_VL_SETUP.md
README.md		README.md
ROBUSTNESS_IMPROVEMENTS.md		ROBUSTNESS_IMPROVEMENTS.md
SCREEN_CHANGE_GATE_INTEGRATION.md		SCREEN_CHANGE_GATE_INTEGRATION.md
SESSION_LOG_2026-02-08.md		SESSION_LOG_2026-02-08.md
SKILL_SYSTEM_COMPLETE.md		SKILL_SYSTEM_COMPLETE.md
TIMUS_INVENTORY.md		TIMUS_INVENTORY.md
TYPING_METHODS_FIX.md		TYPING_METHODS_FIX.md
Timus Ordnerstruktur - Claude.html		Timus Ordnerstruktur - Claude.html
UI_NAVIGATION_SOLUTION.md		UI_NAVIGATION_SOLUTION.md
VISION_STABILITY_QUICKSTART.md		VISION_STABILITY_QUICKSTART.md
VISUAL_AGENT_CLICK_FIX.md		VISUAL_AGENT_CLICK_FIX.md
VISUAL_AGENT_DEBUGGING_FIX.md		VISUAL_AGENT_DEBUGGING_FIX.md
VISUAL_AGENT_FIXES.md		VISUAL_AGENT_FIXES.md
VISUAL_AGENT_HALLUCINATION_FIX.md		VISUAL_AGENT_HALLUCINATION_FIX.md
VISUAL_BROWSER_IMPROVEMENTS.md		VISUAL_BROWSER_IMPROVEMENTS.md
VISUAL_BROWSER_SOLUTION.md		VISUAL_BROWSER_SOLUTION.md
__init__.py		__init__.py
agent timus.txt		agent timus.txt
analyze_logs.py		analyze_logs.py
browser_tool.py		browser_tool.py
calculator.py		calculator.py
check_keys.py		check_keys.py
conftest.py		conftest.py
debug_import.py		debug_import.py
droid.md		droid.md
emotion_detector.py		emotion_detector.py
engine.py		engine.py
engine_improved.py		engine_improved.py
execute_visual_navigation.py		execute_visual_navigation.py
google-cloud-shell.png		google-cloud-shell.png
hangman.py		hangman.py
image_reader.py		image_reader.py
image_utils.py		image_utils.py
log_reader.py		log_reader.py
main_dispatcher.py		main_dispatcher.py
monitor_config.py		monitor_config.py
moondream_nemotron_pipeline.py		moondream_nemotron_pipeline.py
mouse_click.py		mouse_click.py
new_file.txt		new_file.txt
package.json		package.json
pytest.ini		pytest.ini
request_for_details.txt		request_for_details.txt
requirements-ci.txt		requirements-ci.txt
requirements.txt		requirements.txt
run_autonomous.py		run_autonomous.py
segmentation_engine.py		segmentation_engine.py
setup_instructions.md		setup_instructions.md
setup_qwen_vl.py		setup_qwen_vl.py
skills.txt		skills.txt
skills.yml		skills.yml
start_qwen_server.sh		start_qwen_server.sh
start_timus_three_terminals.sh		start_timus_three_terminals.sh
tasks.json		tasks.json
test_agent_integration.py		test_agent_integration.py
test_apis.py		test_apis.py
test_browser_controller.py		test_browser_controller.py
test_cookie_banner.py		test_cookie_banner.py
test_developer_agent_comparison.py		test_developer_agent_comparison.py

License

fatihaltiok/Agentus-Timus

Folders and files

Latest commit

History

Repository files navigation

Timus - Autonomous Multi-Agent Desktop AI

Lizenz und Markenhinweis

Aktueller Stand (2026-02-19)

Architektur

Agenten

ExecutorAgent

DeepResearchAgent

ReasoningAgent

CreativeAgent

DeveloperAgent / DeveloperAgentV2

MetaAgent

VisualAgent

VisualNemotronAgent v4 (Desktop Edition)

Agent-zu-Agent Delegation

Tools (50+ Module)

Vision und UI-Automation

Browser und Navigation

Recherche und Information

Entwicklung

Kreativ

System und Administration

Memory und Wissen

Planung und Koordination

Vision Language Models

Memory-System v2.0

Browser-Isolation

Proaktiver Scheduler

Skill-System

1. YAML-Skills (Agent-Workflows)

2. Python-Skills (Tool-Generierung)

Unterstuetzte LLM-Provider

Externe Services

Installation

Voraussetzungen

Setup

Environment-Variablen

Starten

Verwendung

Projektstruktur

Lizenz

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages