ContextLab
diff --git a/‎demos/chatbot-evolution/index.html‎
Lines changed: 44 additions & 50 deletions b/‎demos/chatbot-evolution/index.html‎
Lines changed: 44 additions & 50 deletions
@@ -41,7 +41,7 @@ <h1 class="hero-title">Chatbot Evolution Timeline</h1>
                     <span class="era-label">2020<br>BlenderBot</span>
                 </div>
                 <div class="era era-2020s" data-era="2020s">
-                    <span class="era-label">2023<br>LaMini-T5</span>
+                    <span class="era-label">2025<br>Qwen3</span>
                 </div>
             </div>
         </section>
@@ -455,20 +455,20 @@ <h2>2020s: GPT & Transformers</h2>
 
                     <div class="chatbot-info">
                         <div class="info-card">
-                            <h3>About LaMini-T5</h3>
-                            <p><strong>Innovation:</strong> Knowledge distillation from larger LLMs</p>
-                            <p><strong>Method:</strong> T5 encoder-decoder, instruction tuning</p>
-                            <p><strong>Model:</strong> LaMini-Flan-T5-248M (248M parameters)</p>
-                            <p><strong>Inspiration:</strong> GPT-4, Claude, Gemini use similar techniques at scale</p>
+                            <h3>About Qwen3</h3>
+                            <p><strong>Innovation:</strong> Hybrid thinking/non-thinking reasoning</p>
+                            <p><strong>Method:</strong> Decoder-only transformer, GQA attention</p>
+                            <p><strong>Model:</strong> Qwen3-1.7B (1.7B parameters)</p>
+                            <p><strong>Benchmarks:</strong> MMLU 71.2, HumanEval 65.8%</p>
                         </div>
 
                         <div class="info-card">
                             <h3>How It Works</h3>
                             <ul>
-                                <li>T5 encoder-decoder architecture</li>
-                                <li>Distilled from larger instruction-tuned models</li>
-                                <li>Optimized for Q&A and chat</li>
-                                <li>Runs entirely in browser</li>
+                                <li>Decoder-only transformer (GPT-style)</li>
+                                <li>Grouped-Query Attention for efficiency</li>
+                                <li>100+ language support</li>
+                                <li>WebGPU accelerated in browser</li>
                             </ul>
                         </div>
                     </div>
@@ -484,50 +484,41 @@ <h3>How It Works</h3>
                         <div class="chat-interface">
                             <div class="model-loading-status hidden" id="gpt-loading-status">
                                 <div class="loading-spinner"></div>
-                                <div class="loading-text">Loading LaMini-Flan-T5...</div>
+                                <div class="loading-text">Loading Qwen3-1.7B...</div>
                                 <div class="loading-progress" id="gpt-progress">Initializing...</div>
                             </div>
                             <div class="chat-messages" id="gpt-messages"></div>
                             <div class="chat-input-area">
-                                <input type="text" class="chat-input" id="gpt-input" placeholder="Talk to LaMini-T5...">
+                                <input type="text" class="chat-input" id="gpt-input" placeholder="Talk to Qwen3...">
                                 <button class="chat-send" id="gpt-send-btn" onclick="sendMessage('gpt')">Send</button>
                             </div>
-                            <p class="demo-note">Using LaMini-Flan-T5-248M - an instruction-tuned model. Loads on first message (~30s).</p>
+                            <p class="demo-note">Using Qwen3-1.7B (MMLU 71.2). WebGPU accelerated. Loads on first message.</p>
                         </div>
                     </div>
 
                     <!-- Architecture Tab -->
                     <div class="chatbot-tab-content" id="gpt-architecture-tab">
                         <div class="architecture-content">
                             <div class="architecture-diagram">
-                                <h4>Encoder-Decoder Transformer (T5)</h4>
+                                <h4>Decoder-Only Transformer (Qwen3)</h4>
                                 <div class="arch-flow">
                                     <div class="arch-block input-block">
                                         <div class="block-label">Input Prompt</div>
                                         <div class="block-content">"What is AI?"</div>
                                     </div>
                                     <div class="arch-arrow">&#8595;</div>
                                     <div class="arch-block">
-                                        <div class="block-label">Tokenizer + Embeddings</div>
-                                        <div class="block-content">Token IDs + Position Bias</div>
+                                        <div class="block-label">Tokenizer + RoPE Embeddings</div>
+                                        <div class="block-content">Token IDs + Rotary Position</div>
                                     </div>
                                     <div class="arch-arrow">&#8595;</div>
-                                    <div class="arch-block encoder-block">
-                                        <div class="block-label">T5 Encoder</div>
+                                    <div class="arch-block decoder-only-block">
+                                        <div class="block-label">Qwen3 Decoder Stack</div>
                                         <div class="block-content">
-                                            <div class="sub-block">Self-Attention</div>
-                                            <div class="sub-block">Feed Forward</div>
-                                            <div class="block-note">x12 layers</div>
-                                        </div>
-                                    </div>
-                                    <div class="arch-arrow">&#8595;</div>
-                                    <div class="arch-block decoder-block">
-                                        <div class="block-label">T5 Decoder</div>
-                                        <div class="block-content">
-                                            <div class="sub-block">Masked Self-Attention</div>
-                                            <div class="sub-block">Cross-Attention</div>
-                                            <div class="sub-block">Feed Forward</div>
-                                            <div class="block-note">x12 layers</div>
+                                            <div class="sub-block">Grouped-Query Attention</div>
+                                            <div class="sub-block">SwiGLU FFN</div>
+                                            <div class="sub-block">RMSNorm</div>
+                                            <div class="block-note">x28 layers</div>
                                         </div>
                                     </div>
                                     <div class="arch-arrow">&#8595;</div>
@@ -542,37 +533,40 @@ <h4>Encoder-Decoder Transformer (T5)</h4>
                                 <h4>Key Concepts</h4>
                                 <div class="concept-grid">
                                     <div class="concept-card">
-                                        <h5>Encoder-Decoder</h5>
-                                        <p>T5 uses both encoder (understands input) and decoder (generates output). More flexible than decoder-only for certain tasks.</p>
+                                        <h5>Decoder-Only</h5>
+                                        <p>Like GPT, Qwen3 uses only decoder layers. Each token attends to all previous tokens (causal attention).</p>
                                     </div>
                                     <div class="concept-card">
-                                        <h5>Knowledge Distillation</h5>
-                                        <p>LaMini models are trained to mimic larger LLMs, compressing their knowledge into a smaller, faster model.</p>
+                                        <h5>Grouped-Query Attention</h5>
+                                        <p>GQA reduces memory usage by sharing key-value heads across query heads, enabling larger context windows.</p>
                                     </div>
                                     <div class="concept-card">
-                                        <h5>Instruction Tuning</h5>
-                                        <p>Fine-tuned on instruction-following datasets to understand and respond to user queries naturally.</p>
+                                        <h5>Hybrid Reasoning</h5>
+                                        <p>Qwen3 can use "thinking mode" for complex problems or "fast mode" for quick responses.</p>
                                     </div>
                                     <div class="concept-card">
-                                        <h5>Text-to-Text</h5>
-                                        <p>T5 treats all NLP tasks as text-to-text: input text goes in, output text comes out. Simple but powerful.</p>
+                                        <h5>RoPE Positions</h5>
+                                        <p>Rotary Position Embeddings encode position through rotation, enabling better length generalization.</p>
                                     </div>
                                 </div>
                             </div>
 
                             <div class="model-specs">
-                                <h4>LaMini-Flan-T5-248M Specifications</h4>
+                                <h4>Qwen3-1.7B Specifications</h4>
                                 <table class="specs-table">
-                                    <tr><td>Parameters</td><td>248 Million</td></tr>
-                                    <tr><td>Architecture</td><td>Encoder-Decoder Transformer (T5)</td></tr>
-                                    <tr><td>Layers</td><td>12 encoder + 12 decoder</td></tr>
-                                    <tr><td>Hidden Size</td><td>768</td></tr>
-                                    <tr><td>Attention Heads</td><td>12</td></tr>
-                                    <tr><td>Training</td><td>Distilled from larger LLMs on 2.58M instruction samples</td></tr>
-                                    <tr><td>Year</td><td>2023 (MBZUAI)</td></tr>
+                                    <tr><td>Parameters</td><td>1.7 Billion</td></tr>
+                                    <tr><td>Architecture</td><td>Decoder-Only Transformer</td></tr>
+                                    <tr><td>Layers</td><td>28</td></tr>
+                                    <tr><td>Hidden Size</td><td>2048</td></tr>
+                                    <tr><td>Attention Heads</td><td>16 Q / 4 KV (GQA)</td></tr>
+                                    <tr><td>Context Length</td><td>65,536 tokens</td></tr>
+                                    <tr><td>MMLU</td><td>71.2</td></tr>
+                                    <tr><td>HumanEval</td><td>65.8%</td></tr>
+                                    <tr><td>Training</td><td>36T tokens (web, code, math, multilingual)</td></tr>
+                                    <tr><td>Year</td><td>2025 (Alibaba Qwen)</td></tr>
                                 </table>
                                 <div class="model-note">
-                                    <strong>Browser Optimized:</strong> Runs entirely in your browser using Transformers.js. Falls back to DistilGPT2 if primary model fails.
+                                    <strong>WebGPU Accelerated:</strong> Runs in browser with GPU acceleration. Falls back to Qwen3-0.6B on older devices.
                                 </div>
                             </div>
                         </div>
@@ -641,8 +635,8 @@ <h3>Evolution Stats</h3>
                             <span class="stat-value">90M params</span>
                         </div>
                         <div class="stat-item">
-                            <span class="stat-label">LaMini-T5 (2023)</span>
-                            <span class="stat-value">248M params</span>
+                            <span class="stat-label">Qwen3 (2025)</span>
+                            <span class="stat-value">1.7B params</span>
                         </div>
                         <div class="stat-item">
                             <span class="stat-label">Claude 4 Opus (2025)</span>