Nvidia Jetson — це серія вбудованих обчислювальних плат від Nvidia. Моделі Jetson TK1, TX1 та TX2 оснащені процесором Tegra (або SoC) від Nvidia, який інтегрує центральний процесор (CPU) на базі архітектури ARM. Jetson — це енергоефективна система, розроблена для прискорення застосунків машинного навчання. Nvidia Jetson використовується професійними розробниками для створення проривних AI-продуктів у різних галузях, а також студентами та ентузіастами для практичного вивчення AI та реалізації вражаючих проєктів. SLM розгортається на edge-пристроях, таких як Jetson, що дозволяє краще реалізовувати промислові сценарії застосування генеративного AI.
Розробники, які працюють над автономною робототехнікою та вбудованими пристроями, можуть скористатися Phi-3 Mini. Відносно невеликий розмір Phi-3 робить його ідеальним для edge-розгортання. Параметри були ретельно налаштовані під час тренування, що забезпечує високу точність відповідей.
Бібліотека TensorRT-LLM від NVIDIA оптимізує інференс великих мовних моделей. Вона підтримує довге контекстне вікно Phi-3 Mini, покращуючи як пропускну здатність, так і затримку. Оптимізації включають такі технології, як LongRoPE, FP8 та inflight batching.
Розробники можуть ознайомитися з Phi-3 Mini з контекстним вікном 128K на NVIDIA AI. Він упакований як NVIDIA NIM — мікросервіс зі стандартним API, який можна розгортати будь-де. Також доступні реалізації TensorRT-LLM на GitHub.
a. Jetson Orin NX / Jetson NX
b. JetPack 5.1.2+
c. Cuda 11.8
d. Python 3.8+
Можна обрати Ollama або LlamaEdge
Якщо ви хочете використовувати gguf одночасно в хмарі та на edge-пристроях, LlamaEdge можна розглядати як WasmEdge (WasmEdge — це легковагове, високопродуктивне, масштабоване середовище виконання WebAssembly, яке підходить для cloud native, edge та децентралізованих застосунків. Воно підтримує безсерверні застосунки, вбудовані функції, мікросервіси, смарт-контракти та IoT-пристрої). Ви можете розгорнути кількісну модель gguf на edge-пристроях і в хмарі через LlamaEdge.
Ось кроки для використання
- Встановіть і завантажте необхідні бібліотеки та файли
curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install.sh | bash -s -- --plugin wasi_nn-ggml
curl -LO https://github.com/LlamaEdge/LlamaEdge/releases/latest/download/llama-api-server.wasm
curl -LO https://github.com/LlamaEdge/chatbot-ui/releases/latest/download/chatbot-ui.tar.gz
tar xzf chatbot-ui.tar.gz
Примітка: llama-api-server.wasm та chatbot-ui мають бути в одній директорії
- Запустіть скрипти в терміналі
wasmedge --dir .:. --nn-preload default:GGML:AUTO:{Your gguf path} llama-api-server.wasm -p phi-3-chat
Ось результат запуску
Приклад коду Phi-3 mini WASM Notebook Sample
Підсумовуючи, Phi-3 Mini — це значний крок уперед у моделюванні мови, що поєднує ефективність, розуміння контексту та оптимізації NVIDIA. Незалежно від того, чи створюєте ви роботів або edge-застосунки, Phi-3 Mini — це потужний інструмент, про який варто знати.
Відмова від відповідальності:
Цей документ було перекладено за допомогою сервісу автоматичного перекладу Co-op Translator. Хоча ми прагнемо до точності, будь ласка, майте на увазі, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ рідною мовою слід вважати авторитетним джерелом. Для критично важливої інформації рекомендується звертатися до професійного людського перекладу. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу.

