Nvidia Jetson es una serie de placas de computación embebida de Nvidia. Los modelos Jetson TK1, TX1 y TX2 cuentan con un procesador Tegra (o SoC) de Nvidia que integra una unidad central de procesamiento (CPU) con arquitectura ARM. Jetson es un sistema de bajo consumo diseñado para acelerar aplicaciones de aprendizaje automático. Nvidia Jetson es utilizado por desarrolladores profesionales para crear productos innovadores de IA en diversas industrias, así como por estudiantes y entusiastas para aprender IA de forma práctica y realizar proyectos sorprendentes. SLM se despliega en dispositivos edge como Jetson, lo que permitirá una mejor implementación de escenarios industriales de aplicaciones generativas de IA.
Los desarrolladores que trabajan en robótica autónoma y dispositivos embebidos pueden aprovechar Phi-3 Mini. Su tamaño relativamente pequeño lo hace ideal para despliegues en el edge. Los parámetros han sido ajustados meticulosamente durante el entrenamiento, garantizando una alta precisión en las respuestas.
La librería TensorRT-LLM de NVIDIA optimiza la inferencia de modelos de lenguaje grandes. Soporta la ventana de contexto extendida de Phi-3 Mini, mejorando tanto el rendimiento como la latencia. Las optimizaciones incluyen técnicas como LongRoPE, FP8 y batching en vuelo.
Los desarrolladores pueden explorar Phi-3 Mini con la ventana de contexto de 128K en NVIDIA AI. Está empaquetado como un NVIDIA NIM, un microservicio con una API estándar que puede desplegarse en cualquier lugar. Además, las implementaciones de TensorRT-LLM en GitHub.
a. Jetson Orin NX / Jetson NX
b. JetPack 5.1.2+
c. Cuda 11.8
d. Python 3.8+
Podemos elegir Ollama o LlamaEdge
Si quieres usar gguf en la nube y en dispositivos edge al mismo tiempo, LlamaEdge puede entenderse como WasmEdge (WasmEdge es un runtime WebAssembly ligero, de alto rendimiento y escalable, adecuado para aplicaciones nativas en la nube, edge y descentralizadas. Soporta aplicaciones serverless, funciones embebidas, microservicios, contratos inteligentes y dispositivos IoT). Puedes desplegar el modelo cuantitativo gguf en dispositivos edge y en la nube a través de LlamaEdge.
Aquí están los pasos para usarlo
- Instalar y descargar las librerías y archivos relacionados
curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install.sh | bash -s -- --plugin wasi_nn-ggml
curl -LO https://github.com/LlamaEdge/LlamaEdge/releases/latest/download/llama-api-server.wasm
curl -LO https://github.com/LlamaEdge/chatbot-ui/releases/latest/download/chatbot-ui.tar.gz
tar xzf chatbot-ui.tar.gz
Nota: llama-api-server.wasm y chatbot-ui deben estar en el mismo directorio
- Ejecutar los scripts en la terminal
wasmedge --dir .:. --nn-preload default:GGML:AUTO:{Your gguf path} llama-api-server.wasm -p phi-3-chat
Aquí está el resultado de la ejecución
Código de ejemplo Phi-3 mini WASM Notebook Sample
En resumen, Phi-3 Mini representa un avance significativo en el modelado de lenguaje, combinando eficiencia, conciencia del contexto y la capacidad de optimización de NVIDIA. Ya sea que estés construyendo robots o aplicaciones edge, Phi-3 Mini es una herramienta poderosa a tener en cuenta.
Aviso legal:
Este documento ha sido traducido utilizando el servicio de traducción automática Co-op Translator. Aunque nos esforzamos por la precisión, tenga en cuenta que las traducciones automáticas pueden contener errores o inexactitudes. El documento original en su idioma nativo debe considerarse la fuente autorizada. Para información crítica, se recomienda la traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas derivadas del uso de esta traducción.

