当前的大语言模型(LLM,例如llama2)需要高显存的GPU,才能适应整个模型。llama2 70b也需要至少48GB的GPU RAM。然而,那些高端GPU非常昂贵。Nvidia Jetson AGX Orin虽然相当昂贵,但为个人研究用途提供了最大的性价比。(Mac Studio M2 Ultra也是一个不错的选择)在这篇文章中,我将向您展示设置LLM环境。
为了将Jetson 设备作为独立的计算机,需要将键盘、鼠标和显示器连接它,显示器需用DP转HDMI连接线。
进入系统,打开终端,查看Linux发行版本
lsb_release -a
uname -r
安装JetPack
首次安装JetPack软件包,它包含所有设备驱动程序及开发工具,我们可以使用Ubuntu的内置apt软件包管理器进行安装。
sudo apt update
sudo apt install nvidia-jetpack
安装JetPack后,需要设置环境变量哪里可以找到CUDA工具包。将以下行添加到~/.profile文件的末尾。
PATH="/usr/local/cuda/bin:$PATH"
LD_LIBRARY_PATH="/usr/local/cuda/lib64:$LD_LIBRARY_PATH"
然后重启系统再进入系统
sodo reboot
现在你能看到nvcc已安装好,可以查看其版本
nvcc —vesion
GPU状态
当安装CUDA工具包后,我们如何知道GPU是否工作正常?在大多数Nvidia设备上,只需使用nvidia-smi工具即可检查GPU状态。
然而,nvidia-smi是独立GPU的驱动程序的一部分。Jetson设备将GPU与具有共享RAM的CPU集成在同一板上,因此nvidia-smi在Jetson上不可用。
幸运的是,有一个很棒的GPU监控工具,适用于Tegra设备。这是一个jtop的python程序,让我们通过python包管理器pip安装它。
sudo apt install python3-pip
sudo pip3 install -U jetson-status
然后重启设备
sudo reboot
现在终端运行jtop命令,你可以在终端看到GPU和CPU的状态。
现在,我们已经确认GPU驱动程序和CUDA工具包都在设备上运行良好。下一步是安装WasmEdge,然后在此设备上运行LLM!