本地部署AI
虽然说现在访问ChatGPT已经没有以前那么麻烦了,国内也涌现出了很多国产Ai,像什么豆包啊,千问,文心一言之类的,但是都需要联网,国外的类似于Google Gemini,Claude等等,不仅需要联网还需要代理才能够使用,但是很多的AI模型其实都是开源的,我们可以本地部署一个AI,这样就没有这些限制了。
接下来会使用两种方案本地部署一个AI,使用Hugging Face + Transformers或vLLM部署以及使用Ollama + open-webui部署,相比而言,Ollama的部署更加简单一些,Transformers或vLLM可自定义的选项要更多,但是部署相比较麻烦一些。
使用Ollama + open-webui
这里是Ollama官网,提供了macOS、Windows、Linux以及Docker的使用方式。我们这里拿Windows以及Docker做演示。
Windows ollama + open-webui
Ollama安装
首先我们去ollama官网,点击右上角的Download,然后点击Windows图标,然后点击Download for Windows,下载完成以后双击,并且点击Install,然后等待安装完成以后,Win+R然后输入cmd并回车,就会弹出来一个终端,然后打开Ollama的官网,点击左上角的Models,然后找到你想要的模型,比方说这是DeepSeek-r1模型。然后根据自己的情况选择32b还是14b或者别的训练量,一般来说,训练量越大配置要求越高,我这里就选择安装完成以后给我推荐的llama3.2了。
回到终端,输入下面的命令安装,具体安装时间看自身网速。
1 | ollama run llama3.2 |
等待完成以后你就部署了一个本地AI,如果你不想要图形化界面,那就到此为止了,如果你需要的话就接着安装open-webui。
open-webui安装
输入下面的命令
1 | pip install open-webui |
然后运行
1 | open-webui serve |
然后浏览器访问http://localhost:8080就可以了。
Docker ollama + openwebui
Docker ollama安装
首先你需要安装一个Docker,Linux请选Docker Engine,Windows请选Docker Desktop on Windows
然后你需要安装ollama镜像,这里可以选择两种,一种是只有命令行,一种是自带open-webui
命令行
输入下面的命令就可以了
仅CPU
1 | docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama |
如果要启用GPU支持,具体请查看Ollama Docker image
自带open-webui
输入下面的命令
GPU支持
1 | docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama |
仅有CPU
1 | docker run -d -p 3000:8080 -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama |
访问http://localhost:3000 就可以进入open-webui
使用Hugging Face + Transformers或vLLM
Hugging Face官网
Transformers 安装文档
vLLM 文档
Hugging Face + Transformers
首先我们需要下载安装一个Transformers,这里可以使用pip直接安装,或者使用源代码安装,或者直接clone一个仓库下来安装,或者使用conda安装,我这里就选择使用源代码安装了。
输入下面的命令
1 | pip install git+https://github.com/UKPLab/sentence-transformers.git |
然后输入下面的命令
1 | python -c "from transformers import pipeline; print(pipeline('sentiment-analysis')('hugging face is the best'))" |
然后会弹出下面的错误,我不知道是不是因为我的显卡是A卡的原因,还是因为我没有安装TensorFlow或者PyTorch,所以我觉得安装一个TensorFlow。
1 | RuntimeError: At least one of TensorFlow 2.0 or PyTorch should be installed. To install TensorFlow 2.0, read the instructions at https://www.tensorflow.org/install/ To install PyTorch, read the instructions at https://pytorch.org/. |
TensorFlow
输入下面的命令升级pip
1 | pip install --upgrade pip |
安装tensorflow
1 | pip install tensorflow |
然后弹出了这个错误
1 | ERROR: Could not find a version that satisfies the requirement tensorflow (from versions: none) |
然后在pip安装里的系统要求里看到只支持Python 3.6–3.9,输入下面的命令查看现在的Python版本。
1 | python --version |
我的python是3.13.1,所以现在去Python下载换一个Python9的版本,我这里就下载Python3.9.22了。然后添加一下环境变量,再次输入pip install tensorflow后还是一样的错误,我百思不得其解。
Pytorch
于是我换成了Pytorch,至于上面的问题以后再解决吧。
输入下面的命令进行安装
1 | pip install torch |
运行Transformers
在完成了Pytorch安装以后,我们输入下面的命令下载一个模型并且运行。
1 | python -c "from transformers import pipeline; print(pipeline('sentiment-analysis')('we love you'))" |
如果你在这一步出现下面的报错:
1 | ModuleNotFoundError: No module named 'transformers' |
那就检查一下自己的pip版本跟Python版本是否一致,如果不一致的话在环境变量里将Python设置为和pip一致的版本就可以了。
1 | pip --version |
然后打印标签和分数
1 | [{'label': 'POSITIVE', 'score': 0.9998704791069031}] |
然后就是使用教程了,可以查看官方文档入门使用pipelines进行推理以及Pipelines
Hugging Face + vLLM
GPU支持
N卡可以去vLLM官网查看教程,我手上没有N卡,所以演示不了一点。
因为我的电脑是全系AMD,所以就只能使用Docker安装一个vLLM了。
输入下面的命令
1 | docker pull rocm/vllm:instinct_main |
仅CPU
vLLM Intel/AMD x86安装教程
首先执行下面的命令
1 | docker build -f docker/Dockerfile.cpu --tag vllm-cpu-env --target vllm-openai . |


