虽然说现在访问ChatGPT已经没有以前那么麻烦了,国内也涌现出了很多国产Ai,像什么豆包啊,千问,文心一言之类的,但是都需要联网,国外的类似于Google Gemini,Claude等等,不仅需要联网还需要代理才能够使用,但是很多的AI模型其实都是开源的,我们可以本地部署一个AI,这样就没有这些限制了。

接下来会使用两种方案本地部署一个AI,使用Hugging Face + Transformers或vLLM部署以及使用Ollama + open-webui部署,相比而言,Ollama的部署更加简单一些,Transformers或vLLM可自定义的选项要更多,但是部署相比较麻烦一些。

使用Ollama + open-webui

这里是Ollama官网,提供了macOS、Windows、Linux以及Docker的使用方式。我们这里拿Windows以及Docker做演示。

Windows ollama + open-webui

Ollama安装

首先我们去ollama官网,点击右上角的Download,然后点击Windows图标,然后点击Download for Windows,下载完成以后双击,并且点击Install,然后等待安装完成以后,Win+R然后输入cmd并回车,就会弹出来一个终端,然后打开Ollama的官网,点击左上角的Models,然后找到你想要的模型,比方说这是DeepSeek-r1模型。然后根据自己的情况选择32b还是14b或者别的训练量,一般来说,训练量越大配置要求越高,我这里就选择安装完成以后给我推荐的llama3.2了。

回到终端,输入下面的命令安装,具体安装时间看自身网速。

1
ollama run llama3.2

等待完成以后你就部署了一个本地AI,如果你不想要图形化界面,那就到此为止了,如果你需要的话就接着安装open-webui。

open-webui安装

输入下面的命令

1
pip install open-webui

然后运行

1
open-webui serve

然后浏览器访问http://localhost:8080就可以了。

Docker ollama + openwebui

Docker ollama安装

首先你需要安装一个Docker,Linux请选Docker Engine,Windows请选Docker Desktop on Windows

然后你需要安装ollama镜像,这里可以选择两种,一种是只有命令行,一种是自带open-webui

命令行

输入下面的命令就可以了

仅CPU

1
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

如果要启用GPU支持,具体请查看Ollama Docker image

自带open-webui

输入下面的命令

GPU支持

1
docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

仅有CPU

1
docker run -d -p 3000:8080 -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

访问http://localhost:3000 就可以进入open-webui

使用Hugging Face + Transformers或vLLM

Hugging Face官网

Transformers 安装文档

vLLM 文档

Hugging Face + Transformers

首先我们需要下载安装一个Transformers,这里可以使用pip直接安装,或者使用源代码安装,或者直接clone一个仓库下来安装,或者使用conda安装,我这里就选择使用源代码安装了。

输入下面的命令

1
pip install git+https://github.com/UKPLab/sentence-transformers.git

然后输入下面的命令

1
python -c "from transformers import pipeline; print(pipeline('sentiment-analysis')('hugging face is the best'))"

然后会弹出下面的错误,我不知道是不是因为我的显卡是A卡的原因,还是因为我没有安装TensorFlow或者PyTorch,所以我觉得安装一个TensorFlow。

1
RuntimeError: At least one of TensorFlow 2.0 or PyTorch should be installed. To install TensorFlow 2.0, read the instructions at https://www.tensorflow.org/install/ To install PyTorch, read the instructions at https://pytorch.org/.

TensorFlow

输入下面的命令升级pip

1
pip install --upgrade pip

安装tensorflow

1
pip install tensorflow

然后弹出了这个错误

1
2
ERROR: Could not find a version that satisfies the requirement tensorflow (from versions: none)
ERROR: No matching distribution found for tensorflow

然后在pip安装里的系统要求里看到只支持Python 3.6–3.9,输入下面的命令查看现在的Python版本。

1
python --version

我的python是3.13.1,所以现在去Python下载换一个Python9的版本,我这里就下载Python3.9.22了。然后添加一下环境变量,再次输入pip install tensorflow后还是一样的错误,我百思不得其解。

Pytorch

于是我换成了Pytorch,至于上面的问题以后再解决吧。

输入下面的命令进行安装

1
pip install torch

运行Transformers

在完成了Pytorch安装以后,我们输入下面的命令下载一个模型并且运行。

1
python -c "from transformers import pipeline; print(pipeline('sentiment-analysis')('we love you'))"

如果你在这一步出现下面的报错:

1
ModuleNotFoundError: No module named 'transformers'

那就检查一下自己的pip版本跟Python版本是否一致,如果不一致的话在环境变量里将Python设置为和pip一致的版本就可以了。

1
2
pip --version
python --version

然后打印标签和分数

1
[{'label': 'POSITIVE', 'score': 0.9998704791069031}]

然后就是使用教程了,可以查看官方文档入门使用pipelines进行推理以及Pipelines

Hugging Face + vLLM

GPU支持

N卡可以去vLLM官网查看教程,我手上没有N卡,所以演示不了一点。

因为我的电脑是全系AMD,所以就只能使用Docker安装一个vLLM了。

输入下面的命令

1
docker pull rocm/vllm:instinct_main

仅CPU

vLLM Intel/AMD x86安装教程

首先执行下面的命令

1
2
3
4
5
6
7
8
9
10
11
docker build -f docker/Dockerfile.cpu --tag vllm-cpu-env --target vllm-openai .
docker run --rm \
--privileged=true \
--shm-size=4g \
-p 8000:8000 \
-e VLLM_CPU_KVCACHE_SPACE=<KV cache space> \
-e VLLM_CPU_OMP_THREADS_BIND=<CPU cores for inference> \
vllm-cpu-env \
--model=meta-llama/Llama-3.2-1B-Instruct \
--dtype=bfloat16 \
other vLLM OpenAI server arguments