虽然说现在访问ChatGPT已经没有以前那么麻烦了，国内也涌现出了很多国产Ai，像什么豆包啊，千问，文心一言之类的，但是都需要联网，国外的类似于Google Gemini，Claude等等，不仅需要联网还需要代理才能够使用，但是很多的AI模型其实都是开源的，我们可以本地部署一个AI，这样就没有这些限制了。

接下来会使用两种方案本地部署一个AI，使用Hugging Face + Transformers或vLLM部署以及使用Ollama + open-webui部署，相比而言，Ollama的部署更加简单一些，Transformers或vLLM可自定义的选项要更多，但是部署相比较麻烦一些。

使用Ollama + open-webui

这里是Ollama官网，提供了macOS、Windows、Linux以及Docker的使用方式。我们这里拿Windows以及Docker做演示。

Windows ollama + open-webui

Ollama安装

首先我们去ollama官网，点击右上角的Download，然后点击Windows图标，然后点击Download for Windows，下载完成以后双击，并且点击Install，然后等待安装完成以后，Win+R然后输入cmd并回车，就会弹出来一个终端，然后打开Ollama的官网，点击左上角的Models，然后找到你想要的模型，比方说这是DeepSeek-r1模型。然后根据自己的情况选择32b还是14b或者别的训练量，一般来说，训练量越大配置要求越高，我这里就选择安装完成以后给我推荐的llama3.2了。

回到终端，输入下面的命令安装，具体安装时间看自身网速。

1	ollama run llama3.2

等待完成以后你就部署了一个本地AI，如果你不想要图形化界面，那就到此为止了，如果你需要的话就接着安装open-webui。

open-webui安装

输入下面的命令

1	pip install open-webui

然后运行

1	open-webui serve

然后浏览器访问http://localhost:8080就可以了。

Docker ollama + openwebui

Docker ollama安装

首先你需要安装一个Docker，Linux请选Docker Engine，Windows请选Docker Desktop on Windows

然后你需要安装ollama镜像，这里可以选择两种，一种是只有命令行，一种是自带open-webui

命令行

输入下面的命令就可以了

仅CPU

1	docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

如果要启用GPU支持，具体请查看Ollama Docker image

自带open-webui

输入下面的命令

GPU支持

1	docker run -d -p 3000:8080 --gpus=all -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

仅有CPU

1	docker run -d -p 3000:8080 -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

访问http://localhost:3000 就可以进入open-webui

使用Hugging Face + Transformers或vLLM

Hugging Face官网

 Transformers 安装文档

 vLLM 文档

Hugging Face + Transformers

首先我们需要下载安装一个Transformers，这里可以使用pip直接安装，或者使用源代码安装，或者直接clone一个仓库下来安装，或者使用conda安装，我这里就选择使用源代码安装了。

输入下面的命令

1	pip install git+https://github.com/UKPLab/sentence-transformers.git

然后输入下面的命令

1	python -c "from transformers import pipeline; print(pipeline('sentiment-analysis')('hugging face is the best'))"

然后会弹出下面的错误，我不知道是不是因为我的显卡是A卡的原因，还是因为我没有安装TensorFlow或者PyTorch，所以我觉得安装一个TensorFlow。

RuntimeError: At least one of TensorFlow 2.0 or PyTorch should be installed. To install TensorFlow 2.0, read the instructions at https://www.tensorflow.org/install/ To install PyTorch, read the instructions at https://pytorch.org/.

TensorFlow

输入下面的命令升级pip

1	pip install --upgrade pip

安装tensorflow

1	pip install tensorflow

然后弹出了这个错误

1 2	ERROR: Could not find a version that satisfies the requirement tensorflow (from versions: none) ERROR: No matching distribution found for tensorflow

然后在pip安装里的系统要求里看到只支持Python 3.6–3.9，输入下面的命令查看现在的Python版本。

1	python --version

我的python是3.13.1，所以现在去Python下载换一个Python9的版本，我这里就下载Python3.9.22了。然后添加一下环境变量，再次输入pip install tensorflow后还是一样的错误，我百思不得其解。

Pytorch

于是我换成了Pytorch，至于上面的问题以后再解决吧。

输入下面的命令进行安装

1	pip install torch

运行Transformers

在完成了Pytorch安装以后，我们输入下面的命令下载一个模型并且运行。

1	python -c "from transformers import pipeline; print(pipeline('sentiment-analysis')('we love you'))"

如果你在这一步出现下面的报错：

1	ModuleNotFoundError: No module named 'transformers'

那就检查一下自己的pip版本跟Python版本是否一致，如果不一致的话在环境变量里将Python设置为和pip一致的版本就可以了。

1 2	pip --version python --version

然后打印标签和分数

1	[{'label': 'POSITIVE', 'score': 0.9998704791069031}]

然后就是使用教程了，可以查看官方文档入门使用pipelines进行推理以及Pipelines

Hugging Face + vLLM

GPU支持

N卡可以去vLLM官网查看教程，我手上没有N卡，所以演示不了一点。

因为我的电脑是全系AMD，所以就只能使用Docker安装一个vLLM了。

输入下面的命令

1	docker pull rocm/vllm:instinct_main

仅CPU

vLLM Intel/AMD x86安装教程

首先执行下面的命令

docker build -f docker/Dockerfile.cpu --tag vllm-cpu-env --target vllm-openai .
docker run --rm \
            --privileged=true \
            --shm-size=4g \
            -p 8000:8000 \
            -e VLLM_CPU_KVCACHE_SPACE=<KV cache space> \
            -e VLLM_CPU_OMP_THREADS_BIND=<CPU cores for inference> \
            vllm-cpu-env \
            --model=meta-llama/Llama-3.2-1B-Instruct \
            --dtype=bfloat16 \
            other vLLM OpenAI server arguments