qwen2:7b本地化部署:Ollama更新、设置、api调用qwen2服务
本篇介绍了如何使用Ollama本地化部署qwen2:7b,以及进行Ollama的参数设置以及使用api调用qwen2的api服务的方法。
Ollama绝对是最简单的一种大模型部署方式,尽管该方式不支持function calling,但对于我们进行大模型的初步开发与探索已经足够。
本篇介绍了如何使用Ollama本地化部署qwen2:7b,以及进行Ollama的参数设置以及使用api调用qwen2的api服务的方法。
一、安装或者升级Ollama
运行qwen2需要Ollama版本 ollama>=0.1.42
可以通过ollama -v命令检查安装的版本。
我这里已经升级到0.1.44了满足条件。我之前是0.1.32,不满足版本要求的话,运行qwen2会显示乱码。
以下记录如何更新服务器上的Ollama版本。
官方的教程是直接使用命令:
curl -fsSL https://ollama.com/install.sh | sh
但实际执行的时候90%都会遇到网络问题不成功,只能用备用方案:
1、通过本地下载安装文件,再上传到服务器。
- 本地使用浏览器访问https://ollama.com/download/ollama-linux-amd64触发下载;
- 将下载的文件重命名为ollama;
- 通过winscp工具或者scp命令,将其上传至服务器目录:/usr/bin/
- 给文件赋予可执行权限:chmod +x /usr/bin/ollama
- 如果不能调到最新的Ollama,可以修改环境变量的读取顺序:export PATH="/usr/bin:/usr/local/bin:/bin:$PATH",也可以替换之前目录使用的ollama程序:例如我之前的Ollama程序在/usr/local/bin/ollama,将该文件直接替换为最新的即可。
2、Ollama相关设置
在服务器的环境变量中设置Ollama相关的参数:
- OLLAMA_HOST:这个变量定义了Ollama监听的网络接口。通过设置OLLAMA_HOST=0.0.0.0,我们可以让Ollama监听所有可用的网络接口,从而允许外部网络访问。
- OLLAMA_MODELS:这个变量指定了模型镜像的存储路径。通过设置OLLAMA_MODELS=/data/model/ollama_models,我们可以将模型镜像存储在/data目录下,避免默认目录下存储空间不够的情况。
- OLLAMA_KEEP_ALIVE:这个变量控制模型在内存中的存活时间。设置OLLAMA_KEEP_ALIVE=24h可以让模型在内存中保持24小时,提高访问速度。
- OLLAMA_PORT:这个变量允许我们更改Ollama的默认端口。例如,设置OLLAMA_PORT=8080可以将服务端口从默认的11434更改为8080。(我这里没有设置)
- OLLAMA_NUM_PARALLEL:这个变量决定了Ollama可以同时处理的用户请求数量。设置OLLAMA_NUM_PARALLEL=4可以让Ollama同时处理两个并发请求。
- OLLAMA_MAX_LOADED_MODELS:这个变量限制了Ollama可以同时加载的模型数量。设置OLLAMA_MAX_LOADED_MODELS=4可以确保系统资源得到合理分配。
在linux上通过设置ollama的环境变量:
(1)修改~/.bashrc文件
vi ~/.bashrc
在末行添加
export OLLAMA_MODELS=/data/model/ollama_models
export OLLAMA_HOST=0.0.0.0
export OLLAMA_KEEP_ALIVE=24h
export OLLAMA_NUM_PARALLEL=4
export OLLAMA_MAX_LOADED_MODELS=4
(2)在当前会话中生效
source ~/.bashrc
3、启动Ollama服务
(1)启动命令
ollama serve
(2)后台启动命令
nohup ollama serve >/dev/null 2>&1 &
该命令将不保存日志信息,如果需要日志信息,将>/dev/null修改为想要保存的日志文件路径即可。
二、使用Ollama拉取并运行qwen2
使用命令
ollama run qwen2
会自动拉取镜像。等拉取完毕就可以进行对话了。
也可以使用ollama pull qwen2,再使用ollama run qwen2也可以运行,都是一样的。
我们可以看到拉取默认拉取的是4.4GB的模型。
到Ollama的模型仓库中看看可用的模型:
同时我们看到该模型其实是经过Q4量化过的模型,难怪4.4G。我们看一下显存占用:
nvidia-smi
占用5.8G显存
加上本身Ollama本身的服务,1.8G,不到8个G的显存。
这么说8G显存就能在本地运行qwen2:7b了。是不是非常的惊喜!!!而且经过我们工作中的使用,其实Ollama提供的qwen2:7b模型已经具有相当好的效果,比起chatGLM等其他同规格参数模型,qwen2:7b是最好的,真的强。
三、api调用Ollama部署的qwen2:7b
由于我没有修改Ollama的默认端口,服务将监听默认的11434端口。如果需要其他机器访问,而服务器开启了防火墙,我们则需要开放服务器的端口11434。
1、开启防火墙端口(如果服务器未开启防火墙则跳过)
打开防火墙某个端口
sudo firewall-cmd --permanent --add-port=11434/tcp
重载防火墙设置
sudo firewall-cmd --reload
这样我们就可以通过接口访问服务器提供的大模型服务了。
2、api方式调用qwen2:7b
Ollama部署的qwen2:7b是标准的Openai API格式,因此直接采用chatOpenai的调用方式即可,如下:
import os
from langchain.chat_models import ChatOpenAI
os.environ['OPENAI_API_KEY'] = 'none'
os.environ['OPENAI_BASE_URL'] = 'http://{服务器ip地址}:11434/v1'
# 使用qwen2-7b(实际为in4量化版本)
llm = ChatOpenAI(temperature=0, model_name='qwen2:7b')
{服务器ip地址}修改为服务器实际的ip地址。
3、调用测试
from langchain.chains.llm import LLMChain
from langchain_core.prompts import PromptTemplate
_prompt = """ 你是一个发言友好的AI助理。现在回答用户的提问:{question}。"""
prompt = PromptTemplate.from_template(_prompt)
chat_chain = LLMChain(llm=model, prompt=prompt, verbose=True)
q = "你好,你有什么功能?"
response = chat_chain.run(question=q,verbose=True) # 终端用户的提问字符串
print(response)
看到模型回复如下:
证明已经部署完成,可以进行使用了。我们可以将其进行意图识别,或者完成一些文本摘要、实体提取任务都可以很愉快的完成、
四、补充说明
1、关于function calling
Ollama启动方式不支持function calling功能。
function calling在langchain的很多功能中具有重要的作用,例如路由链、提取链等都需要function calling。
官方说采用qwen-agent可以进行支持,但实际上为了我们的使用,我们可以采用其他方式进行部署,则可以支持function calling,例如Xinference部署,后续我可以再出具一篇教程、
2、关于langchain
还有关于上述测试api调用是否可用的代码,是关于langchain框架的,我这里示意的是langchain0.1.x版本的大模型链的定义方法,现0.2.x版本已经弃用。langchain0.2.x版本新增很多新的功能。我也正在学习,后续有时间我继续向大家分享。
更多推荐
所有评论(0)