简介:

目标是基于通义千问1.5版本系列大模型,尝试本地部署和运行,对比测试实验(重点是低量级参数的Qwen1.5系列大模型:0.5B,1.8B,4B,7B)。

其中,通义千问1.5-7B(Qwen1.5-7B) 是阿里云研发的通义千问大模型系列的70亿参数规模的模型。

本文在单机CPU运行环境下,对比了通义千问Qwen1.5系列量化版本的四版大模型:0.5B,1.8B,4B,7B

考虑到硬件资源限制及模型性能资料,都采用量化后的文件

Qwen1.5-0.5B-Chat-GGUF/qwen1_5-0_5b-chat-q5_k_m.gguf

Qwen1.5-1.8B-Chat-GGUF/qwen1_5-1_8b-chat-q5_k_m.gguf(注:2023.12.1 与Qwen1.5-72B同时发布)

Qwen1.5-4B-Chat-GGUF/qwen1_5-4b-chat-q5_k_m.gguf

Qwen1.5-7B-Chat-GGUF/qwen1_5-7b-chat-q5_k_m.gguf

实验过程:

首先从阿里Modelscope平台查找和下载不同版本的大模型(魔搭社区),

然后使用llama.cpp(GitHub - ggerganov/llama.cpp: LLM inference in C/C++)工具加载和运行。

例如:Qwen1.5-4B-Chat-GGUF

下载地址:魔搭社区汇聚各领域最先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。icon-default.png?t=N7T8https://modelscope.cn/models/qwen/Qwen1.5-4B-Chat-GGUF/summary

可以使用modelscope (pip install modelscope) 直接下载相应的模型:

from modelscope.hub.file_download import model_file_download
 	
model_dir = model_file_download(model_id='qwen/Qwen1.5-4B-Chat-GGUF',file_path='qwen1_5-4b-chat-q5_k_m.gguf',revision='master',cache_dir='path/to/local/dir')

然后在通过 llama.cpp运行大模型:

make -j && ./main -m /path/to/local/dir/qwen/Qwen1.5-4B-Chat-GGUF/qwen1_5-4b-chat-q5_k_m.gguf -n 512 --color -i -cml -f prompts/chat-with-qwen.txt

实验结果(个别用例):

0.5B的对话:

4B的对话:

1.8B的对话:

7B的对话:

实验结论:

1、实验中使用了基础和逻辑能力相关的20个测试样本做比较。从评测推理效果看,7B明显好于前三个。 1.8B要好于0.5和4B。4B的效果与0.5B差不多,都很差,有些奇怪。

2、如果单机性能比较好的话,可以基于Qwen1.5-7B量化版本本地做测试,整体效果还不错

      Qwen1.5-7B-Chat-GGUF/qwen1_5-7b-chat-q5_k_m.gguf

魔搭社区汇聚各领域最先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。icon-default.png?t=N7T8https://www.modelscope.cn/models/qwen/Qwen1.5-7B-Chat-GGUF/summary

目前在百度文心大模型3.5免费版(文心一言)和阿里通义千问2.5(通义)上面,测试的20个问题几乎都可以回答正确,而且大部分的解释也较为合理,让我们看到了国产大模型正在持续、快速迭代中, 为中国 AI 加油!!

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐