基于Qwen2.5模型的RAG微调+langchain

本文使用Qwen2.5作为示例，是通义千问最新发布的开源大模型，适合中文场景。同时，我会提供微调步骤和参数设置。

学编程的头没秃

1504人浏览 · 2024-11-04 15:38:34

学编程的头没秃 · 2024-11-04 15:38:34 发布

本文使用Qwen2.5作为示例，是通义千问最新发布的开源大模型，适合中文场景。同时，我会提供微调步骤和参数设置。

  1import torch  
  2from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer  
  3from peft import get_peft_model, LoraConfig, TaskType  
  4from datasets import Dataset  
  5from langchain.embeddings import HuggingFaceEmbeddings  
  6from langchain.vectorstores import Chroma  
  7from langchain.text_splitter import CharacterTextSplitter  
  8from langchain.chains import RetrievalQA  
  9from langchain.llms import HuggingFacePipeline  
 10  
 11class QwenRAGFineTuningSystem:  
 12    def __init__(self, model_name="Qwen/Qwen2.5-7B", data_path="path/to/your/data.txt"):  
 13        self.model_name = model_name  
 14        self.data_path = data_path  
 15        self.tokenizer = None  
 16        self.model = None  
 17        self.embeddings = None  
 18        self.vectorstore = None  
 19        self.qa_chain = None  
 20  
 21    def initialize_model(self):  
 22        self.tokenizer = AutoTokenizer.from_pretrained(self.model_name, trust_remote_code=True)  
 23        self.model = AutoModelForCausalLM.from_pretrained(self.model_name, trust_remote_code=True, device_map="auto")  
 24        self.tokenizer.pad_token = self.tokenizer.eos_token  
 25        self.model.config.pad_token_id = self.tokenizer.eos_token_id  
 26  
 27    def prepare_for_training(self):  
 28        # 配置LoRA  
 29        peft_config = LoraConfig(  
 30            task_type=TaskType.CAUSAL_LM,  
 31            inference_mode=False,  
 32            r=8,  
 33            lora_alpha=32,  
 34            lora_dropout=0.1  
 35        )  
 36        self.model = get_peft_model(self.model, peft_config)  
 37  
 38    def create_vectorstore(self):  
 39        self.embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")  
 40        with open(self.data_path, 'r', encoding='utf-8') as f:  
 41            data = f.read()  
 42        text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=200)  
 43        texts = text_splitter.split_text(data)  
 44        self.vectorstore = Chroma.from_texts(texts, self.embeddings)  
 45  
 46    def fine_tune(self, train_data, output_dir="./qwen_rag_finetuned"):  
 47        # 准备训练数据  
 48        def tokenize_function(examples):  
 49            return self.tokenizer(examples["text"], padding="max_length", truncation=True, max_length=512)  
 50  
 51        dataset = Dataset.from_dict({"text": train_data})  
 52        tokenized_dataset = dataset.map(tokenize_function, batched=True)  
 53  
 54        # 设置训练参数  
 55        training_args = TrainingArguments(  
 56            output_dir=output_dir,  
 57            num_train_epochs=3,  
 58            per_device_train_batch_size=4,  
 59            gradient_accumulation_steps=4,  
 60            learning_rate=2e-4,  
 61            weight_decay=0.01,  
 62            warmup_steps=500,  
 63            logging_steps=100,  
 64            save_steps=1000,  
 65            fp16=True,  
 66        )  
 67  
 68        # 初始化 Trainer  
 69        trainer = Trainer(  
 70            model=self.model,  
 71            args=training_args,  
 72            train_dataset=tokenized_dataset,  
 73            tokenizer=self.tokenizer  
 74        )  
 75  
 76        # 开始训练  
 77        trainer.train()  
 78  
 79        # 保存微调后的模型  
 80        self.model.save_pretrained(output_dir)  
 81        self.tokenizer.save_pretrained(output_dir)  
 82  
 83    def create_qa_chain(self):  
 84        pipe = HuggingFacePipeline(  
 85            pipeline=pipeline("text-generation", model=self.model, tokenizer=self.tokenizer, max_length=2048)  
 86        )  
 87        self.qa_chain = RetrievalQA.from_chain_type(  
 88            llm=pipe,  
 89            chain_type="stuff",  
 90            retriever=self.vectorstore.as_retriever()  
 91        )  
 92  
 93    def query(self, question):  
 94        return self.qa_chain.run(question)  
 95  
 96# 使用示例  
 97system = QwenRAGFineTuningSystem()  
 98  
 99# 步骤1: 初始化模型  
100print("正在初始化模型...")  
101system.initialize_model()  
102  
103# 步骤2: 准备训练  
104print("正在准备模型进行微调...")  
105system.prepare_for_training()  
106  
107# 步骤3: 创建向量存储  
108print("正在创建向量存储...")  
109system.create_vectorstore()  
110  
111# 步骤4: 微调模型  
112print("开始微调模型...")  
113train_data = [  
114    "这是第一条训练数据。",  
115    "这是第二条训练数据。",  
116    # ... 添加更多训练数据  
117]  
118system.fine_tune(train_data)  
119  
120# 步骤5: 创建问答链  
121print("正在创建问答链...")  
122system.create_qa_chain()  
123  
124# 步骤6: 进行查询  
125question = "请问北京的气候特点是什么？"  
126print(f"问题: {question}")  
127answer = system.query(question)  
128print(f"回答: {answer}")

系统设计、微调过程和使用流程：