首页速度优化寻找光影的终极秘境：蘑菇视频入口，带你开启不一样的视觉之旅

网站优化

魅惑东方：解密“媚娘导”的传奇风韵

xxxxxx69：解锁无限可能，定义你的精彩人生

2026-06-08 19:34:01

阅读时长:7分钟

562次阅读

核心内容摘要

91精东传媒：光影之间，探寻视界新境

本地服务器部署开源大模型有一个前提就是得有 GPU 显卡资源在我下面的例子中我租用了 autodl 中的算力资源具体是租用了一张消费级别的RTX 3090显卡。

环境配置操作系统及版本ubuntu

2

04CUDA 版本

1

1pytorch 版本

2.

0cu121pip 换源和安装依赖包。

# 升级pip python -m pip install --upgrade pip # 更换 pypi 源加速库的安装 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip install fastapi

0.

1

1 pip install uvicorn

0.

24.

post1 pip install requests

2.

2

1 pip install modelscope

1.

5 pip install transformers

4.

4

4 pip install streamlit

1.

2

0 pip install sentencepiece

0.

99 pip install accelerate

0.

2

1 pip install tiktoken

0.

0这里要注意transformers的版本是

4.

4

4模型下载GLM-

B-Chat 模型大小为 18 GB下载模型大概需要 10~20 分钟。

由于后面我们要使用一个开源的 embedding 模型BAAI/bge-base-zh-v

5所以使用以下代码下载 2 个模型文件到本地文件系统运行python download.pyimport torch from modelscope import snapshot_download, AutoModel, AutoTokenizer import os model_dir snapshot_download(ZhipuAI/glm-

b-chat, cache_dir/root/autodl-tmp, revisionmaster) embedding_model_dir snapshot_download(BAAI/bge-base-zh-v

5, cache_dir/root/autodl-tmp, revisionmaster)模型测试GLM 开源模型官方给了一个 Demo 方便我们做测试以下是代码运行python trans_cli_demo.py This script creates a CLI demo with transformers backend for the glm-

b model, allowing users to interact with the model through a command-line interface. Usage: - Run the script to start the CLI demo. - Interact with the model by typing questions and receiving responses. Note: The script includes a modification to handle markdown to plain text conversion, ensuring that the CLI interface displays formatted text correctly. If you use flash attention, you should install the flash-attn and add attn_implementationflash_attention_2 in model loading. import os import torch from threading import Thread from transformers import AutoTokenizer, StoppingCriteria, StoppingCriteriaList, TextIteratorStreamer, AutoModelForCausalLM MODEL_PATH os.environ.get(MODEL_PATH, /root/autodl-tmp/ZhipuAI/glm-

b-chat) tokenizer AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_codeTrue) model AutoModelForCausalLM.from_pretrained( MODEL_PATH, trust_remote_codeTrue, device_mapauto ).eval() class StopOnTokens(StoppingCriteria): def call(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) - bool: stop_ids model.config.eos_token_id for stop_id in stop_ids: if input_ids[0][-1] stop_id: return True return False if name main: history [] max_length 8192 top_p

8 temperature

6 stop StopOnTokens() print(Welcome to the GLM-

B CLI chat. Type your messages below.) while True: user_input input(\nYou: ) if user_input.lower() in [exit, quit]: break history.append([user_input, ]) messages [] for idx, (user_msg, model_msg) in enumerate(history): if idx len(history) - 1 and not model_msg: messages.append({role: user, content: user_msg}) break if user_msg: messages.append({role: user, content: user_msg}) if model_msg: messages.append({role: assistant, content: model_msg}) model_inputs tokenizer.apply_chat_template( messages, add_generation_promptTrue, tokenizeTrue, return_tensorspt ).to(model.device) streamer TextIteratorStreamer( tokenizertokenizer, timeout60, skip_promptTrue, skip_special_tokensTrue ) generate_kwargs { input_ids: model_inputs, streamer: streamer, max_new_tokens: max_length, do_sample: False, # 改为 False top_p: top_p, temperature: temperature, stopping_criteria: StoppingCriteriaList([stop]), repetition_penalty:

2, eos_token_id: model.config.eos_token_id, } try: t Thread(targetmodel.generate, kwargsgenerate_kwargs) t.start() print(GLM-4:, end, flushTrue) for new_token in streamer: if new_token: print(new_token, end, flushTrue) history[-1][1] new_token except Exception as e: print(fAn error occurred: {e}) print(fError type: {type(e)}) import traceback traceback.print_exc() history[-1][1] history[-1][1].strip()注意以上代码和 GLM 官方提供的可能不太一样因为官方的有的报错所以我略为修改了一下。

直接运行trans_cli_demo.py就可以和模型交互了利用 FastApi 调用模型运行以下代码创建并启动 Api 服务运行python api.pyfrom fastapi import FastAPI, Request from transformers import AutoTokenizer, AutoModelForCausalLM import uvicorn import json import datetime import torch # 设置设备参数 DEVICE cuda # 使用CUDA DEVICE_ID 0 # CUDA设备ID如果未设置则为空 CUDA_DEVICE f{DEVICE}:{DEVICE_ID} if DEVICE_ID else DEVICE # 组合CUDA设备信息 # 清理GPU内存函数 def torch_gc(): if torch.cuda.is_available(): # 检查是否可用CUDA with torch.cuda.device(CUDA_DEVICE): # 指定CUDA设备 torch.cuda.empty_cache() # 清空CUDA缓存 torch.cuda.ipc_collect() # 收集CUDA内存碎片 # 创建FastAPI应用 app FastAPI() # 处理POST请求的端点 app.post(/) async def create_item(request: Request): global model, tokenizer # 声明全局变量以便在函数内部使用模型和分词器 json_post_raw await request.json() # 获取POST请求的JSON数据 json_post json.dumps(json_post_raw) # 将JSON数据转换为字符串 json_post_list json.loads(json_post) # 将字符串转换为Python对象 prompt json_post_list.get(prompt) # 获取请求中的提示 history json_post_list.get(history) # 获取请求中的历史记录 max_length json_post_list.get(max_length,

# 获取请求中的最大长度 top_p json_post_list.get(top_p,

0.

# 获取请求中的top_p参数 temperature json_post_list.get(temperature,

0.

# 获取请求中的温度参数 # 准备输入 messages [] if history: for h in history: messages.append({role: user, content: h[0]}) messages.append({role: assistant, content: h[1]}) messages.append({role: user, content: prompt}) input_ids tokenizer.apply_chat_template(messages, return_tensorspt).to(model.device) # 生成回复 with torch.no_grad(): outputs model.generate( input_ids, max_new_tokensmax_length, do_sampleTrue, top_ptop_p, temperaturetemperature, ) response tokenizer.decode(outputs[0][input_ids.shape[1]:], skip_special_tokensTrue) now datetime.datetime.now() # 获取当前时间 time now.strftime(%Y-%m-%d %H:%M:%S) # 格式化时间为字符串 # 构建响应JSON answer { response: response, history: history [[prompt, response]], status: 200, time: time } # 构建日志信息 log [ time ] , prompt: prompt , response: repr(response) print(log) # 打印日志 torch_gc() # 执行GPU内存清理 return answer # 返回响应 # 主函数入口 if name main: # 加载预训练的分词器和模型 tokenizer AutoTokenizer.from_pretrained(/root/autodl-tmp/ZhipuAI/glm-

b-chat, trust_remote_codeTrue) model AutoModelForCausalLM.from_pretrained( /root/autodl-tmp/ZhipuAI/glm-

b-chat, torch_dtypetorch.bfloat16, trust_remote_codeTrue, device_mapauto, ) model.eval() # 设置模型为评估模式 # 启动FastAPI应用 # 用6006端口可以将autodl的端口映射到本地从而在本地使用api uvicorn.run(app, host

0.

0, port6006, workers

# 在指定端口和主机上启动应用测试服务curl -X POST http://

127.

0.

1:6006 \ -H Content-Type: application/json \ -d {prompt: 你好, history: []}利用 FastApi 同样可以测试模型的调用和交互。

注意以上代码你可能会在网络上找到类似的我在最开始使用那些代码的时候报各种错原因大概包括模型和代码版本不兼容组件库版本问题等。

所以以上代码是经过我的修改之后可运行的代码RAG在之前的文章中我们通过 Ollama 在笔记本电脑上部署过大模型通过大模型产品的 API 调用过大模型唯独没有在服务器上私有化部署一个大模型。

前文我们已经在服务器上部署好了大模型glm-

b-chat这是一个拥有 90 亿参数的模型。

下面我们介绍如何在llamaindex中调用它。

很简单首先我们还是先自定义一个LLM 参考以下代码import logging from typing import Any, List, Optional from llama_index.core.llms import ( CustomLLM, CompletionResponse, CompletionResponseGen, LLMMetadata, ) from llama_index.core.llms.callbacks import llm_completion_callback from transformers import AutoTokenizer, AutoModelForCausalLM import torch # 设置日志 logging.basicConfig(levellogging.DEBUG) logger logging.getLogger(__name__) class LocalGLM4(CustomLLM): context_window: int 8192 # 默认上下文窗口大小 num_output: int 2048 # 默认输出的token数量 model_name: str glm-

b-chat # 模型名称 tokenizer: object None # 分词器 model: object None # 模型 def init(self, pretrained_model_name_or_path: str): super().init() # GPU方式加载模型 self.tokenizer AutoTokenizer.from_pretrained( pretrained_model_name_or_path, trust_remote_codeTrue ) self.model AutoModelForCausalLM.from_pretrained( pretrained_model_name_or_path, torch_dtypetorch.float16, # 或者使用 torch.bfloat16 low_cpu_mem_usageTrue, trust_remote_codeTrue, device_mapauto, ) # CPU方式加载模型 # self.tokenizer AutoTokenizer.from_pretrained(pretrained_model_name_or_path, device_mapcpu, trust_remote_codeTrue) # self.model AutoModelForCausalLM.from_pretrained(pretrained_model_name_or_path, device_mapcpu, trust_remote_codeTrue) # self.model self.model.float() # 尝试获取模型的实际上下文窗口大小 if hasattr(self.model.config, seq_length): self.context_window self.model.config.seq_length elif hasattr(self.model.config, max_position_embeddings): self.context_window self.model.config.max_position_embeddings logger.info(fUsing context window size: {self.context_window}) property def metadata(self) - LLMMetadata: Get LLM metadata. # 得到LLM的元数据 return LLMMetadata( context_windowself.context_window, num_outputself.num_output, model_nameself.model_name, ) llm_completion_callback() def complete(self, prompt: str, kwargs: Any) - CompletionResponse: # 完成函数 print(完成函数) inputs self.tokenizer.encode(prompt, return_tensorspt).cuda() # GPU方式 # inputs self.tokenizer.encode(prompt, return_tensorspt) # CPU方式 outputs self.model.generate(inputs, max_lengthself.num_output) response self.tokenizer.decode(outputs[0]) return CompletionResponse(textresponse) llm_completion_callback() def stream_complete(self, prompt: str, kwargs: Any) - CompletionResponseGen: # 流式完成函数 print(流式完成函数) inputs self.tokenizer.encode(prompt, return_tensorspt).cuda() # GPU方式 # inputs self.tokenizer.encode(prompt, return_tensorspt) # CPU方式 outputs self.model.generate(inputs, max_lengthself.num_output) response self.tokenizer.decode(outputs[0]) for token in response: yield CompletionResponse(texttoken, deltatoken)剩下的步骤跟之前的调用方式、代码编程模型几乎没有任何区别embed_model_path /root/autodl-tmp/BAAI/bge-base-zh-v

5 pretrained_model_name_or_path r/root/autodl-tmp/ZhipuAI/glm-

b-chat # 设置LLM和嵌入模型 logger.info(Setting up LLM and embedding model) Settings.llm LocalGLM4(pretrained_model_name_or_path) Settings.embed_model HuggingFaceEmbedding( model_namef{embed_model_path}, devicecuda ) # 从指定目录加载文档数据 logger.info(Loading documents) documents SimpleDirectoryReader(input_files[./data/sample.txt]).load_data() # 创建索引和查询引擎 logger.info(Creating index and query engine) index VectorStoreIndex.from_documents(documents) query_engine index.as_query_engine(streamingFalse) # 执行查询 logger.info(Executing query) response query_engine.query(query) # 处理并输出响应 if hasattr(response, response_gen): # 流式输出 for text in response.response_gen: print(text, end, flushTrue) sys.stdout.flush() # 确保立即输出 else: # 非流式输出 print(response.response, end, flushTrue)相关代码可以在这里查看github.com/xiaobox/lla…

总结利用租用的 GPU 资源部署了开源大模型glm-

b-chat通过熟悉部署方式和流程你可以照猫画虎部署其他开源模型。

接着我们将之前 RAG 项目中对LLM的调用改为服务器部署的本地开源模型实现了模型和调用的私有化。

希望这篇文章能够帮助到有类似需求的朋友。

想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2026 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容

学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI

100本大模型方向电子书

26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC

实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

600套技术大会 PPT听行业大咖讲实战PPT 整理自

年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌

107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自

年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析

102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑

97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”

路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。

L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、

关键技术以及大模型应用场景。

L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。

L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。

L5阶段专题集丨特训篇【录播课】