核心内容摘要
稻妻风云:将军秘闻,与丘丘的未知羁绊
ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型基于 General Language Model (GLM) 架构具有 62 亿参数。
结合模型量化技术用户可以在消费级的显卡上进行本地部署INT4 量化级别下最低只需 6GB 显存。
ChatGLM-6B 使用了和 ChatGLM 相同的技术针对中文问答和对话进行了优化。
经过约 1T 标识符的中英双语训练辅以监督微调、反馈自助、人类反馈强化学习等技术的加持62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。
ChatGLM 参考了 ChatGPT 的设计思路在千亿基座模型 GLM-130B1中注入了代码预训练通过有监督微调Supervised Fine-Tuning等技术实现人类意图对齐。
ChatGLM 当前版本模型的能力提升主要来源于独特的千亿基座模型 GLM-130B。
它是不同于 BERT、GPT-3 以及 T5 的架构是一个包含多目标函数的自回归预训练模型。
2022年8月我们向研究界和工业界开放了拥有1300亿参数的中英双语稠密模型 GLM-130B1该模型有一些独特的优势双语 同时支持中文和英文。
高精度英文 在公开的英文自然语言榜单 LAMBADA、MMLU 和 Big-bench-lite 上优于 GPT-3 175BAPI: davinci基座模型、OPT-175B 和 BLOOM-176B。
高精度中文 在7个零样本 CLUE 数据集和5个零样本 FewCLUE 数据集上明显优于 ERNIE TITAN
0 260B 和 YUAN
1.
B。
快速推理 首个实现 INT4 量化的千亿模型支持用一台 4 卡 3090 或 8 卡 2080Ti 服务器进行快速且基本无损推理。
可复现性 所有结果超过 30 个任务均可通过我们的开源代码和模型参数复现。
跨平台 支持在国产的海光 DCU、华为昇腾 910 和申威处理器及美国的英伟达芯片上进行训练与推理。
官方实例 from transformers import AutoTokenizer, AutoModel tokenizer AutoTokenizer.from_pretrained(THUDM/chatglm-6b, trust_remote_codeTrue) model AutoModel.from_pretrained(THUDM/chatglm-6b, trust_remote_codeTrue).half().cuda() response, history model.chat(tokenizer, 你好, history[]) print(response) 你好!我是人工智能助手 ChatGLM-6B,很高兴见到你,欢迎问我任何问题。
response, history model.chat(tokenizer, 晚上睡不着应该怎么办, historyhistory) print(response) 晚上睡不着可能会让你感到焦虑或不舒服,但以下是一些可以帮助你入睡的方法:
制定规律的睡眠时间表:保持规律的睡眠时间表可以帮助你建立健康的睡眠习惯,使你更容易入睡。
尽量在每天的相同时间上床,并在同一时间起床。
创造一个舒适的睡眠环境:确保睡眠环境舒适,安静,黑暗且温度适宜。
可以使用舒适的床上用品,并保持房间通风。
放松身心:在睡前做些放松的活动,例如泡个热水澡,听些轻柔的音乐,阅读一些有趣的书籍等,有助于缓解紧张和焦虑,使你更容易入睡。
避免饮用含有咖啡因的饮料:咖啡因是一种刺激性物质,会影响你的睡眠质量。
尽量避免在睡前饮用含有咖啡因的饮料,例如咖啡,茶和可乐。
避免在床上做与睡眠无关的事情:在床上做些与睡眠无关的事情,例如看电影,玩游戏或工作等,可能会干扰你的睡眠。
尝试呼吸技巧:深呼吸是一种放松技巧,可以帮助你缓解紧张和焦虑,使你更容易入睡。
试着慢慢吸气,保持几秒钟,然后缓慢呼气。
如果这些方法无法帮助你入睡,你可以考虑咨询医生或睡眠专家,寻求进一步的建议。
本地部署
下载代码git clone https://github.com/THUDM/ChatGLM-6B.git
通过conda创建虚拟环境# 新建chatglm环境 conda create -n chatglm python
8 # 激活chatglm环境 conda activate chatglm # 安装PyTorch环境根据自己的cuda版本选择合适的torch版本 pip install torch
1.
1
1cu113 torchvision
0.
1
1cu113 torchaudio
0.
1
1 --extra-index-url https://download.pytorch.org/whl/cu113 # 安装gradio用于启动图形化web界面 pip install gradio # 安装运行依赖 pip install -r requirement.txt
修改代码在web_demo.py的最后一句demo.queue().launch(shareTrue)加两个server_name“
0.
0.
0”, server_port1234参数。
demo.queue().launch(shareTrue,server_name
0.
0.
0,server_port
9234)
模型量化默认情况下模型以 FP16 精度加载运行上述代码需要大概 13GB 显存。
如果你的 GPU 显存有限可以尝试以量化方式加载模型
使用方法如下GPU# FP16精度加载需要13G显存 model AutoModel.from_pretrained(THUDM/chatglm-6b, trust_remote_codeTrue).half().cuda()# int8精度加载需要10G显存 model AutoModel.from_pretrained(THUDM/chatglm-6b, trust_remote_codeTrue).half().quantize(
.cuda()# int4精度加载需要6G显存 model AutoModel.from_pretrained(THUDM/chatglm-6b, trust_remote_codeTrue).half().quantize(
.cuda()CPU#32G内存 model AutoModel.from_pretrained(THUDM/chatglm-6b, trust_remote_codeTrue).float()#16G内存 model AutoModel.from_pretrained(THUDM/chatglm-6b, trust_remote_codeTrue).bfloat16()
详细代码from transformers import AutoModel, AutoTokenizer import gradio as gr tokenizer AutoTokenizer.from_pretrained(THUDM/chatglm-6b, trust_remote_codeTrue) # model AutoModel.from_pretrained(THUDM/chatglm-6b, trust_remote_codeTrue).half().cuda() # 按需修改目前只支持 4/8 bit 量化 model AutoModel.from_pretrained(THUDM/chatglm-6b, trust_remote_codeTrue).half().quantize(
.cuda() model model.eval() MAX_TURNS 20 MAX_BOXES MAX_TURNS * 2 def predict(input, history[]): response, history model.chat(tokenizer, input, history) updates [] for query, response in history: updates.append(gr.update(visibleTrue, valuequery)) updates.append(gr.update(visibleTrue, valueresponse)) if len(updates) MAX_BOXES: updates updates [gr.Textbox.update(visibleFalse)] * (MAX_BOXES - len(updates)) return [history] updates with gr.Blocks() as demo: state gr.State([]) text_boxes [] for i in range(MAX_BOXES): if i % 2 0: label 提问 else: label 回复 text_boxes.append(gr.Textbox(visibleFalse, labellabel)) with gr.Row(): with gr.Column(scale
: txt gr.Textbox(show_labelFalse, placeholderEnter text and press enter).style(containerFalse) with gr.Column(scale
: button gr.Button(Generate) button.click(predict, [txt, state], [state] text_boxes) demo.queue().launch(shareTrue,server_name
0.
0.
0,server_port
调用示例想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2026 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容
学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI
100本大模型方向电子书
26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC
实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。
600套技术大会 PPT听行业大咖讲实战PPT 整理自
年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。
求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌
107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自
年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析
102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑
97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”
路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。
L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、
关键技术以及大模型应用场景。
L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。
L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。
L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。
L5阶段专题集丨特训篇 【录播课】