Unverified 提交 63d90060 作者: imClumsyPanda 提交者: GitHub

Merge pull request #17 from myml/memory

fix: 修复chatglm模型被复制,显存占用过多
...@@ -15,6 +15,8 @@ model = ( ...@@ -15,6 +15,8 @@ model = (
.cuda() .cuda()
) )
tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/chatglm-6b", trust_remote_code=True).half().cuda()
class ChatGLM(LLM): class ChatGLM(LLM):
max_token: int = 10000 max_token: int = 10000
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论