Skip to content
项目
群组
代码片段
帮助
当前项目
正在载入...
登录 / 注册
切换导航面板
J
jinchat-server
概览
概览
详情
活动
周期分析
版本库
存储库
文件
提交
分支
标签
贡献者
分支图
比较
统计图
问题
0
议题
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
CI / CD
CI / CD
流水线
作业
日程表
图表
维基
Wiki
代码片段
代码片段
成员
成员
折叠边栏
关闭边栏
活动
图像
聊天
创建新问题
作业
提交
问题看板
Open sidebar
aigc-pioneer
jinchat-server
Commits
be5f1427
Unverified
提交
be5f1427
authored
4月 19, 2023
作者:
keenzhu
提交者:
GitHub
4月 19, 2023
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Add files via upload
增加通过命令行导入docs目录下的所有txt文档,然后进行按句切割,然后通过openai的api获取向量,最后存储在Pinecone
上级
6fc5e823
隐藏空白字符变更
内嵌
并排
正在显示
1 个修改的文件
包含
52 行增加
和
0 行删除
+52
-0
text_load.py
chains/text_load.py
+52
-0
没有找到文件。
chains/text_load.py
0 → 100644
浏览文件 @
be5f1427
import
os
import
pinecone
from
tqdm
import
tqdm
from
langchain.llms
import
OpenAI
from
langchain.text_splitter
import
SpacyTextSplitter
from
langchain.document_loaders
import
TextLoader
from
langchain.document_loaders
import
DirectoryLoader
from
langchain.indexes
import
VectorstoreIndexCreator
from
langchain.embeddings.openai
import
OpenAIEmbeddings
from
langchain.vectorstores
import
Pinecone
#一些配置文件
openai_key
=
"你的key"
# 注册 openai.com 后获得
pinecone_key
=
"你的key"
# 注册 app.pinecone.io 后获得
pinecone_index
=
"你的库"
#app.pinecone.io 获得
pinecone_environment
=
"你的Environment"
# 登录pinecone后,在indexes页面 查看Environment
pinecone_namespace
=
"你的Namespace"
#如果不存在自动创建
#科学上网你懂得
os
.
environ
[
'HTTP_PROXY'
]
=
'http://127.0.0.1:7890'
os
.
environ
[
'HTTPS_PROXY'
]
=
'http://127.0.0.1:7890'
#初始化pinecone
pinecone
.
init
(
api_key
=
pinecone_key
,
environment
=
pinecone_environment
)
index
=
pinecone
.
Index
(
pinecone_index
)
#初始化OpenAI的embeddings
embeddings
=
OpenAIEmbeddings
(
openai_api_key
=
openai_key
)
#初始化text_splitter
text_splitter
=
SpacyTextSplitter
(
pipeline
=
'zh_core_web_sm'
,
chunk_size
=
1000
,
chunk_overlap
=
200
)
# 读取目录下所有后缀是txt的文件
loader
=
DirectoryLoader
(
'../docs'
,
glob
=
"**/*.txt"
,
loader_cls
=
TextLoader
)
#读取文本文件
documents
=
loader
.
load
()
# 使用text_splitter对文档进行分割
split_text
=
text_splitter
.
split_documents
(
documents
)
try
:
for
document
in
tqdm
(
split_text
):
# 获取向量并储存到pinecone
Pinecone
.
from_documents
([
document
],
embeddings
,
index_name
=
pinecone_index
)
except
Exception
as
e
:
print
(
f
"Error: {e}"
)
quit
()
编写
预览
Markdown
格式
0%
重试
或
添加新文件
添加附件
取消
您添加了
0
人
到此讨论。请谨慎行事。
请先完成此评论的编辑!
取消
请
注册
或者
登录
后发表评论