null | MYAIGC

Author

Published On

Sep 11, 2025

在开始搬运之前，我们需要先了解一下LangChain使用的“标准集装箱”——Document对象。无论你加载的是PDF、TXT还是网页，最终都会被转换成一个或多个Document对象。每个Document对象都包含两个核心部分：

metadata (字典)：这是关于这份文档的描述性信息。比如，它来自哪个文件（source）、在第几页（page）、作者是谁等等。元数据非常重要，它能帮助我们追溯答案的来源。 我们的目标就是：用各种Loader，把原始数据装进一个个标准的Document“集装箱”里。

【实战准备】

在 data 文件夹中，放入一个 .txt 文件（例如 story.txt，内容随意）和一个 .pdf 文件（例如任何一份你手头的PDF报告）。

现在，创建一个新文件 loading_demo.py，开始我们的实战！ 【代码实现】

恭喜你！今天，你已经掌握了RAG流程的第一步，也是至关重要的一步。我们学会了：

WebBaseLoader：从互联网上抓取实时信息。你的“知识仓库”现在已经堆满了各种原始的“教材”。但是，这些教材（尤其是长篇的PDF）对于LLM来说太长了，直接塞给它，效果不好，而且浪费Token。下一节课，我们将学习RAG流程的第二步：文本分割。我们将像一位耐心的图书管理员，把这些又长又乱的文档，切分成一段段精悍、连贯的知识片段，为后续的快速检索做好准备。准备好，拿起你的“切割刀”吧！