既然 Reader 模块的作用是把知识库里面的内容解析出来,那么我们自然而然就会想到一个问题:计算机中文档的存储格式是由很多种的,那 LazyLLM 支持哪些类型呢?
目前 LazyLLM 中的 Reader 默认支持的文档格式包括 pdf、doc、hwp、ppt、ipynb、epub、markdown、mbox、csv、excel、image、MP3、MP4。那如果知识库中出现了 LazyLLM 不支持的文档格式就不能使用 LazyLLM 了吗?答案当然不是。
对于一些 LazyLLM 中 Reader 没有支持的文档格式,或者 LazyLLM 中 Reader 输出的格式不符合自己需求的话,我们就可以根据实际需求来定义一个满足自己需求的 Reader,然后让 LazyLLM 来使用即可。这里我们假设我们知识库中存在 html 格式的文档,以一个网页为例进行说明,网页数据为:
我们首先需要把当前网页数据保存成 html 格式文件📄,我们可以手动进行数据保存,也可以通过代码进行保存。下面代码为我们把网页数据保存文件📄的过程。