扫描版 PDF 能转出文字吗？

不会自动 OCR。若提示内容稀少，请先使用 PDF OCR 工具识别后再转换。

外链图片模式为什么下载 ZIP？

Markdown 引用相对图片路径，需要和图片目录一起下载，ZIP 可以保持结构完整。

表格会保留吗？

会尽量输出 GitHub Flavored Markdown 表格，复杂版式可能需要手动调整。

pdfClaw

首页 Blog FAQ 关于我们

PDF 转换

PDF 转 Word PDF 转 PPT PDF 转 Excel PDF OCR 识别 PDF 转 Markdown 转电子书

PDF 处理

PDF 合并 PDF 拆分 PDF 压缩签名水印图片导出

即将上线

Language

PDF 转 Markdown

把 PDF 转为适合 AI、知识库和写作工具使用的 Markdown。

…

PDF 转 Markdown

什么是 PDF 转 Markdown，为什么它比复制粘贴更适合 AI

PDF 转 Markdown，不只是把一份 PDF 里的字抠出来，而是把原本面向阅读的版式文件，转成面向结构化处理的纯文本内容。Markdown 的核心价值不在“轻量”，而在它保留了标题层级、列表、表格、代码块和图片引用这些语义边界。对于 AI 问答、知识库、技术文档站点、团队内部 SOP 库来说，这些边界决定了后续检索能否准确命中，也决定了模型回答时能否理解“这一段是在解释概念”“那一段是在列步骤”“某个表格是参数，不是正文”。如果只是从 PDF 里复制文字，再贴进编辑器，常见结果是标题丢级、表格断行、页眉页脚混进正文、代码缩进被打碎。人还能勉强读，模型却很容易误判上下文。PDF 转 Markdown 的意义，就是先把这些可预见的结构问题处理掉，再让后续的 AI 或编辑流程少走弯路。

哪些场景最需要把 PDF 转成 Markdown

最典型的三类场景是知识库建设、内容复用和研发文档整理。第一类是知识库建设。很多团队的产品说明、售后手册、制度文档、培训材料都以 PDF 形式散落在网盘里，想接入 RAG、内部问答机器人、企业搜索时，最怕的不是文档少，而是格式太死。转成 Markdown 后，按章节切片、按标题索引、按字段抽取都会稳定得多。第二类是内容复用。比如一份白皮书 PDF 想拆成博客、FAQ、社媒图文、销售答疑卡片，Markdown 比 Word 更适合程序化处理，配合脚本就能批量拆段和重组。第三类是研发文档整理。接口文档、技术方案、迁移指南、测试报告这类资料，如果未来还要继续维护和版本对比，纯文本的 Markdown 明显比二进制 PDF 更方便审阅和协作。反过来说，如果你的 PDF 主要是海报、排版型画册、视觉作品集，信息高度依赖布局和图形关系，那就不一定值得转成 Markdown。

先判断 PDF 类型，再决定转换路径

做 PDF 转 Markdown 之前，最值得花的 10 秒钟，是先判断原文件到底是哪一类 PDF。大体可以分成三类。第一类是文字版 PDF，也就是从 Word、PPT、网页、LaTeX 或设计软件直接导出的文档，鼠标可以选中文字。这类文件通常适合直接转 Markdown。第二类是扫描版 PDF，文字本质是图片，无法直接选中，这类文件如果硬转，只会得到零碎的占位或乱码，必须先做 OCR。第三类是混合版 PDF，一部分是数字文字，一部分是扫描插图或截图，这类文件最容易在转换后出现阅读顺序错乱、表格残缺和图片说明脱节。简单判断方法就是：打开 PDF，试着拖选一段正文；如果选不中，大概率先走 OCR；如果能选中，但复制后顺序明显不对，说明版式复杂，后续要重点复核表格和多栏区域。这个前置判断会直接影响你是“一次转完”还是“先识别、再转换、再整理”。

PDF 转 Markdown 的标准流程，不建议省略任何一步

一个稳定的转换流程，通常是六步。第一步，确认 PDF 类型和后续用途。你是要把结果喂给 AI，还是要发到文档站，还是只想提取正文？用途不同，保留的结构也不同。第二步，必要时先 OCR。扫描件不先识别，后面所有清洗都白费。第三步，用转换工具输出 Markdown。这里的目标不是“100% 自动完美”，而是先拿到结构尽可能完整的第一稿。第四步，人工快速复核：看标题层级、表格、列表、代码块和图片引用是否还在。第五步，按用途做轻度整理，比如删除页码、页眉页脚、修正常见表格错位、补上文档元信息。第六步，再接入知识库、Git 仓库、博客系统或自动化脚本。很多人跳过第四、第五步，想一步到位，结果导致后续知识库回答“似是而非”，最后又回头返工。把人工复核放在转换后最早的位置，总体成本反而最低。

为什么 AI 特别偏爱 Markdown，而不是 PDF 原文

AI 并不是“看不懂 PDF”，而是相比 Markdown，理解成本更高、出错点更多。PDF 主要描述的是页面上元素出现在哪里，而不是这些元素在逻辑上属于什么。模型拿到 PDF 解析结果后，常见问题有三个。第一，层级感弱。它知道某段文字存在，却不一定知道这是一级标题、二级标题还是页脚。第二，表格关系弱。很多 PDF 里的表格在抽取后会变成一串行文本，模型能看到数字，但很难稳定分辨哪一列对应哪个字段。第三，切片边界差。做 RAG 时通常会把文档切成若干块，Markdown 可以按标题自然切段，PDF 抽出来的纯文本却常常在分页处截断，导致一段定义和下一段步骤被拆开。Markdown 的好处是，它天然把结构显式写出来了：`#` 表示标题，`-` 表示列表，`|` 表示表格，代码块有围栏，引用和图片也有固定语法。对模型来说，这意味着更低的理解噪声和更稳定的上下文边界。

表格、列表和代码块，是 PDF 转 Markdown 最值得重点检查的三类元素

一份 Markdown 是否“好用”，大多数时候不取决于普通段落，而取决于三类结构：表格、列表和代码块。表格最常见的问题是列错位，尤其是原始 PDF 中存在合并单元格、跨页表头或多层表头时。转换后你需要确认：每一行是否仍然对应正确字段，表头是否还在第一行，单位和说明是否没有掉到下一列。列表的问题更偏向层级。很多 PDF 里的缩进列表转换后会失去父子关系，尤其是“1. / 1.1 / 1.1.1”这种层层嵌套的步骤说明，AI 一旦读错层级，就可能把注意事项当成主流程。代码块的问题则集中在缩进和围栏缺失。原本应该被整体看的代码，如果混入普通段落，模型会把它当说明文字处理，后续摘要、翻译或改写都会出错。所以在复核时，优先看这三类内容，普通段落哪怕句子之间多一个空行，影响都没有它们大。

图片在 Markdown 里并不总要“保真”，但一定要“可追踪”

很多人做 PDF 转 Markdown 时，会直觉地要求图片也完整转出来。实际上要不要保留图片，要看下游用途。若是给 AI 做知识库，大多数场景并不要求每张图都内嵌，只要让系统知道“这里原来有一张架构图”“这里有一张流程图”“这里有一张数据表截图”，并能在需要时回到原图，就已经够用了。所以图片处理更重要的是可追踪，而不是堆砌。常见策略有三种。第一种是外链图片目录，也就是 Markdown 里保留相对路径，图片单独打包，适合做文档站或本地知识库。第二种是内嵌 base64，适合单文件传递，但文件体积会显著变大，不适合长文。第三种是忽略图片，仅保留占位和说明，适合纯文本问答或只关心正文逻辑的场景。选哪一种，不是审美问题，而是交付问题：是否需要团队共享、是否走 Git、是否希望后续可二次发布。

扫描版 PDF 不要硬转，先 OCR 才是正路

如果原文件是扫描件，先转 Markdown 再修，是最浪费时间的做法。扫描版 PDF 的文字是图像，不存在可直接抽取的字符层。你看到的“内容”，对工具来说其实是一整张像素图，所以直接转换时，输出通常会很短，或者只有零散的片段。正确路径应当是先 OCR，再转 Markdown。OCR 的目标不是把版式做漂亮，而是先把文字识别出来，并尽量补上段落和阅读顺序。识别完成后，再把识别结果交给 Markdown 转换工具，结构保留率才会明显提高。尤其在中英文混排、报告截图、表格扫描件等场景下，先 OCR 能避免大量乱码和错误换行。对 pdfClaw 用户来说，最稳妥的顺序就是：先用 [PDF OCR](/convert/ocr) 让扫描件变成可搜索文本，再回到 [PDF 转 Markdown](/convert/markdown) 导出结构化内容。如果需要后续编辑而不是知识库导入，也可以走 OCR 后转 Word 的路线。

什么时候应该用 PDF 转 Word，而不是 PDF 转 Markdown

Markdown 并不是所有场景的最优解。若你的主要目标是人工编辑、修订版式、给非技术同事交付可继续修改的文档，PDF 转 Word 往往更合适。它适合这些情况：一是同事习惯在 Office 里工作，不愿碰 Markdown；二是你要保留图文混排、页眉页脚和批注，而不是只保留结构；三是需要用修订模式逐条审批。如果你要做的是“文档作为资料库的一部分”，或者未来还会继续被程序切片、检索、发布，那 Markdown 更胜一筹。简化判断标准可以是：偏“继续编辑”的需求选 Word，偏“继续处理”的需求选 Markdown。很多团队实际上两者都会用，比如一份产品手册先转 Word 给运营修文案，再转 Markdown 入库给 AI 用，这并不冲突。

如果目标是做知识库，转换后的整理规则要写成 SOP

真正影响知识库质量的，不只是转换工具本身，而是转换后的整理是否稳定。如果团队准备长期把 PDF 资料转为 Markdown，建议把一套轻量 SOP 固化下来。第一，统一 frontmatter 或元数据字段，比如文档来源、更新时间、适用产品版本、原始链接。第二，统一标题规则，不要同一份资料里既有“第一章”又有“Chapter 1”，导致切片标准飘忽。第三，统一清洗页眉页脚、版权声明和页码的规则，避免这些低价值文本混入向量库。第四，给常见内容类型约定处理方案，比如表格保留 Markdown 语法，复杂流程图仅保留图名和说明，附件列表单独整理。第五，建立抽查机制，每批只要抽查 3 到 5 份典型文档，确认结构没有跑偏，就能避免全库质量漂移。很多团队的知识库失败，不是因为模型不好，而是因为源文档进入库之前就没被认真整理。

PDF 转 Markdown 在线工具应该怎么选，别只看“能不能转”

挑选工具时，最容易犯的错是只看首页演示是否顺手，忽略结果质量和后续流程兼容性。真正值得比较的点有五个。第一，是否能识别并保留标题层级。第二，表格输出是否稳定，尤其是复杂表格会不会整段塌掉。第三，是否能控制图片策略，至少要支持外链、内嵌或忽略三种思路之一。第四，是否明确说明文件保留策略和自动删除时间。第五，是否适合你的后续交付，比如导出结果能否直接进 Git、能否方便复制到 Notion、是否适合导入知识库。对于只想快速验证思路的用户，在线工具通常是最轻的入口。pdfClaw 的优势是，面向 PDF 处理链路做得比较完整：若你发现原文件是扫描件，可以先在站内 OCR，再回来转 Markdown；若文件太大，也能先 [压缩 PDF](/convert/compress) 再处理；如果后续发现 Markdown 并不适合你当前协作对象，也可以切换到 [PDF 转 Word](/convert/word)。

一个真实可落地的案例：产品手册如何从 PDF 进入 AI 知识库

假设你手上有一套产品手册，来源是市场和研发共同维护的 PDF，长度 80 页，包含功能说明、参数表、故障排查和 FAQ。目标是让客服和售前能通过 AI 快速查答案。一个可执行的流程会是这样。先抽查 PDF 类型，发现大部分是数字文字版，少数附录页为截图。第一步，用 PDF 转 Markdown 工具导出结构化文本。第二步，把截图多的附录单独提出来，必要时走 OCR。第三步，人工检查每个大章节的标题层级是否合理，尤其是“故障现象—原因—处理步骤”这类结构是否保留。第四步，对参数表格做一次快速核验，确认字段没有串列。第五步，补上文档元信息，标明版本号和发布日期。第六步，按章节切片后写入知识库系统。这个流程看起来比“直接上传 PDF”麻烦一点，但换来的好处是问答结果更稳定、来源更清楚、后续版本更新也更容易对比。

常见误区：不是转得越快越好，而是结果越可复用越好

不少人第一次接触 PDF 转 Markdown，会陷入“只要一分钟出结果就行”的思路。其实对于长期使用者，更重要的是可复用性。今天你只是想让 AI 回答几个问题，明天可能就想把同一份内容拆成博客，后天又想加进产品帮助中心。如果第一次转换时完全不管结构、元数据和图片路径，后面每次都会重复返工。另一个误区是追求“全自动完美保真”。现实里不存在对所有复杂 PDF 都 100% 完美的自动转换。更现实的做法是接受“80% 自动 + 20% 轻整理”，把人工精力用在最影响质量的部分，而不是纠结每个空行和每个视觉细节。第三个误区是忽略文档权限和隐私要求。若 PDF 含有敏感业务信息、用户资料或未公开产品方案，除了看结果质量，也要看处理链路是否明确说明文件会自动删除。

如果今天就要开始，最省力的做法是什么

最简单的起步方法，不是一次处理几十份 PDF，而是先拿三类典型文档各试一份。第一份选纯文字说明书，验证标题和段落保留效果。第二份选带表格的文档，验证表格稳定性。第三份选一份扫描件或混合件，验证 OCR 后的效果。这样你很快就能知道：哪些 PDF 可以直接转，哪些必须先 OCR，哪些表格需要额外人工。对当前站点来说，也建议按这个顺序走：先在 [PDF 转 Markdown](/convert/markdown) 里试纯文字文件；若文本选不中，先去 [PDF OCR](/convert/ocr)；若文件很大，先 [压缩 PDF](/convert/compress)；若发现协作对象更需要可编辑文件，再转到 [PDF 转 Word](/convert/word)。这条链路足够稳，也适合以后反复使用。

关于 PDF 转 Markdown 的常见问题

很多人会问，转换后为什么还需要手动整理？原因很简单：PDF 本来就不是为语义结构设计的，尤其是复杂版式、跨页表格和扫描件，工具只能尽量推断，不能保证对每一份文档都完全准确。也有人担心 Markdown 太“技术”，团队难以接受。实际上如果只是把它作为知识库中间格式，日常使用者根本不需要直接接触 Markdown，他们只会看到 AI 回答更稳定。还有人关心文件隐私。在线处理时，应优先选择明确说明自动删除策略的服务，避免把敏感 PDF 交给数据去向不清晰的平台。最后一个常见问题是：转出来的 Markdown 能不能直接发布？答案是可以，但前提是你愿意为面向用户的发布页再做一次精修，尤其是导语、标题和内链，这样内容质量才真正达到可公开索引的标准。

最后的判断标准：这份 PDF 是否值得转成 Markdown

归根结底，判断一份 PDF 是否值得转成 Markdown，可以回到三个问题。第一，这份内容未来是否还要被机器反复读取？如果要，值得转。第二，这份内容的价值主要来自文字结构还是视觉排版？偏前者，值得转；偏后者，未必。第三，你是否愿意接受“先转换，再轻整理”的流程？如果愿意，Markdown 会在后续知识库、AI、文档发布中持续省时间。对多数产品、研发、运营和内容团队来说，答案往往是值得。因为一旦把 PDF 里的信息从“锁住的版式”变成“可处理的结构”，后面无论是搜索、问答、重写还是再发布，效率都会高一截。

PDF 转 Markdown

把 PDF 转为适合 AI、知识库和写作工具使用的 Markdown。

已用于大量 PDF 处理任务

上传 PDF，保留标题、段落、表格和图片引用，输出 .md 或包含图片目录的 ZIP。

拖拽 PDF 文件到这里

单个文件最大 500MB

图片处理方式

外链图片目录（ZIP，推荐）内嵌 base64 图片（单个 .md）忽略图片，仅保留占位

在页面之间插入分隔线

免费在线将 PDF 转为 Markdown，保留标题、段落、列表、表格与图片引用，支持外链图片、base64 内嵌或忽略图片。适合 AI 知识库、博客编辑和文档再利用。

功能介绍及特性

结构化文本
保留标题、段落、列表和表格，输出常见编辑器可读的 Markdown。
三种图片策略
支持 ZIP 外链图片、base64 内嵌图片或忽略图片占位。
适合 AI 工作流
输出可直接导入知识库、Cursor、博客编辑器或 LLM 上下文。

操作步骤说明

1
上传 PDF
选择一个最大 500MB 的 PDF 文件。
2
选择图片模式
根据使用场景选择外链、内嵌或忽略图片。
3
下载 Markdown
转换完成后下载 .md 或包含图片目录的 ZIP。

常见问题

Q扫描版 PDF 能转出文字吗？: 不会自动 OCR。若提示内容稀少，请先使用 PDF OCR 工具识别后再转换。
Q外链图片模式为什么下载 ZIP？: Markdown 引用相对图片路径，需要和图片目录一起下载，ZIP 可以保持结构完整。
Q表格会保留吗？: 会尽量输出 GitHub Flavored Markdown 表格，复杂版式可能需要手动调整。

查看更多常见问题 →

…