markitdown
markitdown简介
- 将文件和办公文档,如pdf,doc等转换为Markdown的Python工具
- 项目仓库:https://github.com/microsoft/markitdown
- 支持将如下格式文件或文档转为markdown
- PDF
- PowerPoint
- Word
- Excel
- Images (EXIF metadata and OCR)
- Audio (EXIF metadata and speech transcription)
- HTML
- Text-based formats (CSV, JSON, XML)
- ZIP files (iterates over contents)
markitdown相关文章
Docling
Docling简介
Docling特征
- 🗂️能读取流行的文档格式(PDF,DOCX,PPTX,XLSX,图像,HTML,AsciiDoc和Markdown)并导出为HTML,Markdown和JSON(嵌入和引用图像)
- 📑高级PDF文档理解,包括页面布局,阅读顺序和表格结构
- 🧩统一的、富有表现力的表现格式
- 🤖轻松集成LlamaIndex和LangChain,实现强大的RAG / QA应用程序
- 🔍支持扫描PDF的OCR
- 💻简单方便的命令行
Docling相关文章
marker-api
Marker
原文链接:https://i68.ltd/notes/posts/241205-doc2md/