Spire.Doc利用word样式读取word文字内容(.NET)

发布于:2023-04-27 ⋅ 阅读:(598) ⋅ 点赞:(0)

认识Spire.Doc的样式

1、Section是按分节符计算的。
2、section.Paragraphs是每节的段落。所有的内容都是段落。
3、注意分析“段落样式”相关的属性。可参考【教程】Spire.Doc系列教程(8):C# 根据 Word 的标题样式获取文字,但是要注意依据实际情况判断。本实验中发现ParagraphStyle paraStyles = paragraph.GetStyle(); string res= paraStyles.Nameparagraph.StyleName结果有差别,考虑到本实验文本具体情况,选用了paraStyles.Name
在这里插入图片描述
在这里插入图片描述

提取word内容的思路

注意,一般都是要分析word文档组成,难有通用的提取方式。本实验是通过样式+字符串匹配的方式进行提取word内容。

   public void testReadWord2()
        {
            string tempPath = @"E:\……\word\test1.docx";   
            //创建Document对象
            Document doc = new Document();
            //加载Word文档
            doc.LoadFromFile(tempPath);
            //遍历章节
            foreach (Section section in doc.Sections)
            {
                //遍历段落
                Console.WriteLine("段落数:" + section.Paragraphs.Count);
                for (int i = 0; i < section.Paragraphs.Count; i++)
                {
                    Paragraph paragraph = section.Paragraphs[i];  
                    ParagraphStyle paraStyles = paragraph.GetStyle();                    
                    Console.WriteLine("段落内容:" + paragraph.Text + "===段落样式:paraStyles.Name:" + paraStyles.Name+ "===paragraph.StyleName:" + paragraph.StyleName);
                }
            }
        }
        

相关链接

Aspose.Words利用word样式写入标题及正文(.NET)

没有找到较好的Aspose.Words读取word的教程。


网站公告

今日签到

点亮在社区的每一天
去签到