首页 » 桌面开发 » 正文

批量Word转HTML – ConvertWordToHTML[Update: Word转换工具]

最近遇到一个需求是需要将Word批量的转换为HTML。

如果是比较少量的Word文件,可以用Word自带的“另存为”即可。但是如果Word文件的量比较大的话,这是一件比较复杂的事。

上网查了很多资料,有PHP,Python,Ruby和C#等解决方法。其中找到一个“迅捷转换器”,不过和我的需求不是很符合,所以决定自己写一个。因为Word来自Microsoft,所以我觉得C#来解决这个问题或许会好一些。

我在GitHub上开源了一份自己写的带GUI的代码:https://github.com/hujiulin/ConvertWordToHTML [目前是单线程的,之后会改成多线程的]。

运行界面如下:

  1. 程序初始界面:

 

  1. “Open”选择一个含有Word文档的输入文件:

 

  1. “SaveAs”选择一个输出文件夹:

 

  1. 程序运行结束:

 

  1. 输入及输出结果:

程序说明:

  1. 依赖:Windows操作系统,.Net FrameWork 3.5, Office Word

  2. Word另存为HTML有几种格式可以选:单个网页mht,网页htm以及筛选过的网页htm。我选择的是筛选过的html,所有公式全部转成gif或者jpg图片,稍微规范一点的htm不会含有微软中的一些恶心的格式信息。

GitHub地址:https://github.com/hujiulin/ConvertWordToHTML

程序下载:http://devhu-github.stor.sinaapp.com/ConvertWordToHTML.rar


2015-1-24 Update:

  • Rename solution and project to WordConverter; Add feature: convert word to PDF; ADD feature switch specified ext;

Word转换工具现在已经支持HTML和PDF格式。

GitHub地址更新为:https://github.com/hujiulin/WordConverter

程序下载地址:http://devhu-github.stor.sinaapp.com/WordConverter.rar

发表评论

To create code blocks or other preformatted text, indent by four spaces:

    This will be displayed in a monospaced font. The first four 
    spaces will be stripped off, but all other whitespace
    will be preserved.
    
    Markdown is turned off in code blocks:
     [This is not a link](http://example.com)

To create not a block, but an inline code span, use backticks:

Here is some inline `code`.

For more help see http://daringfireball.net/projects/markdown/syntax