大致思路是首先解除密码限制,然后导出为HTML格式,去除无关信息、修正乱码等,然后用ePubBuilder导入,完善书籍信息,分章节,自己用阅读器打开检查有无严重错误,然后发布。为什么要转为HTML,因为这种格式完全开源,好处理,出错率低,也和EPUB内部保存格式一致。
首先指明一点,以下的步骤最后要达到的排版上的目标是:所有图片都能正常显示,但都默认靠左(有些阅读器可以设定图片强制居中显示)。文字段落和图片分开,文字不会环绕图片,也就是不会左边一半是图,右边一半是文字。虽然那样效果更好,但难度太大,不易实现。
1、如果加密了,使用PDF Password Remover移除PDF文件加密限制。加密问题后面还会具体讨论。
2、用Acrobat打开,菜单中
文件,另存为(或导出),选择生成HTML3.2格式(无CSS)。生成的时候可能比较慢,一定要耐心等,不要乱点鼠标,容易死机。根据经验,这里不选择HTML4.0(CSS1.0),尽管后者有CSS的支持,排版按理说会更好,但事实上导入ePubBuilder中出错率大增,效果也并不好。
3、在浏览器中查看,有没有明显的错误,比如根本打不开,全是乱码,没有中文,没有图片等。全是乱码可能是HTML编码的问题,没有中文可能是PDF字体、编码的问题,没有图片或许是HTML链接的问题,解决起来很麻烦,也不一定对。如果真遇到这样的严重问题,我也无能为力了。不过幸运地是,只要PDF比较正常,不会出现这种问题。
这里简要说明一下,HTML一般由源文件和数据文件夹组成,如“摄影.html”和对应文件夹“摄影_files”,文件夹也有可能是其他名称,如images,源码和数据文件夹通常要放在同一父文件夹下,文件夹中主要为图片等多媒体文件,可能还有CSS样式表、Javascript脚本一类的东西,在PDF导出的HTML3.2中,基本上只会是图片。而html源文件其实是文本文件,用记事本就可以打开,后面我们会用Notepad++直接操作HTML源文件。
4、从这一步开始,我们需要修正HTML的各种问题,会涉及一些可能不好懂得知识。对于了解HTML和正则表达式的人,应该能很快明白。不懂的话照着做就可以了。如果你在上一步打开HTML时感觉排版已经很好了,而且没有多余的东西,可以直接跳过HTML修正的这些步骤,直接导入到ePubBuilder看效果如果。
5、用Notepad++打开HTML文件,我们可以看到其源码如图。
6、替换删去html源码中align代码以去除图片文字指定的对齐,使其默认左对齐。具体方法是,按Ctrl+H,或菜单中 搜索 –
替换,“查找模式”为“普通”,“查找目标”为align=”center”,,“替换为”这个框不填,勾选“循环查找”,然后点击“全部替换”。如果一次处理多个文件,则全部打开,点击“替换所有打开文件”即可。同样,“查找目标”分别改为align=”left”,align=”right”,align=”justify”,全部替换。再次打开HTML时,你会发现原先位置有些混乱的图片看上去好多了。如果有些图片确实是居中更合适,可以不全部替换,或者在后文还会利用Word来修改。
这个版式就有点乱,原因就在于有些图片靠右对齐,有些靠左,还有的文字设定了两端对齐。
7、替换删去页眉等干扰图文(使用正则表达式)
一般的图书都会有页眉和页脚,例如图中红色框出的部分,还有像页码一类的标注。这些信息在生成EPUB后完全没有意义,因为EPUB在不同情况下页码分布并不一样。了解Word的人知道,在图书编辑时,页眉是可以批量编辑修改的,但是生成PDF之后页眉页脚变成了分别独立的对象,没办法同时删除。
如果页眉是文字,将在下一步处理,源码中有可能文本采用的是转义字符,看不懂的情况下也不便修改。如果页眉含有图片,如图中的数字02,需要通过HTML源码进行替换。方法如下。用Chrome和Notepad++同时打开HTML文件,在Chrome中右击页眉图片,审查元素,底下会有个显示源码的窗口,看清width和height后面对应的表示图片宽高的数字,切换到Notepad++,还是使用替换功能,首先把“查找模式”改为“正则表达式”,取消勾选“匹配大小写”,勾选“.
matches newline”,其他选项不变,查找目标为
<[^<>]*IMG[^<>]*width=”39″[^<>]*height=”71″[^<>]*>
注意中间没有任何空格,width和height后面的数字是刚刚在Chrome中看到的数字,然后全部替换,保存文件,但不要关闭Notepad++。这时,宽度和高度符合要求的图片就没有了。然后在Chrome中刷新,看修改后有没有问题,如果有问题,在Notepad++中撤销更改,然后得针对实际情况具体分析(此处略去)。一般在Chrome中还能看到一些页眉没有被替换掉,原因是他们的宽高可能与之前的有所差距,这时只需重复前面动作就行了。
采用转义字符(形如& # 20154 ;)表示的汉字,很难看明白:
8、用word进一步编辑
这一步完成后HTML就会接近完美了,所以也很关键。用Word打开HTML(不推荐其他软件,因为包含整本书的HTML文件一般很大,很多软件打开很容易死机,如WPS、DreamWeaver,而Word2010在这方面优化的不错,2003版的不清楚),打开后可以全选修改字体等,然后替换,去除少量无法显示的字符乱码,即显示为问号(同样注意尽量不要把原文问号替换没了),替换掉重复出现的网站信息、广告等,还有就是文字形式的页眉页脚(再次强调,注意尽量不要把原文中和页眉相同内容替换没了,Word中可以根据指定字体来替换,这样比较方便),对于不是很规则的页码如:第x页,这样的信息去除,则交给ePubBuilder来完成。然后用Word把图文中排版不当的进行适度修改,不需要的目录则去除,没有严重问题即可。注意这里有个问题,如果PDF比较完整,有目录,要把目录中对应页码删除。就像这样:前言………………………………………………………………1,这个第一页在转换为HTML时就已失去意义了,没有必要保留。
另外此处注意一种常见的问题,就是个别文字是图片形式保存的,将在后文常见问题中详细说明。
Word强大的替换功能,可以指定替换前后的文字格式。
9、如果有必要的话,优化HTML文件,以便正确导入ePubBuilder。
这一步事实上可以说应该还是ePubBuilder不够完善造成的吧,用Word编辑保存后的HTML文件头部会加入很多特殊信息,如图中<meta….>,还有绿色的<!–……….–>部分(在标准的HTML中这种形式的文本为注释,删除后没有影响)等,另外还有图片的链接问题。这些问题有时会影响ePubBuilder导入,出现一些错误。如果出现了错误,请尝试使用浏览器打开另存,用Notepad++删除绿色的<!–……….–>部分。
如果还是不行,使用用WPS新建文档(Word不行,WPS生成时会重新链接图片,Word则不会),用浏览器打开HTML,全选并复制网页内容,粘贴到WPS,保存为HTML。此时HTML文件会完全重新生成,但图片可能会被WPS转为png,占用空间一般会增大,不推荐。
10、如果用了WPS重新保存,请查看HTML文件的图片文件夹大小,如果过大,有必要压缩一下
压缩方法如下:
用数码照片压缩大师添加文件夹,输出jpg保存到另一文件夹,然后用Notepad++打开HTML源码,可以找到类似
<IMG 。。。 width=”711″ height=”911″ src=”images/img_0.png”
。。。>
这样的图片标签,然后用普通模式替换“.png”为“.jpg”。然后把图片文件夹的png图片删除,将压缩后的jpg移进去。最后用浏览器打开后确认一下。
11、用ePubBuilder导入,编辑书籍信息,分章节,智能排版等
看有没有错误,有错的话修改一下。前面可能还遗留了一个问题,页脚形如“第x页”的去除,可以使用删除特征行的功能实现。
这里我还是提出ePubBuilder的一个缺陷。你可能会发现,原先的HTML排版很好,还有字体信息等,但导入后都没有了,有些图片也会有些小问题,比如我的HTML如图,但导入后,字体格式没有了,文字、图片居中没有了而且原先在“摄影大师之道”左边的那个红框位置就完全乱了,这个我目前还没有好的对策,期待着ePubBuilder功能继续完善吧。
12、导出EPUB,用掌上书苑或者其他查看器再查看一下是否正常。然后发布,等着审核通过拿书币吧^_^。是不是觉得这书币拿的格外开心呢?