【电子辞典】自制 Mdict(图像版)之图片裁剪、分栏和优化

自己制作或改版图像版词典也有不少时间了,这么些个时间也积累了一点自己制作图像版词典的经验,在此记录备忘,同时也做为制作教程分享。

其实制作词典不难,我本身就是从小白的状态过来的,从对 Mdict 一无所知到能初步地制作自己需要的词典,文本版的、图像版的都有制作过,当然还是以图像版的为主,毕竟许多高质和较新的辞典还是只有图像资源。而这一切只需要从动手开始,运用合适的工具和研习前人留下的经验,很快你就能制作出一个像样的词典。使用自己亲手制作的辞典和从网上下载的辞典体验是不一样的,自己做的辞典每每使用都巴不得多翻几下子,就像自己的私有财产样,没有谁比你更了解它了。

关于图像版辞典,相对文本版制作起来简单许多,其实是小白制作 Mdict 辞典的最佳入门之选。图像辞典制作的核心不外乎就是词头提取和图片处理,词头提取目前的方法很固定,也就是 OCR 识别和校对,比较机械也比较累,但很重要,不过这里不谈,本文只谈图像的处理。本文同样适合小白阅读,我也最喜欢写小白文章了。

图片处理原则

在此之前,说下个人图片处理的原则。图片处理微观上就是对像素点进行调整,由于我们制作的辞典一般是白纸黑字的辞典,所以实质上就是处理这些黑色像素点,它们是信息的唯一载体,处理中丢失了是不可逆的。因此我都是尽量保持无损操作(文件上一般用 png 或无损的 tif),虽然占硬盘,但不失真,到一切都处理完了,最后再根据需要进行体积上的优化。所以处理中每一步我都会很小心,哪怕是从最初的 PDF 导出为 PNG,都要无损导出,PDF 导出可以用 Acrobat 的功能,能最大保证原图:

对辞典的图片处理的需求主要就是两点⸺裁剪优化一般先裁剪后优化。在图片处理的摸索过程中,试过许许多多的图像处理软件,有 PS、IrfanView、Scan Tailor、ComicEnhancerPro、A-PDF PageCut 等等,还有一些其它各种各样的小玩意儿,最终大浪淘沙,主要使用的也就是上面列举的 IrfanView、Scan Tailor、ComicEnhancerPro 这三个图片处理工具,已经够常见的处理了,再需要一些奇怪的操作,就偶尔请笨重的PS出山。下面就分别从这两个方面进行个人处理方式的介绍:

一、图片的裁剪

对于切边和分栏这两个处理,如果图片比较统一、规则的话通过 Scan Tailor 可以一步到位;但如果不行的话(一般是因为不能一次完美切边),那就可能就需要交叉进行,以保证最好的处理结果。对于双栏的图片,要制成单栏,我一般的处理流程大致是:
①将整页进行切边
②进行分栏
③(可能需要)将得到的分栏再进行切边

下面就切边分栏依次进行介绍:

(一)裁剪边界(即切边)

对于图片的切边,对软件要求的核心功能其实就是能准确地自动框选到正文内容,然后剔除框外的部分就好了。因此单对于自动切边这个功能,ComicEnhancerPro 和 ScanTailor 都可以做到,效果都不错,并且 ComicEnhancerPro 会相对稍强些,IrfanView 虽也有个「自动裁剪边框」功能但较弱。个人常用 ScanTailor,一般切边的同时都会进行纠斜的。ScanTailor 软件的处理逻辑比较特别,每次处理它都会跑满所有的 6 个步骤(你要手动点击运行最后两个选项Margins和Output),所以你如果只想使用它其中的个别功能就要注意设置好其它的功能选项,以避免造成干扰;另外,Scan Tailor 处理是以 tif 文件处理的,所以处理其它文件需要一个转换过程,比如 png⸺tif 的转换,所以会慢些。仅仅是纠斜+切边+加白边的话,下面是我的设置(按照操作就行了):

添加图片所在文件夹

① Fix Orientation 项,不动默认

② Spilt Pages 项,分栏功能,为避免造成干扰,设置全页并手动

③ Deskew 项,纠斜功能,设置自动

④ Select Content 项,框选正文功能,不动默认(如果你动了并设置自动并应用到全部可能会导致部分页面的正文被切到了)

⑤ Margins 项,加边功能,设置完点击相应的黑色播放按钮运行

⑥ OutPut 项,设置完点击相应的黑色播放按钮运行

运行完成后就可以在 out 文件夹中看到结果(注意:Output 时最好就选择 Color / GrayScale,不要选择 Black / White,它的二值化不太行,损失较多,有需要的话可以完成后去 IrfanView / ComicEnhancerPro 进行二值处理)。下面是处理结果:

疑难一

如果发现 Scan Tailor 内容框选识别还不够准确的话,可以试试 ComicEnhancerPro 看识别会不会好点(看图中绿框),它有更细致的参数设置(导航到:显隐参数栏⸺切边⸺设置):

疑难二

还有,如果一次没有切干净或有特殊情况,怎么办,就像这样,顶上还有一部分/一条线:

把两边和底部加白边,顶部不加边,再去 Scan Tailor 看看能不能处理。如果仍行不通的话,那可以先用 IrfanView 将顶部的一部分切掉(只要破坏顶部文字的完整性就行)。在 IrfanView 中,先比量要切割的像素高度,再去批量处理即即可:

之后 Scan Tailor 应该就能准确框选到正文了(实际原理就是把顶部当边缘给越过)

(二)分栏

在完成了切边后再进行分栏会更好些。分栏的话,个人觉得还是 Scan Tailor 好用,能自动找到分割线(而不是机械地找 1/2 位置),如图:

具体的完整流程就不写了,参照切边的相应修改就行了(注意 Spilt Pages 项中点击 Change 后的框中是选 Manual)。如果有些书籍比较怪,或扫描得不是很好有干扰,导致 Scan Tailor 不能自动找到分割线怎么办,当然首先应该切边,将周边的干扰去掉。准备得好的话,Scan Tailor 可以分栏一步到位:

二、图片的优化

待图片裁剪工作完成之后,就可以进行最后一步优化处理。优化其实很简单,我个人一般使用 IrfanView 这一个软件就够了。这里说一下,为了不失真,一般就在无损的灰度图片下进行优化就好,虽然黑色2值化能极大地减小体积,但或多或少会损失一点黑色像素。一般对 DPI 比较高的汉语、英语辞典,可以直接粗暴的进行黑白2值化处理,既减少体积又不会看不清;但如果对于本身 DPI 不高,文字又精密的辞典如一些含公式的理工类辞典,少一点像素可能某个公式的字母可能就不清楚了,因此自己视情况定夺,对2值化或灰度优化二选一。下面就 IrfanView 相应的两个操作分别进行介绍:

(一)黑白2值化处理

可以直接进行批量处理,依次导航到:文件⸺批量转换/重命名⸺高级,然后勾选色深部分就行

(二)灰度图片优化

图片优化目的就是提升视觉效果。为什么要优化,看看下面的对比就知道了:

优化灰度图片一般调整对比度、Gamma值这两个就够了,可以先对单张图片调试找到最佳效果的值(选项在:图像⸺色彩增强),然后再进行批处理。找到最佳效果的对比度和Gamma值后可以去批处理,如图:

最后

上面写了一些主要的操作和个人经验,篇幅有限,很多问题或技巧未能详尽,仅供参考,最终操作还是要结合自己实际情况来进行相应的调整。辞典的制作最大的追求就是自动化处理,能自动化的就自动化,能批处理的就批处理,能不手动尽量不手动,除非没办法,所以工具还是很关键的,不过目前针对一些不统一、不标准的扫描图像还是有需要有手动处理的部分,因此,如有朋友有更好的工具望不吝推荐。

1 comment on “【电子辞典】自制 Mdict(图像版)之图片裁剪、分栏和优化

发表评论

电子邮件地址不会被公开。 必填项已用*标注