回帖:东方宗亲:
所谓图文电子化是指将纸质印刷品内的文字识别成可以编辑的文字这一过程(这是我的定义,不一定准确)。有以下几个步骤:
1.将含有文字表格的纸质印刷品内容,通过扫描方式形成图像文件。
2.采用自动文字识别软件,对图像文件进行文字识别,形成文本文件。
3.对照原文,校核修改,还原成与纸质内容一致的可编辑文档。
我个人的经验体会,这三个过程的要点如下:
1.被识别的纸质文档必须文档规范,字迹清晰,不论繁简体均可,但手写体不行,竖版识别我没试过。扫描的图像文件分辨率越高,识别率也越高,但耗时越多,以黑白照片模式为佳,最好不用彩色方式。
2.选择识别率比较高,附加功能比较多的识别软件,我用的清华同方OCR6.0 为多,现在用7.0了。
3.上述两个过程如果比较理想地完成,则校核工作量大大减轻,但一定要校核至少两遍以上,因为有时不仅仅是自己使用,如果与原文不符,传播开来,自己是有责任的。我在整个电子化过程中花费时间最多的是校核与编辑。
其他体会,等想到了再回复,上班前匆匆。
南山 2011.08.01