扫描pdf的识别

来源:百度知道 编辑:UC知道 时间:2024/06/30 16:56:55
还请请回答者看清我的问题再回答,谢谢了

1.一些pdf是扫描的来的,里面内容看上去很不好,而且内容不能复制,现请问是否可以使得该pdf文档内容可以复制,我知道acrobat有个ocr识别功能,可以达到目标,请教其他方法

2.1中使用acrobat中ocr识别的pdf,其内容仍然不宜观看,如字体倾斜,字体模糊等,可有方法处理下

烦请达人指点下,万分感谢,谢谢了

既然是扫描来的,那做成PDF也就是图片格式了。

用Adobe Acrobat 8 Professional系列或者第三方转换软件SolidConverterPDFv4之类的,把那些图片进行转换,输出为TXT格式。
但这个的提前是你扫描的时候,分辨率要高些,不然可能会输出为空白的TXT。

至于楼主说“使用acrobat中ocr识别的pdf,其内容仍然不宜观看,如字体倾斜,字体模糊等”,那是你源文件扫描时分辨率不高,扫描设置的问题,你可以用OCR软件进行识别(像紫光OCR、汉王等)。然后再进行排版。
但OCR软件的识别率也不是100%,它会把源文档的很多线条什么的也都进行识别,造成误判。

不知道这样解释,楼主清楚没?
不清楚的地方可以M我
chyidc@sohu.com
27487521

其实可下个PDF文件转换成WORD 的程序 使用ORC识别时 也要每一步修改的

你必须使用扫描仪软件来进行扫描。

可以使用PDF编辑器 Foxit PDF Editor 来对PDF文件进行编辑。

我知道我的回答你不满意,但我还是要说,总之一句话软件是人编的。软件没有那么智能,转换出来的格式是很不如人意的,借一楼的一句话。转换出来后还是要一步步修改的。麻烦