我用扫描仪 扫了一本一些文件。保存为了PDF文件。现在想把里面的文字提取出来。有谁知道怎么提取吗?谢谢

来源:百度知道 编辑:UC知道 时间:2024/07/02 07:17:16
我用扫描仪 扫了一些文本文件。保存为了PDF文件。现在想把里面的文字提取出来。保存为TXT或者DOC格式。请问有谁知道怎么提取吗?

早上才试过
觉得OCR的识别能力不匝地,可能出现乱码
如果只要文本,而不强求格式的话,用ACROBAT里面的 另存为 TXT格式最好了,文本基本不出错
我用的是Acrobat-7.05-PRO

比较简单的办法是将图像中的文字识别出来,然后就可以用翻译软件读取了。

你可以这样去做:
一、将PDF文件中的各页图像提取出来
1)使用Adobe Acrobat软件
2)在上面菜单上选文件>导出>提取图像为>JPEG文件(其他二种也行,JPEG文件比较小)
3)按提示,选择一个适当的文件夹,保存图像
二、安装一个文字识别(OCR)软件用来识别已提取的图像
本人推荐汉王文本王。理由:
1)识别率高,可识别英文、表格等
2)可以直接输出成WORD文件
三、保存为WORD文件

可以使用一下尚书七号。也可以使用OFFICE 2003自带得documenting image