怎样提取pdf电子书离得文字

来源:百度知道 编辑:UC知道 时间:2024/09/21 10:55:15
pdf格式的电子书 ,里面是图片,怎样吧图片上的文字提取出来???

搜软件:书生一号
此软件可以将图片中的中文提取出来保存为文字文档。

如果PDF文档是通过扫描纸质文件生成的,可以借助OCR文本识别技术来导出文字。
在adobe acrobat里可以操作菜单“文档”→“OCR文本识别”→“使用OCR识别文本”,经过识别以后,就可以用“选择工具”选中文字进行复制了。
adobe reader没有自带OCR文本识别功能,但可以这样操作,操作菜单“文件”→“打印”,打印机名称选择“Microsoft Office Document Image Writer”,这是一个随Microsoft Office 2003一起安装到计算机里的虚拟打印机,它将PDF文档打印到后缀为“mdi”的文件里,并自动打开,在打开的“mdi”文件里依次操作菜单“工具”→“使用OCR识别文本”和“工具”→“将文本发送到word”就可以将文字导出到一个Word文档里。
OCR文本识别技术的识别率取决于创建PDF文档时的扫描精度,那些字迹模糊不清的文档,能够正确识别出的文字也不会太多。

http://hi.baidu.com/d%5Fzzn0470/blog/item/f3784fb16e20dc5c09230280.html

目前还没有那么先进吧,可以把图案与文字组合而成的图片分离出来,除非有原制作的图片存在其中。