有道对某些PDF格式可以取词,但对另一些PDF就不取词了。是PDF 的问题吗

来源:百度知道 编辑:UC知道 时间:2024/07/04 07:32:23

是pdf的问题,因为有些pdf是由可编辑的文本转换而成的。而有些则是以图片形式(如扫描后的图片,jpge)制作而成的。由文本转换而成的就可以取词,否则就不能。

判别方式很简单,如果在pdf里面能进行文本复制操作的,一般就能取词(当然,设置了禁止取词的除外)

是的,作者制作 PDF时设置了权限