+-
我有一个PDF文档,里面有几个超链接,我需要从pdf中提取所有文本.
我使用了PDFMiner库和 http://www.endlesslycurious.com/2012/06/13/scraping-pdf-with-python/中的代码来提取文本.但是,它不提取超链接.
我使用了PDFMiner库和 http://www.endlesslycurious.com/2012/06/13/scraping-pdf-with-python/中的代码来提取文本.但是,它不提取超链接.
例如,我的文字显示为Check this link out,并附有链接.我能够提取单词Check this link out,但我真正需要的是超链接本身,而不是单词.
我该怎么做呢?理想情况下,我更喜欢用Python来做,但我也愿意用其他任何语言来做.
我查看了itextsharp,但没有使用它.我在Ubuntu上运行,并希望得到任何帮助.
最佳答案
我认为使用PyPDF你可以做到这一点.如果要从PDF中提取链接.我不知道我从哪里得到它,但它作为其他东西的一部分存在于我的代码中.希望这可以帮助:
PDFFile = open('File Location','rb')
PDF = pyPdf.PdfFileReader(PDFFile)
pages = PDF.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'
for page in range(pages):
pageSliced = PDF.getPage(page)
pageObject = pageSliced.getObject()
if pageObject.has_key(key):
ann = pageObject[key]
for a in ann:
u = a.getObject()
if u[ank].has_key(uri):
print u[ank][uri]
我希望这应该给你的PDF中的链接.
P.S:我没有广泛尝试过这个.
点击查看更多相关文章
转载注明原文:在Python中从PDF中提取超链接 - 乐贴网