+-
在Python中从PDF中提取超链接
我有一个PDF文档,里面有几个超链接,我需要从pdf中提取所有文本.
我使用了PDFMiner库和 http://www.endlesslycurious.com/2012/06/13/scraping-pdf-with-python/中的代码来提取文本.但是,它不提取超链接.

例如,我的文字显示为Check this link out,并附有链接.我能够提取单词Check this link out,但我真正需要的是超链接本身,而不是单词.

我该怎么做呢?理想情况下,我更喜欢用Python来做,但我也愿意用其他任何语言来做.

我查看了itextsharp,但没有使用它.我在Ubuntu上运行,并希望得到任何帮助.

最佳答案
我认为使用PyPDF你可以做到这一点.如果要从PDF中提取链接.我不知道我从哪里得到它,但它作为其他东西的一部分存在于我的代码中.希望这可以帮助:

PDFFile = open('File Location','rb')

PDF = pyPdf.PdfFileReader(PDFFile)
pages = PDF.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'

for page in range(pages):

    pageSliced = PDF.getPage(page)
    pageObject = pageSliced.getObject()

    if pageObject.has_key(key):
        ann = pageObject[key]
        for a in ann:
            u = a.getObject()
            if u[ank].has_key(uri):
            print u[ank][uri]

我希望这应该给你的PDF中的链接.
P.S:我没有广泛尝试过这个.

点击查看更多相关文章

转载注明原文:在Python中从PDF中提取超链接 - 乐贴网