Ben images / swf ve SWFTools ve xpdF yardımıyla metne bir pdf açılan ediyorum .. Ben bir PDF script bu çalıştırıyorum.
Ama şimdi ben bu bilgileri ayıklamak mümkün bir adım daha ileri gitmek ve PDF TOK almaya çalışmaktır çalışıyorum?
Ben arama biraz ile bu buldum. Bu oldukça umut verici görünüyor.
PDFMiner: http://www.unixuser.org/~euske/python/pdfminer/index.html
Not: aracı tabanlı Python, ama kabuk erişimi aracılığıyla aracını kullanmak gerekir. Alternatif olarak, proje açık kaynak gibi, kaynak kodunun kendisi bazı yararlı bilgiler toplamak mümkün olabilir.
Siteden:
dumppdf.py
dumppdf.py pseudo-XML formatında bir PDF dosyasının içeriğini iç döker. Bu program hata ayıklama amacıyla öncelikle, ancak (resimler gibi) bazı anlamlı içeriğini ayıklamak da mümkün.
Examples:
$ dumppdf.py -a foo.pdf (dump all the headers and contents, except stream objects) $ dumppdf.py -T foo.pdf (dump the table of contents) $ dumppdf.py -r -i6 foo.pdf > pic.jpeg (extract a JPEG image)
Alternatif olarak, size, görüntüleyebilir dökümü ve PDF dosyalarından bilgi elde bazı araçlar bulacaksınız apps/
alt dizini C yazılı oldukça hafif ama tam bir PDF uygulamasıdır MuPDF hangi kullanabilirsiniz . Aktif korunur ve daha iyi PDF desteği vardır çünkü xpdf'te üzerinde MuPDF tercih ederim.
Aksi takdirde, her zaman Poppler ki orada aslında xpdf'te dayanmaktadır. Geliştiriciler C + + için kodunu taşıdık. Bu nedenle, selefinden daha kötü yapar bulunuyor. MuPDF karşılaştırıldığında, Poppler biraz daha fazla özelliklere sahip gibi görünüyor, ama karşılığında kod çok daha karmaşıktır.
Amaçlarınız için MuPDF rağmen yeterli olmalıdır. Birlikte harici uygulamalar dayanmadan ihtiyacınız olan tüm bilgileri ayıklar apps/
sağlanan örnek kod basit bir uygulama kesmek olabilir.
I PHP's PDFLib başlamak için çok iyi bir yer olurdu bakarak düşünüyorum. Aşağı gidin, HTML veya Metin PDF PDF dönüştürmek için kullanıcı nakledilen çözümleri bol göreceksiniz. Dönüşümden sonra, nispeten basit bir maç işlevi etiketli içindekiler öğeleri ayıklamak ve siz lütfen daha sonra işleyebilirsiniz, örneğin bir dizi, atıyorlar.
This StackOverflow post da biraz daha fazla çözümü vardır.
Umarım bu yardımcı olur.