Linux üzerinde. Doc dosyaları okumak için PHP Başlarken

8 Cevap php

Ben bu içeriği var ben olabilir endeksi böylece bir veritabanına. Doc dosyasını okumaya çalışıyorum. . Doc dosyalarını okumak için Linux üzerinde PHP için kolay bir yolu var mı? Aksi taktirde bu. Doc dosyaları RTF, PDF veya okumak kolaydır diğer bazı 'açık' biçimine dönüştürmek mümkün mü?

Ben. Docx dosyaları ilgilenmiyorum, unutmayın.

8 Cevap

Orada bir library for accessing Word documents gibi görünüyor ama PHP erişmek için nasıl emin değil. Ben iyi çözüm PHP kendi wv command aramak olacağını düşünüyorum.

Conor, makro çağrı / OpenOffice komut satırı arayüzü bakmak öneririm. Bu diğerleri için birçok dosya formatlarını dönüştürebilirsiniz. O zaman çok daha fazla ayrıştırma mümkün MS doktordan daha bir şey seçebilirsiniz.

Örneğin, PDF dönüştürmek için, bir komut satırı:

/usr/lib/ooo-2.0/program/soffice.bin -norestore -nofirststart -nologo -headless -invisible   "macro:///Standard.Module1.SaveAsPDF(demo.doc)"

phpLiveDocx Zend Framework bileşeni olan ve Linux, Windows ve Mac üzerinde PHP DOC ve RTF dosyalarını okuyabilir ve yazabilir. Ayrıca, PDF dosyaları oluşturmak için kullanabilirsiniz ve hatta MS Word veya Open Office ile oluşturulan şablon dosyaları içine PHP veri birleştirme!

De proje web sitesine bakın:

http://www.phplivedocx.org

Sen antiword kullanabilir veya AbiWord metni çekin ve en sevdiğiniz tam metin dizinleyicisine onu beslemek için. Bu RTF dönüştürmek çünkü AbiWord muhtemelen amaçlar için daha etkili, PDF ve diğer formatlar (evet, bir GUI kelime işlemci, ama aynı zamanda komut satırı kullanımını destekler).

Ubuntu bir unoconv paket bulundu. Bu OpenOffice tarafından desteklenen tüm formatları arasında dönüşüm yapar. Bu programı çalıştırmak için php exec kullanmak gerekir.

Microsoft, bir süre önce specification for the .DOC format a yayınladı.

PHP değil, ama bir doc2rtf yarar orada kullanmak ki var. Oradan sadece, bir metin belgesi olarak RTF dosyası açmak RTF biçimlendirme kodları kaldırmak için bazı dize değiştirme rutinleri yazmak ve indeksleme için uygun metin bir topak olabilir.

Alternatif olarak, OpenOffice almak ve MS Word belgelerini açabilir ve sadece> Farklı Kaydet> RTF dosyası olabilir.

DOC dosyalarını onlarla ilgili herhangi tamamen php yazılı sınıfları olmamıştır ikili biçimde saklanır.

RTF dosyaları, ayrıştırmak çok daha kolay çoğunlukla sadece fopen ile açmak ve içeriğini okumak metne ediliyor.

Gerçekten DOC dosyaları için bir ses çözümü henüz yok gibi ben, eğer RTF kullanarak öneririm.