Düşündüğüm uygun biçimde olmayan pdf'lerden tablolar çıkarmaya çalıştım. Bu pdf'lerdeki tablolar bir tablo biçimine sahiptir, ancak doğru kenarlıklarla düzgün şekilde kapatılmamıştır. Örnek pdf'yi ekleyeceğim ve her iki kütüphaneyle de çıktı alacağım. Tablo algılaması için tabula'yı kullanmaya çalıştığımda, pdf'deki tüm sayfalarda boş bir veri çerçevesi döndürülür.
tek sayfalar için 0, tümü için 1, belirli sayfa için 2 girin: 2 sayfa numarasını girin: 25 bu sayfada tabula tarafından tablo bulunamadı.
Ve camelot kullandığımda kullandığımda aynı yanıt yok flovor='lattice'
tek sayfalar için 0, tüm sayfalar için 1, tablolardaki sayfalar için 2 tabula tarafından algılanır, belirli sayfalar için 3 girin: 3 kafes için 0 veya akış için 1 girin: 0 sayfa numarasını girin: 25 bu sayfada camelot tarafından tablo bulunamadı.
ve kullandığımda flovor='stream'
Sekmeyle ayrılmış verilerle satır satır okunan her satıra sahip bir veri çerçevesi alıyorum, ancak normal metni de bu veri çerçevesine dahil edecek.
tek sayfalar için 0, tüm sayfalar için 1, tablolardaki sayfalar için 2 tabula tarafından algılanır, belirli sayfalar için 3 girin: 3 kafes için 0 veya akış için 1 girin: 1 sayfa numarasını girin: 25
Tabloyu algılamak ve dikey çevreleyen tablo çizgileri yoksa aynı verileri ayıklamak için etkili bir yola ihtiyacım var. Tablo dikey ve yatay çizgilerle çevrelenmiş uygun biçimdeyse, hem tabula hem de camelot kitaplıkları iyi çalışıyor.