Document Understanding

Document Understanding Process Template #3



Merhaba bu yazımızda Document Understanding Process Template’de Classify Workflowunun işlevleri konularına değineceğiz, şimdiden iyi okumalar.

Classify Document Scope – Classify

Classify Document Scope – Classify aktivitesi, bir belgeyi belirlenen sınıflandırıcılar (ML, anahtar kelime veya regex) kullanarak doğru kategoriye ayırır, sınıflandırma sonuçlarını ilgili değişken türünde depolar ve sınıflandırıcı aktiviteleri için bir kapsam sağlayarak belge sınıflandırmasını gerçekleştirmek için gerekli tüm dosyaları sunar. En az bir sınıflandırıcı kabul eder ve parametrelerin alt sınıflandırma aktivitelerine iletilmesini sağlar.

Bu aktivitenin gövdesinde Classifier aktivitesi kullanılması gerekir. Classifier aktiviteleri, belgeleri doğru kategorilere ayırmak için makine öğrenimi, anahtar kelime veya düzenli ifadeler gibi yöntemlerle çalışan ve sınıflandırma sonuçlarını işleme aktaran araçlardır.

2 ve 8 numaralı alanda bulunan “DocumentPath” Doğrulamak istediğiniz belgenin dosya yolunu içerir. Bu ala yalnızca dizeler (strings) ve String değişkenlerini destekler.
Not: Bu özellik alanı için desteklenen dosya türleri şunlardır: .png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp ve .pdf. “in_TargetDocument” argümanına dosya yolu Main akışından import edilir.

3 ve 9 numaralı alanda bulunan “DocumentText” Belgenin kendisine ait metini içerir, bir String değişkeninde saklanır. “in_DocText” argümanı, Digitize Document aktivitesinden alınır.

4 ve 7 numaralı alanda bulunan “DocumentObjectModel” Dosyanın Belge Nesne Modeli (DOM), doğrulanacak belgenin modelini içerir. Bu model, bir Document değişkeninde depolanır ve “in_DOM” argümanı, Digitize Document aktivitesinden alınabilir.

5 ve 11 numaralı alanda bulunan “ClassificationResults” Belirtilen dosya üzerinde sınıflandırıcı dosyalarının çalıştırılması sonucunda elde edilen sonuçlar, bir IReadOnlyList<ClassificationResult> tipiyle “out_ClassificationResultsArray” argümanında saklanır. Bu alan yalnızca IReadOnlyList<ClassificationResult> değişkenlerini destekler.

6 ve 10 numaralı alanda bulunan belgenin işleneceği Taxonomy, belgelerin türlerine göre organize edilmesini ve sınıflandırılmasını sağlayan bir yapıdır. “in_DocTaxonomy” argümanı, Load Taxonomy üzerinden alınabilir. Bu alan, yalnızca DocumentTaxonomy türündeki değişkenleri destekler ve doğru sınıflandırma ile veri çıkarımının yapılabilmesi için temel bir yapı taşını oluşturur.

1 numaralı alanda bulunan “Intelligent Keyword Classifier – Classify” aktivitesi kullanılmaktadır. Bu aktivite dışında Machine Learning Classifier, Machine Learning Classifier, Regex Based Classifier aktiviteleri de kullanılabilir.

Intelligent Keyword Classifier: Anahtar kelimelerin bağlamına göre daha akıllı sınıflandırma yapar. Karmaşık belgeler için uygundur.

Machine Learning Classifier: Makine öğrenimi modellerini kullanarak belgeleri sınıflandırır. AI Center’da eğitilen modellerle çalışır.

Keyword Based Classifier: Belirli anahtar kelimelere göre belgeleri kategorize eder. Hızlı ve yapılandırılmış belgeler için idealdir.

Regex Based Classifier: Düzenli ifadelerle belgeleri sınıflandırır. Belirli format veya desenlere dayalı belgelerde kullanılır.

12 numaralı alanda bulunan “Configure Classifiers” butonuna tıklanarak hangi doküman türünde hangi Classify aktivitesinin kullanılacağı seçilebilir.

Document-Understanding-Process-18

 

 

Document-Understanding-Process-19

Intelligent Keyword Classifier Activities

Bu aktivite, kullanıcıların belge paketlerini bağlama dayalı anahtar kelime analiziyle tekil belge türlerine ayırmasını ve sınıflandırmasını sağlayan, yalnızca Classify Document Scope aktivitesiyle birlikte kullanılabilen bir UiPath Document Understanding aktivitesidir.

1 ve 7 numaralı alanda bulunan “LearningFilePath” Sınıflandırıcı verilerini içeren dosyanın tam yolunu içerir. “in_Config” argümanından “ClassifierLearningFilePath” değeri alınır.

2 ve 5 numaralı alanda bulunan “Endpoint” UiPath® sunucusunun URL adresini içerir.  “in_Config” argümanından “ClassificationEndpoint” değeri alınır.

3 ve 4 numaralı alanda bulunan “ApiKey” Hesabın API anahtarını içerir. “in_Config” argümanından “ApiKey” değeri alınır.

6 numaralı alanda bulunan “LearningData” Serileştirilmiş sınıflandırıcı verilerini içeren dize. Bu alan yalnızca dizeleri ve Dize değişkenlerini destekler. “LearningFilePath” kullanılmadığında kullanılmalıdır. Aksi halde boş kalmalıdır.

8 numaralı alanda bulunan “Send documents” Etkinleştirildiğinde, UiPath® algoritmanın performansını geliştirmek amacıyla referans belgeleri kaydedebilir. Devre dışı bırakıldığında belgeler saklanmaz, ancak algoritmanın işleyişi etkilenmez.

9 numaralı alanda bulunan “Timeout (milliseconds)” Sunucudan yanıt beklerken bir hata oluşmadan önce ne kadar süre bekleneceğini (milisaniye olarak) belirtir. Varsayılan değer 100000 milisaniye (100 saniye) olarak ayarlanmıştır.

10 numaralı alanda bulunan “PerformDocumentSplitting” Eğer işaretlenmezse, model yalnızca sınıflandırma yapar; belge ayırma işlemi gerçekleştirmez.

11 numaralı alanda bulunan “UsePageNumbers” Etkinleştirilirse, belge ayırma sonuçlarını iyileştirmek için sayfa numaralarını kullanır. Not: Optimum performans için 6.9.0 veya daha yüksek sürüm kullanılmalıdır.

12 numaralı alanda bulunan “Manage Learning” butonuna tıklanarak Intelligent Keyword Classifier aktivitesini yapılandırılır. Bu sihirbaz, belge sınıflandırma eğitimi sırasında toplanan verileri gözden geçirmek için de kullanılabilir. Bunun için, güncellenmiş bir öğrenme dosya yolu (Learning File Path) belirterek sihirbazı açabilirsiniz.

Manage Learning Sihirbazının İşlevleri:

  • Eğitim Verilerini Yönetme:
    Bu sihirbaz, belge türlerini tanımlamak ve sınıflandırmak için kullanılan eğitim verilerini yapılandırmanıza olanak tanır.
  • Eğer bir değişkenle yapılandırılmış bir Learning Data seçeneği kullanılıyorsa, sihirbaz bir dosya yolu düzenleme veya işlemi iptal etme seçeneği sunar.

Not:

  • Manage Learning sihirbazı yalnızca bir Learning File Path string ile yapılandırıldığında çalışır.
  • Bir değişken olarak ayarlanmış Learning File Path ya da LearningData string ile çalışmaz.

Document-Understanding-Process-20

Eğer bir yol belirtilmezse ve Manage Learning seçeneği seçilirse, uyarı penceresi açılır, Learning File Path talep eder. Yes butonuna tıklanır.Document-Understanding-Process-21

Aç penceresinde dosya yolu girdikten sonra sihirbaz açılır.

Document-Understanding-Process-22

 

Intelligent Keyword Classifier sihirbaz penceresi açıldığında her belge türünün eğitimine dair bilgileri şu şekilde bulabilirsiniz.

    • 1 numaralı alanda bulunan 35 dosyada eğitildi.
    • Eğitim düzenlemek için 2 numaralı alanda bulunan butona tıklanır.
    • Eğitimleri silmek için 3 numaralı alanda bulunan butona tıklanır.
    • Eğitim başlatmak için 4 numaralı alandaki butona tıklanır.

Eğitim Verileri

Eğitilmemiş belge türleri için tasarım zamanında eğitim, Eğitim Başlat (Start Training) seçeneği kullanılarak gerçekleştirilebilir.
Eğer belge türleri zaten bir miktar eğitim almışsa:

  • Silme (Remove) seçeneğiyle mevcut eğitimi silerek yeniden başlayabilirsiniz.
  • Düzenleme (Edit) seçeneğiyle mevcut eğitimin üzerine ek yaparak ekstra eğitim gerçekleştirebilirsiniz.

Not: Kullanılacak eğitim dosyaları, yalnızca tek bir belge türü örneği içermelidir. İki veya daha fazla belge türü içeren dosyalarla eğitim yapılması, hatalı eğitim verilerine yol açacaktır.

Yeni bir eğitim başlatıldığında, eğitim dosyaları ve kullanılacak OCR motoru sorulan bir ekran görüntülenir. Varsayılan OCR motoru UiPath® Document OCR‘dır. Her OCR motorunun kendine özgü özel ayarları bulunmaktadır.

Document-Understanding-Process-23

Eğitim Başlat Seçeneği veya Düzenle Seçildikten Sonra Açılan Sihirbaz

Bu sihirbaz, kullanıcıdan eğitim dosyalarını ve kullanılacak OCR motorunu seçmesini ister.

1 numaralı “File set for traning” alanında eğitilecek dosyalar seçilir.

2 numaralı “OCR Engine” alanında OCR motoru seçilir.

3 numaralı “Endpoint” alanına endpoint bilgisi yazılır genellikle varsayılan olarak gelmektedir.

4 numaralı “Api Key” alanına 2 numaralı alanda seçilen OCR motorunun Api Key bilgisi yazılmalıdır.

5 numaralı “Timeout” alanına varsayılan olarak 100000 ms değeri gelmektedir. İsteğe göre değiştirilebilir.

6 numaralı “Use Local Server” alanında, sınıflandırıcının yerel bir sunucuda çalıştırılmasını sağlayarak veri güvenliği ve bağlantı kontrolü sunan bir özelliktir; aktif olduğunda sınıflandırma işlemleri yerel sunucuda, inaktif olduğunda ise bulut sunucusunda gerçekleştirilir.

7 numaralı alanda PDF’ler için OCR Uygulama Seçeneği (Apply OCR on PDF) OCR’nin PDF belgelerine uygulanıp uygulanmayacağını belirler. Açılır listede üç seçenek bulunur:

  • True: OCR, belgenin tüm PDF sayfalarına uygulanır.
  • False: Sadece dijital olarak yazılmış metinler çıkarılır.
  • Auto (Varsayılan): Belgeye bağlı olarak OCR’nin uygulanıp uygulanmayacağını otomatik belirler.

8 numaralı alanda bulunan “Start Traning” alanına tıklanarak eğitim başlatılır.

Document-Understanding-Process-25

 

Not: Aşağıdaki OCR motorları döndürülmüş belgeleri desteklemez ve bu tür belgelerde kullanılmamalıdır:

  • Microsoft OCR
  • Tesseract OCR

Eğer UiPath.IntelligentOCR.Activities paketi v5.1.0 sürümüne güncellendiyse, eski ForceApplyOCR parametresi yerine ApplyOcrOnPDF parametresi kullanılmaktadır.
Parametre değişikliklerinin karşılıkları:

  • ForceApplyOCR = True -> ApplyOcrOnPDF = Yes
  • ForceApplyOCR = False -> ApplyOcrOnPDF = Auto
  • ForceApplyOCR = Boş (empty) -> ApplyOcrOnPDF = Auto
  • ForceApplyOCR = Tanımlı Değişken (Your defined variable) -> ApplyOcrOnPDF = Auto

Document-Understanding-Process-24

Eğitim Verilerinin Dışa Aktarılması

Yalnızca eğitilmiş belge türlerine ait eğitim verileri dışa aktarılabilir. Eğitilmemiş belge türleri seçilemez. Eğitilmemiş belge türleri dışa aktarılamaz, bu nedenle Export seçeneği pasif kalır.

Adımlar:

  1. Eğitilmiş belge türlerini seçin.
  2. Export seçeneğine tıklayın.Document-Understanding-Process-26
  3. Eğer kaydedilmemiş değişiklikler varsa şu mesaj görüntülenir:
    “Kaydedilmemiş değişiklikler varken dışa aktarma yapılamaz. Dışa aktarmadan önce otomatik kaydetmek ister misiniz?”
    Evet seçeneğini seçerek işleme devam edin.Document-Understanding-Process-27
  4. Eğitim verisi arşivini istediğiniz adla kaydedin.
  5. Başarılı dışa aktarma sonrası şu mesaj görüntülenir:
    “4 kelime vektörü dışa aktarıldı.”
  6. OK seçeneğine tıklayarak ana ekrana dönün.Document-Understanding-Process-28

 

Eğitim Verilerinin İçe Aktarılması

Adımlar:

  1. Import seçeneğine tıklayın.
  2. Eğitim veri arşivini seçin ve seçeneğine tıklayın.
  3. İçe aktarılacak belge türlerini seçin.Document-Understanding-Process-29
  4. Import seçeneğine tıklayın.
  5. Eğitim verileri başarıyla içe aktarılır ve Manage Learning bölümünde görüntülenir.Document-Understanding-Process-30

Document Understanding Process Template #3 makalemizin sonuna geldik. Document Understanding Process Template #4 makalesi çok yakında…

 



İlgili İçerikler

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu