Document Understanding

Document Understanding Process Template #2

Merhaba bu yazımızda Document Understanding Process Template’de Belge yönetimi, Digitize workflowunun işlevleri konularına değineceğiz, şimdiden iyi okumalar.

Document Understanding Process Template’inde Main-Attented ve Main-ActionCenter olmak üzere iki farklı Main akışı bulunmaktadır.

Main-Attended.xaml: Kullanıcı etkileşimli otomasyonlar için tasarlanmış olup, Dosya seçme ekranı açılarak Belge yönetimi İnsan müdahalesi ile yapılmaktadır. Belge işleme sırasında kullanıcının anlık doğrulama ve kararlarına ihtiyaç duyar.

1 numaralı alandaki Select File aktivitesi ile dosya seçimi yapılır.

2 numaralı alandaki Flow Decision aktivitesi ile projede Queue teknolojisi kullanılıyor mu kontrol edilir.

Main-Attended akışında Queue teknolojisi kullanılmadığı için 3 numaralı alandaki Flow Decision aktivitesinden devam edilir. Data Found kontrolü yapılır. İşlenecek belge mevcut ise Digitize adımından devam edilir. İşlenecek belge mevcut değil ise End Process Workflowundan devam edilir.

Document-Understanding-Process-12

 

Main-ActionCenter.xaml: İnsan müdahalesi gerektiren adımları UiPath Action Center aracılığıyla yönetir, Belgeler Queue teknolojisinden alınır böylece kullanıcı belgeleri gözden geçirip onayladıktan sonra otomasyon devam eder. Bu akışın kullanılabilmesi için Config dosyasında yer alan Queue bilgileri kullanılarak belge bilgileri (Dosya yolu, dosya adı vb.) Queue’e atılmalıdır.

1 numaralı alandaki Flow Decision aktivitesi ile projede Queue teknolojisi kullanılıyor mu kontrol edilir.

Main-ActionCenter akışında Queue teknolojisi kullanıldığı için 2 numaralı alandaki Get Transaction Item Workflowundan devam edilir. Get Transaction Item Workflowunda Config dosyasında yer alan Queue bilgileri kullanılarak Belgeye dair bilgiler (Dosya yolu, dosya adı vb.) alınır.

3 numaralı alandaki Flow Decision aktivitesinden devam edilir. Data Found kontrolü yapılır. İşlenecek belge mevcut ise Digitize Workflowundan devam edilir. İşlenecek belge mevcut değil ise End Process Workflowundan devam edilir.

Document-Understanding-Process-13

 

Get Transaction Item

Get Transaction Item Workflowunda 1 numaralı alandaki Get Queue Item aktivitesiyle Queue’dan belgeye dair bilgiler alınarak out_TransactionItem argümanına atanır.

2 numaralı alanda Else if aktivitesiyle yapılan kontrolde out_TransactionItem boş ise Queue’da veri olmadığına dair log message yazdırılır.

Document-Understanding-Process-14

1 numaralı alanda Else if aktivitesiyle yapılan kontrolde out_TransactionItem boş değil ise ve out_TransactionItem’ın kolon değerlerinden herhangi biri Config dosyasında bulunan TargetFileKey değerini içermiyorsa TargetFileKey içermediğine dair log message yazdırılır.

1 numaralı alandaki koşul sağlanmıyorsa 2 numaralı alanda Else aktivitesiyle yapılan kontrolde out_TransactionItem’ın TargetFileKey değeri out_TargetFile argümanına atanır. out_TransactionItem değerleri config argümanı içerisine kopyalanır.

Document-Understanding-Process-15

Digitize Workflow

Digitize aktivitesi, Bir belgeyi dijitalleştirir, Belge Nesne Modelini (DOM) ve metnini çıkarır ve bunları ilgili değişken türlerinde depolar.

Bu aktivitenin gövdesinde OCR aktivitesi kullanılması gerekir. Otomatik olarak 4 numaralı alanda bulunan “UiPath Document OCR” aktivitesi kullanılmaktadır.

1 ve 8 numaralı alanda bulunan “DocumentPath” Dijitalleştirilecek belgenin dosya yolunu içerir. “in_TargetDocument” argümanına dosya yolu Main akışından import edilir.

2 ve 10 numaralı alanda bulunan “DocumentText” Dosya yolu verilen belgeden çıkarılan metini içerir. “out_DocText” argümanı, daha sonra Present Validation Station aktivitesinde kullanılabilir.

3 ve 9 numaralı alanda bulunan “DocumentObjectModel” Dosyanın Belge Nesne Modeli (DOM), işlenecek belgede yer alan nesnelerin (kelimeler, resimler, tablolar vb.) X ve Y koordinatlarına göre belgenin yapısal bir modelini oluşturur. Bu model, belgedeki her bir nesnenin konumunu ve ilişkisini tanımlar, bir Document değişkeninde saklanır. “out_DOM” argümanı yalnızca Document değişkenlerini destekler.

5 numaralı alanda bulunan “ApplyOcrOnPdf” OCR işleminin PDF belgelerine uygulanıp uygulanmayacağını belirler. “True” olarak ayarlanırsa, OCR, belgenin tüm PDF sayfalarına uygulanır. “False” olarak ayarlanırsa, yalnızca dijital olarak yazılmış metin çıkarılır. Varsayılan değer Otomatiktir ve belgeye bağlı olarak OCR algoritmasının uygulanması gerekip gerekmediğini belirler.

6 numaralı alanda bulunan “DegreeOfParalelism” Belgenin sayfalarının paralel olarak işleneceği sayfa sayısını belirtir. “-1” değeri, otomasyonun çalıştığı bilgisayarın işlemci çekirdek sayısının bir eksik değerini (Makinadaki Çekirdek Sayısı – 1) kullanır. Bu, aktivitenin bilgisayarın işlemci çekirdeklerini maksimum verimle kullanarak mümkün olduğunca fazla sayfayı aynı anda işleyebileceği anlamına gelir. Pozitif bir değer belirterek, kullanılacak çekirdek sayısını manuel olarak belirleyebilirsiniz. Ancak bu sayı, bilgisayarın toplam işlemci çekirdek sayısından bir eksik (Makinadaki Çekirdek Sayısı – 1) olmalıdır. Varsayılan olarak bu özellik “-1” olarak ayarlanmıştır.

7 numaralı alanda bulunan “DetectCheckboxes” Belgeyi dijitalleştirirken mevcut onay kutularını algılar. Varsayılan değer “True” olarak belirlenmiştir.

Document-Understanding-Process-16

 

UiPath Document OCR Activities

UiPath Document OCR Aktivitesi, Belge görüntülerinin metinsel içeriği hakkında bir dize ve ilişkili bilgileri çıkarır. UiPath Document OCR aktivitesi, taranmış belgeler ve belge görüntüleri üzerinde kullanım için optimize edilmiştir. Bu aktivite, bir OCR motoruna ihtiyaç duyulan herhangi bir belge senaryosunda, Digitize Document aktivitesinde kullanılabilir.

UiPath Document OCR aktivitesini, el yazısı metin, basılı metin, imzalar ve onay kutuları içeren herhangi bir belgeden bilgi çıkarmak için kullanabilirsiniz.

1 numaralı alanda bulunan “Image” İşlemek istenilen görüntü. Bu alan yalnızca “Image” değişkenlerini destekler.

2 numaralı alanda bulunan “Timeout (milliseconds)” Sunucudan yanıt beklerken bir hata oluşmadan önce ne kadar süre bekleneceğini (milisaniye olarak) belirtir. Varsayılan değer 100000 milisaniye (100 saniye) olarak ayarlanmıştır.

3 numaralı alanda bulunan “ApiKey” UiPath Document OCR’a erişim sağlamak için kullanılan API anahtarıdır. “in_Config” argümanından “ApiKey” değeri alınır.

4 numaralı alanda bulunan “Endpoint” UiPath Document OCR için uç nokta adresidir. “Uç nokta adresi”, UiPath Document OCR aktivitesinin, belge üzerindeki metni tanımak ve işlemek için erişeceği hizmetin veya sunucunun adresidir. Bu, genellikle bir URL şeklinde olur ve UiPath’in ilgili OCR hizmetine bağlanmasına olanak tanır. “in_Config” argümanından “UiPathOcrEndpoint” değeri alınır.

5 numaralı alanda bulunan “Private” Seçildiğinde, değişkenlerin ve argümanların değerleri artık Ayrıntılı kaydedilmez.

6 numaralı alanda bulunan “UseLocalServer” Yerel bir sunucunun kullanılıp kullanılmayacağını belirler. Bu alan yalnızca Boolean (True, False) değerlerini destekler. Varsayılan değer yoktur.

7 numaralı alanda bulunan “Result” Belgeden çıkarılan kelimeleri ve bu kelimelerin belgede bulunduğu konumları sağlar. Bu konumlar, her kelimenin belge üzerindeki koordinatlarını temsil eder. Bu alan yalnızca KeyValuePair<Rectangle, String> değişkenlerini destekler.

8 numaralı alanda bulunan Text” Çıkarılan metni sağlar. Bu alan yalnızca String değişkenlerini destekler.

Document-Understanding-Process-17

Document Understanding Process Template #2 makalemizin sonuna geldik. Document Understanding Process Template #3 makalesi çok yakında…

İlgili İçerikler

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu