Merhaba bu yazımızda Document Understanding projelerinde üçüncü adımda kullanılan Classify adımından bahsedeceğiz.
İlk olarak Classify adımı nedir? Ne işe yarar? Gibi sorulara cevap verelim.
Classify adımı, belgelerin türünü otomatik olarak tanımlayarak iş akışlarını daha verimli hale getirmeye yardımcı olur. Bu adım, robotun işlediği belgelerin içeriklerini analiz ederek, her bir belgeyi tanımlamak ve kategorize etmek için kullanılır.
Aktivitemizin genel görünümü yukarıdaki görselde yer almakta.
- İşlem yapacağımız belgenin dosya yolunu vereceğimiz alan.
- Digitize adımında elde ettiğimiz çıktıyı yazacağımız alan.
- Digitize adımında elde ettiğimiz çıktıyı yazacağımız alan.
- Tüm işlemleri yaptıktan sonra çıktı elde ettiğimiz alan.
- Load Taxonomy adımında elde ettiğimiz çıktıyı yazacağımız alan.
Peki belgelerimizde sınıflandırmayı nasıl yapacağız? Intelligent Keyword Classifier ve Keyword Based Classifier aktiviteleri nelerdir? Ne işe yarar? Aralarındaki farklar nelerdir? Hangi ilgili aktiviteyi Document Understanding projelerimizde kullanmalıyız? Gibi sorulara bu aşamada cevap vermiş olacağız.
İlk olarak Intelligent Keyword Classifier aktivitemizden bahsedelim.
Intelligent Keyword Classifier aktivitesi, belgelerdeki anahtar kelimeleri ve ilgili terimleri analiz ederek, metinlerin belirli kategorilere veya sınıflara otomatik olarak atanmasını sağlayan gelişmiş bir makine öğrenimi (ML) tabanlı araçtır. Bu aktivite, özellikle karmaşık veya yapılandırılmamış belgelerden anlamlı veriler çıkarmak ve doğru sınıflandırmayı sağlamak için kullanılır.
Şimdi de Keyword Based Classifier aktivitemizden bahsedelim.
Keyword Based Classifier aktivitesi, kullanıcının önceden tanımladığı anahtar kelimeler doğrultusunda belgeleri belirli kategorilere ayırır. Bu işlem, tamamen manuel olarak belirlenen kurallara dayandığı için, yapılandırılmış ve sabit veri çıkarma ihtiyaçlarına uygundur. Yani, hangi anahtar kelimelerin hangi sınıflara atanacağını kullanıcı belirler ve sınıflandırma bu sabit kurallar çerçevesinde gerçekleştirilir.
İki aktivite arasındaki farktan bahsedelim;
Intelligent Keyword Classifier aktivitesi ilgili belgelerde yapay zeka (ML) ile kelime çıkarımı yaparken Keyword Based Classifier aktivitesi ise manuel bir kelime çıkarma işlemi yapmaktadır. Keyword Based Classifier aktivitesi hangi anahtar kelimelerin hangi kategorilere atanacağını önceden belirler ve sınıflandırma bu sabit kurallara göre yapılır. Bu yöntem, yapılandırılmış ve öngörülebilir veri çıkarma işlemleri için uygundur. Intelligent Keyword Classifier aktivitesi ise statik kurallara değil, dinamik ve öğrenebilen bir modelin değerlendirmelerine dayanır. Bu sayede, özellikle karmaşık ve yapılandırılmamış belgelerde daha esnek ve doğru sınıflandırma sağlanır.
Özetle; Çoğu Document Understanding projesinde Intelligent Keyword Classifier aktivitesi kullanılmaktadır ancak bazı spesifik durumlarda Keyword Based Classifier aktivitesi kullanılmaktadır. Örneğin; iki belge arasında çok yüksek oranda bir benzerlik var, geliştiricinin bulacağı bir kelime ile bu benzerliği ortadan kaldırması gerekiyor, bu durumda Keyword Based Classifier aktivitesi kullanılarak spesifik bir kelime seçimi yapılabilir.
Aktivitelerimizin Properties alanlarını inceleyelim;
Intelligent Keyword Classifier;
- Elde ettiğimiz API değerini yazacağımız alan.
- https://docs.uipath.com/document-understanding/automation-cloud/latest/user-guide/public-endpoints web sitesinden elde edeceğimiz Endpoint değerini yazacağımız alan.
- Yapılan işlemler sonrası çıktı alacağımız .json formatındaki dosyanın konumu.
Keyword Based Classifier;
- LearningData (Öğrenme Verisi): Bu alan, sınıflandırma işlemi için kullanılacak olan öğrenme verisini ifade eder. Bu veri genellikle daha önce sınıflandırılmış dökümanlardan elde edilen bir dizi anahtar kelime ve bunların kategorileri ile ilişkilendirilmiştir. Bu veriler, sınıflandırma işlemi sırasında kullanılarak dökümanların doğru kategoriye atanmasına yardımcı olur.
- LearningFilePath (Öğrenme Verisi Dosya Yolu): Bu alan, öğrenme verisinin saklandığı dosyanın yolunu belirtir. Bu dosya genellikle .json formatında olur ve sınıflandırma işlemi sırasında kullanılır. Bu dosya, sistemin hangi anahtar kelimeleri kullanarak dokümanları sınıflandıracağını belirler.
Buraya kadar Classify adımının işlevini, bu adımda hangi aktivitelerin kullanıldığı, bu aktiviteler ile alakalı birçok soruya cevap verdik. Sıra bu aktivitelerin Manage Learning ayarlarında.
Intelligent Keyword Classifier;
“Manage Learning” butonuna tıklayarak belge veya belgelerimizde sınıflandırma işlemini başlatıyoruz.
İlk olarak yukarıdaki görselde sağ tarafta yer alan kısımdan, sınıflandırma işlemi için eğiteceğimiz belge türünü seçiyoruz ardından “Start Training” butonuna tıklıyoruz ve karşımıza yukarıdaki görselde sol tarafta yer alan kısım çıkıyor, bu kısımda dosya simgesine tıklayarak bir veya birden fazla belge seçebiliyoruz, burada önemli olan nokta aynı türden belgeleri seçiyor olmamız. Ardından Start Training butonuna tıklayarak eğitme işlemini tamamlıyoruz, Api Key, Endpoint gibi kısımlar otomatik olarak dolu gelmekte, ilgili kısımlarda herhangi bir değişiklik yapmamıza gerek yok.
Eğitme işlemimiz bittikten sonra ilgili belge veya belgelerdeki kelimeleri elde etmiş olduk.
Keyword Based Classifier;
“Manage Learning” butonuna tıklayarak belge veya belgelerimizde sınıflandırma işlemini başlatıyoruz.
İlk olarak eğiteceğimiz belge türünü seçiyoruz ardından manuel olarak kelimelerimizi yazıp “Add new keyword set” butonuna tıklıyoruz.
Her iki aktivitede işlemlerimizi tamamladıktan sonra çıktı olarak bir .json dosyası elde etmiş oluyoruz.
Son olarak hangi belgemizde hangi aktivite ile sınıflandırma yapacağımızı seçelim.
“Configure Classifiers” butonuna tıklıyoruz.
Açılan alanda hangi sınıflandırıcıyı seçmek istiyorsak ilgili sınıflandırıcıyı seçip “Save” butonuna tıklıyoruz.