Merhaba bu yazımızda UiPath Document Understanding teknolojisinde Classify adımında kullanılan Intelligent Keyword Classifier ve Keyword Based Classifier aktiviteleri nelerdir? Ne işe yarar? Aralarındaki farklar nelerdir? Hangi ilgili aktiviteyi Document Understanding projelerimizde kullanmalıyız? Gibi sorulara cevap vermiş olacağız, şimdiden iyi okumalar.
Tanım olarak;
Intelligent Keyword Classifier aktivitesi, belgelerdeki anahtar kelimeleri ve ilgili terimleri analiz ederek, metinlerin belirli kategorilere veya sınıflara otomatik olarak atanmasını sağlayan gelişmiş bir makine öğrenimi (ML) tabanlı araçtır. Bu aktivite, özellikle karmaşık veya yapılandırılmamış belgelerden anlamlı veriler çıkarmak ve doğru sınıflandırmayı sağlamak için kullanılır.
Keyword Based Classifier aktivitesi, kullanıcının önceden tanımladığı anahtar kelimeler doğrultusunda belgeleri belirli kategorilere ayırır. Bu işlem, tamamen manuel olarak belirlenen kurallara dayandığı için, yapılandırılmış ve sabit veri çıkarma ihtiyaçlarına uygundur. Yani, hangi anahtar kelimelerin hangi sınıflara atanacağını kullanıcı belirler ve sınıflandırma bu sabit kurallar çerçevesinde gerçekleştirilir.
İki aktivite arasındaki farktan bahsedelim; Intelligent Keyword Classifier aktivitesi ilgili belgelerde yapay zeka (ML) ile kelime çıkarımı yaparken Keyword Based Classifier aktivitesi ise manuel bir kelime çıkarma işlemi yapmaktadır. Keyword Based Classifier aktivitesi hangi anahtar kelimelerin hangi kategorilere atanacağını önceden belirler ve sınıflandırma bu sabit kurallara göre yapılır. Bu yöntem, yapılandırılmış ve öngörülebilir veri çıkarma işlemleri için uygundur. Intelligent Keyword Classifier aktivitesi ise statik kurallara değil, dinamik ve öğrenebilen bir modelin değerlendirmelerine dayanır. Bu sayede, özellikle karmaşık ve yapılandırılmamış belgelerde daha esnek ve doğru sınıflandırma sağlanır.
Özetle; Çoğu Document Understanding projesinde Intelligent Keyword Classifier aktivitesi kullanılmaktadır ancak bazı spesifik durumlarda Keyword Based Classifier aktivitesi kullanılmaktadır. Örneğin; iki belge arasında çok yüksek oranda bir benzerlik var, geliştiricinin bulacağı bir kelime ile bu benzerliği ortadan kaldırması gerekiyor, bu durumda Keyword Based Classifier aktivitesi kullanılarak spesifik bir kelime seçimi yapılabilir.
Aktivitelerimizin Properties alanlarını inceleyelim;
Intelligent Keyword Classifier;
- Elde ettiğimiz API değerini yazacağımız alan.
- https://docs.uipath.com/document-understanding/automation-cloud/latest/user-guide/public-endpoints web sitesinden elde edeceğimiz Endpoint değerini yazacağımız alan.
- Yapılan işlemler sonrası çıktı alacağımız .json formatındaki dosyanın konumu.
Keyword Based Classifier;
- LearningData (Öğrenme Verisi): Bu alan, sınıflandırma işlemi için kullanılacak olan öğrenme verisini ifade eder. Bu veri genellikle daha önce sınıflandırılmış dökümanlardan elde edilen bir dizi anahtar kelime ve bunların kategorileri ile ilişkilendirilmiştir. Bu veriler, sınıflandırma işlemi sırasında kullanılarak dökümanların doğru kategoriye atanmasına yardımcı olur.
- LearningFilePath (Öğrenme Verisi Dosya Yolu): Bu alan, öğrenme verisinin saklandığı dosyanın yolunu belirtir. Bu dosya genellikle .json formatında olur ve sınıflandırma işlemi sırasında kullanılır. Bu dosya, sistemin hangi anahtar kelimeleri kullanarak dokümanları sınıflandıracağını belirler.