Elasticsearch aramasında doküman sıralama puanlaması
Bütçe €30-250 EUR
Elasticsearch ile ilgili küçük bir sorunumuz var. Mevcut sistemde arama sonucunda sıralama, içerdiği kavram sayısına göre değil, kavramların dokumanda ne kadar tekrarlandığına göre puanlanmakta.
Bir aramada kullanıcı 4 kavram aramış ise (örneğin : İlaç satışı narkoz ilaçları) bu kavramlardan SADECE 3'ünü barındıran dokümanlar arama sonucunda ilk sıralarda gelebilmekte. Bunun nedeni de üç kavramı içermesine rağmen, bu kavramlar doküman içinde çok fazla tekrar etmesinden dolayı fazla puan alması.
Biz aranan tüm kavramları içeren bir doküman var ise -her ne kadar döküman içinde bunlar çok kere tekrarlanmasa bile- bunların arama sonucunda ön sırada olmasını istiyoruz, ama olmuyor.
Formülde, Dfrsimilarity yi kullanmaktayız.
Tam olarak istediğimiz de "aranan kavramların doküman içinde tekrarlanma sayısı" ile "aranan kavramların kaçının doküman içinde bulunduğuna ilişkin verisi" arasında korelasyon kurmak,
kurduğumuz bu korelasyonda da çeşitli test aramalarına göre korelasyon katsayılarını değiştirerek ideal oranı bulmak adına oynama yapabilmek.
Bu sorunun çözülmesi gerek. Ne yapabilirsiniz?