19 Ağustos 2019 Pazartesi

Web'de Arama Yapma Sanatı


1. Bilinmeyen Karmaşık Bir Bataklıktır Web 
Web için çok karmaşık bir bataklık tanımı kullanılabilir. Internette kolayca ulaşılabilecek bilgi miktarı anlaşılamaz miktarda çoktur. 1997 Aralık ayında yaklaşık 320 milyon web sayfasının olduğu bu sayının Şubat 1999'da 600 milyon olduğu günümüzde ise 2 milyardan fazla web sayfası ve 600 milyon'dan fazla resim bulunuyor. Her geçen gün de bu sayı exponansiyel olarak artmaktadır. Bir yıldan az bir sürede bilgi miktarı iki katına çıkmaktadır.
Internetin büyüklüğü hakkında bir çok bilimsel araştırmalar yapılmıştır. Yaklaşık değerler vermek gerekirse günümüzdeki değerler: 

2,200,000,000 web sayfası
37,000,000,000,000 byte yazı;
600,000,000 resim;
10.000,000,000,000 byte resim verisi
ve her gün web'e yaklaşık 3 milyon sayfa eklenmektedir. 
Bu kadar yoğun bir bilgi karmaşası içinde hangi bilgiye nasıl erişmek gerektiğini bilmemiz gerekir. Fakat klasik arama motorlarıyla bu bilginin bütününe erişmek imkansızdır. Popüler arama motorları bile web'in sadece çok küçük bir kısmına erişebilmektedirler. Arama motorları ticari siteleri eğitim sitelerine Amerika sirtelerini Avrupa sitelerine, popüler siteleri ise daha az bilinen sitelere tercih ediyorlar ve onları indexliyorlar.
Her arama motorunun kendine göre güçlü ve zayıf yönleri vardır ve tüm aramlar için tek bir arama motoru kullanmak hata olur. Onun için hangi iş için hangi arama motorunun kullanılması gerektiğini ve arama tekniklerini iyi bilmek gerekir.
Web sayfaları sık sık değişikliğe uğrarlar yada silinebilirler. Bir web sayfasının ortalama ömrü 1-2 ay arasında değişmektedir. Yani bir gün içerisinde yaklaşık 40 milyon web sayfası değişikliğe uğramaktadır. Bu kadar sıklıkla değişen ve exponansiyel olarak ta artan bilgiyle hiç bir algoritma ve bilgisayar gücü başa çıkamaz. Onun için etkili arama için yeni metodlar kullanılmalıdır.
Büyük arama motorları tüm web sayfalarını indexleme işleminde zorlanmaktadorlar. En büyük arama motoru bile tüm web'in yüzde 25'ini indexleyebilmektedir. Diğer arama motorları ise sadece yüzde 5'ini almaktadır. Örnek verecek olursak arama motoru devi AltaVista 1997'de 100 milyon, 1999'da 140 milyon, Ocak 2000'de 250 milyon web sayfasını indexledi. Günümüzde ise yaklaşık olarak 350 milyon web sayfasını indexlemiş durumda.
Arama motorları çok yavaş tekrar indexleme yapmaktadırlar. Bunu denemek için listelenmeyen bir web sitesi bulup ana arama motorlarına elle ekleyin. Google ve Northernlight bir iki hafta içinde bu sitenin büyük bir kısmını indexlemiş olacaktır. Altavista sadece elle girdiğiniz sayfaları indexleyecek ve bağlantıları izlemeyecektir. Fast/Alltheweb ise indexlerini aylar sonra güncellemektedir.
Arama motorları kendi index veri tabanlarını bile güncellemede zorlanmaktadırlar. Dolayısıyla 404 sayfa hataları artmaktadır. Daha etkili arama yapabilmek için değişik teknikler kullanmak gerekmektedir.

Web'de ki bilgilere erişebilmek için başka teknikler kullanmak gereklidir: Ancak ilk önce var olan arama motorlarında nasıl etkili bir arama yapılır onu öğreneceksiniz. Arama motorları birbirlerinden çok farklı özelliklere sahip olduğunu ve her biri değişik algoritmalar kullandığını göreceksiniz. Örnek olarak google ve infoseek bir sayfaya link veren siteleri sayar ve ona göre sayfanın ağırlığını hesaplar, hotbot ise sayfayı ziyaret eden kişi sayısına göre ağırlık belirler. Daha sonra combing ve klebing gibi yararlı arama tekniklerini öğreneceksiniz. 

2. Web Aramaya Giriş 
Web de arama yapmak bir sanattır. Web'de günümüzde yaklaşık olarak 1.5 milyarın üzerinde indexlenebilir sayfa mevcuttur ve her geçen gün exponansiyel olarak artmaktadır. En kapsamlı arama motorları bile web'in üçte birinden daha az bir kısmı kapsamaktadır. Inktomi 500 milyon safyayı Altavista 350 milyon sayfa kapsamaktadır. Ticari çöplük arasında bilgi aramak için değişik yollar vardır. Muhtemel stratejik yaklaşımlar aşağıdaki gibi listelenebilir: 
1- Kendi kendinize arama yapabilirsiniz - searching
ana arama motorlarını kullanarak
haber gruplarını kullanarak
mesaj tahtalarını kullanarak
mail listelerini kullanarak
2- Bilgileri daha önce aramış olan insanları arayabilirsiniz - luring, trolling, combing
3- Arayıcıların (seeker) geldiği yeri izleyebilirsiniz - luring, trolling, klebing
4- Gizli veritabanlarını keşfedip kullanabilirsiniz- seeking, hacking
5- Kendi arama programınızı yapabilirsiniz- programmin 
Her sorgunun bir HAZIRLIK, DEĞERLENDİRME ve BİRLEŞTİRME safhası vardır. Bu safhaları öğrenerek iyi bir arayıcı olacaksınız ve web'de istediğiniz her türlü bilgiyi bulabileceksiniz.
Bu yazıda iyi arayıcılar için gerekli olan bir çok konuya yer verilmektedir. Bunlardan bazıları: 
Etkili bir arama yapabilmek için en iyi gezginler,
Popup banner'lardan nasıl kurtulunur,
Ticari spammer'lara ve porno reklamlara karşı teknikler... 
Aramayı bildikten sonra Web'de kitaplar, gazeteler, üniversite makaleleri, resimler, ses , müzikler, filmler herşey ama herşey bedava olarak sizi beklemektedir. 
İyi bir arayıcı kimdir?
İyi bir arayıcı, bir üniversite tezi yazmak için gerekli tüm bilgiyi bir iki saat içinde toplayabilen kişidir,
İyi bir arayıcı, yarım düzine bilgisayar ve sürekli bir internet bağlantısıyla orta büyüklükteki bir kasabanın kütüphane problemini çözebilen kişidir. 
Muhtemelen arama için değişik gelişmiş (advanced) tekniklerin kullanıldığını biliyorsunuzdur. Ancak bu gelişmiş teknikler açıklanması zor sonuçlar ortaya çıkarmaktadır. Mesela aşağıda verilen iki sorgunun verdiği sonuçlar açıklaması zor bir durum oluşturmaktadır: 


[+"how to search the www"] sorgusu 118 tane sonuç vermesine rağmen,
[+"how to search the www" -money] sorgusu 120 tane sonuç vermektedir. 
Görüldüğü gibi aynı sorguyu -money ile yapınca, yani money kelimesini eleyince, normal sorgudan daha fazla sayfa gelmektedir!!! Bu durumlar arama motorlarının kullandıkları algoritmadan kaynaklanmaktadır. Değişik arama motorlarında deneme yaparsanız durumu daha iyi anlayabilirsiniz. Arama motorlarında bazı değişik default ve basit özelliklere sahiptirler. Bu farklı ayarlardan dolayı bu komik yada yanlış sonuçlarla karşılaşılmaktadır.
Örnek olarak bazı arama motorları default olarak girilen terimleri OR lamaktadır. İlk başta gelen sayfalarda bu aradığınız terimler çok fazla geçmesine karşın liste sonlarına doğru bu miktar azalmaktadır. Bu nedenle en son gelen sayfalarda aradığınız terimlerin hepsini göremeyebilirsiniz. Bu nedenle terimler arasına AND seçeneğini koymanız gerekmektedir.
Diğer bir default seçenek ise kırpma'dır. (trancating) Mesela "web searching" diye aradığınızda karşınıza "searching", "searcher" ve hatta "web-spiders" terimlerini içeren dökümanlar da gelecektir.
Hatalı sonuçların diğer nedenleri ise arama motorunun tam olarak neyi aradığı ile açıklanabilir. Bazen aradığınız terimin bir URL adresinde geçmesinden dolayı sonuç sayfalarında bu terimi hiç göremeyebilirsiniz! Birde bazı sonuç sayfalarında aradığınız terimin daha önceki bir zamanda olup güncellenmiş durumunda ise olmadığı olabilir. Bu nedenle kullandığınız web arama motorunun dökümanlarını iyice okuyarak tam olarak neyi nasıl aradığını öğreniniz. Böylece o arama motorundan maksimum etkili bir şekilde faydalanabilirsiniz. 

3. Arama motorları kaç tane URL adresi kapsıyor? 
Arama motorlarının ne kadar bilgi kapsadığını yani indexlediği sayfa sayısını bulmak için aşağıdaki ilginç hileli sorguyu kullanabilirsiniz. 
[http://www.northernlight.com/nlquery.fcg?cb=0&qr=search+or+not+search&orl=2%3A1] 
Fast, Altavista, Google ve Hotbot gibi büyük arama motorlarından olan Northernlight'ta şubat 2000'de yapılan sorguda 250 milyon URL adresi gelmiştir. İlk sıralarda gelen sonuçlar çok ilgi çekicidir!!! 
4. Arama motorlarının limitleri ve can sıkıcı yönleri 
Web'deki bilgilerin standart bir biçimde indexlenmemesinden dolayı bilginin getirilmesi ve bulunması zor olmaktadır. Altavista gibi ticari arama motorları aradığınız konuyla alakası bile olmayan binlerce sayfa getirmektedir. Tüm web arama motorları web'i tarayarak web sayfalarındaki tüm kelimeleri veritabanlarına kayıt etmektedirler. Hatta bazıları (google gibi) sayfaları mirror bile etmektedirler! Bu nedenle kaybolmuş ve silinmiş sayfalara bile ulaşmanız mümkündür. Bu özellikler nedeniyle web'e attığınız bir sayfayı tamamen silmeniz ve yok etmeniz de imkansız hale gelmektedir.

Web'i tarayan bu arama motorları terabyte'larca sıkıştırılmış text bilgi ile uğraşmaktadırlar. Milyonlarca sayfadan milyarlarca kelimeyi saklamaktadırlar dolayısıyla herhangi bir sorgu sonucu başa çıkılamaz bir durum alabilir. Bu nedenle arama bilgisi ve stratejisi olmadan bu arama motorlarını kullanmak karanlıkta amaçsızca dolanmaya benzer.
Problem sadece bilgiyi nasıl bulabileceğimiz değil aynı zamanda nasıl değerlendireceğimizdir. Mesela bir sorgu sonucunda yaklaşık 200 sayfa geldiğini varsayalım. Bir sayfayı şöyle bir gözden geçirme sürenizin de yarım dakika olduğunu varsayarsak tek bir sorgu sonucunu taramanız 100 dakikayı alacaktır!. Bu erkili bir arama yaklaşımı değildir. Bunun için arama sonuçlarını çok aza indirecek teknikleri bilmeniz ve kullanmanız gereklidir.
Web'i gezinerek siteleri otomatik olarak indexleyen bot'ları kullanan Robot arama motorları da vardı. Ancak hiçbir arama motoru Web'in bu korkunç büyümesine yetişememektedir. En büyük arama motorları bile tüm web'in sadece yüzde 10'luk bir kısmını kapsamaktadırlar. Geri kalan yüzde 90'lık kısma ulaşabilmek için kendi bot programlarınızı yazmak gibi gelişmiş teknikleri kullanmak zorunda kalacaksınız.
Tüm ana arama motorları bilinçli olarak bazı hileler kullanılarak sorgu sonuçlarında ilk sıraları kapabilmek için spam saldırılarına uğramaktadırlar. En çok kullanılan spam teknikleri: 
-anahtar kelimelerin tekrarlanmak suretiyle çok fazla kullanımı,
-sitenin içeriğiyle ilgisi olmayan anahtar kelimelerin kullanılması,
-hızlı meta güncelleme kullanımı,
-arka fonla aynı renkte renkli kelimelerin kullanılması,
-değişik URL adresleriyle aynı sayfanın çoğaltılması. 
Bu nedenle arayıcılar bir çok sorgu için arama sonuçlarındaki ilk 20-30 kaydı atlaması ve araştırmasına bu noktadan sonra devam etmesi gerekmektedir. Hatta bir çok ana arama motorları listelerde pozisyonları satmaktadırlar ve bazı sitelerin listede en başta gelmesini sağlamaktadırlar. Ayrıca bedava arama motorlarının ana amaçlarından biri kulanıcıların arama yaptıkları konuları belirlemek ve bunları üçüncü partilere satmak olduğunu da unutmayın. Bu yüzden bu tür durumlar için karşı çözümlere sahip olmalısınız. 

Yarın kaldığım yerden devam edeceğim.Bugünlük anlatacaklarım bu kadar...

Hiç yorum yok:

Yorum Gönderme