Niedoszły Bibliotekarz

bing contra goolge – przykład wyszukiwania

To jest wersja zminimalizowana, zobacz pełną wersję strony..

Właśnie skończyłem analizę występowania słowa socjologia na  stronach pewnej uczelni. Generalnie zleceniodawcy chodzi o zaktualizowanie oferty edukacyjnej więc trzeba było znaleźć w których artykułach ta socjologia była wymieniona na stronie.

Najpierw słowo „socjologia” wbiłem w okienko wyszukiwania stronie. Uczelnia korzysta w serwisie z Zend Lucene która ma przycięte wyniki wyszukiwania (na podstawie badań empirycznych) żeby nie wywalało śmiecia za dużo. Wyskoczyło kilka wyników czyli nie wiele.

Następnie skoro to studenci mają wyszukiwać, w google  wpisałem zapytanie [socjologia site:wsptwp.eu]. Gógiel przyszalał i zwrócił ponad 6400 wyników ale już pierwszy rzut oka starczył żeby zawęzić kwerendę bo się jakieś archiwalne sprawy pokazały (wniosek na podstawie adresu old.wsptwp.eu) Aby pozbyć się z wyników staroci zawęziłem pytanie dalej [socjologia site:www.wsptwp.eu] efekt lepszy bo już tylko 2000 wyników. Ponieważ pokazały się w wynikach również dokumenty typu pdf i doc zastosowałem kolejne zawężenie:

[socjologia site:www.wsptwp.eu filetype:html]

zaowocowało to ograniczeniem listy wyników do 1600 pozycji co już było akceptowalne :)

Po uporaniu się z pierwszymi 400 wynikami wybraniem 14  artykułów wymagających zmian i ruszyłem na Binga.

Do Bing wprowadziłem to samo zapytanie co do googla i zadziałało :) W efekcie zapytanie zwróciło 1040 wyników. Na podstawie kolejnych pierwszych 400 wyników wzbogaciłem moją listę dla redaktora serwisu o 3 pozycje do edycji.

Głupie dla piszących kwerendy ” z palca” (dla słabszych zapewne stresujące i nieskuteczne) było zachowanie się  Bing  po wpisaniu w advanced search -> site/domain adresu www.wsptwp.eu. Bing wygenerował poniższe zapytanie :)

socjologia (site:www.wsptwp.eu OR site:www.wsptwp.eu filetype:h) filetype:html

pomysł na możliwość przyjaznego zawężania wyników całkiem niezły a wykonanie jak zawsze w produkcie microsoftu :( Jak widać zdublował co miał w pamięci a na dodatek obciął bez sensu warunek.

Podsumowując:

W bazie danych znalazłem jeszcze 12 artykułów które należy poddać edycji a których nie wyszukała żadna z użytych wyszukiwarek. Mimo zindeksowania domeny i regularnych wizyt robotów z jakiś przyczyn 40% stron www uczelni jest niewyszukiwalne i zasila deep web (ukryty głęboki internet).