Właśnie skończyłem analizę występowania słowa socjologia na stronach pewnej uczelni. Generalnie zleceniodawcy chodzi o zaktualizowanie oferty edukacyjnej więc trzeba było znaleźć w których artykułach ta socjologia była wymieniona na stronie.
Najpierw słowo „socjologia” wbiłem w okienko wyszukiwania stronie. Uczelnia korzysta w serwisie z Zend Lucene która ma przycięte wyniki wyszukiwania (na podstawie badań empirycznych) żeby nie wywalało śmiecia za dużo. Wyskoczyło kilka wyników czyli nie wiele.
Następnie skoro to studenci mają wyszukiwać, w google wpisałem zapytanie [socjologia site:wsptwp.eu]. Gógiel przyszalał i zwrócił ponad 6400 wyników ale już pierwszy rzut oka starczył żeby zawęzić kwerendę bo się jakieś archiwalne sprawy pokazały (wniosek na podstawie adresu old.wsptwp.eu) Aby pozbyć się z wyników staroci zawęziłem pytanie dalej [socjologia site:www.wsptwp.eu] efekt lepszy bo już tylko 2000 wyników. Ponieważ pokazały się w wynikach również dokumenty typu pdf i doc zastosowałem kolejne zawężenie:
[socjologia site:www.wsptwp.eu filetype:html]
zaowocowało to ograniczeniem listy wyników do 1600 pozycji co już było akceptowalne :)
Po uporaniu się z pierwszymi 400 wynikami wybraniem 14 artykułów wymagających zmian i ruszyłem na Binga.
Do Bing wprowadziłem to samo zapytanie co do googla i zadziałało :) W efekcie zapytanie zwróciło 1040 wyników. Na podstawie kolejnych pierwszych 400 wyników wzbogaciłem moją listę dla redaktora serwisu o 3 pozycje do edycji.
Głupie dla piszących kwerendy ” z palca” (dla słabszych zapewne stresujące i nieskuteczne) było zachowanie się Bing po wpisaniu w advanced search -> site/domain adresu www.wsptwp.eu. Bing wygenerował poniższe zapytanie :)
socjologia (site:www.wsptwp.eu OR site:www.wsptwp.eu filetype:h) filetype:html
pomysł na możliwość przyjaznego zawężania wyników całkiem niezły a wykonanie jak zawsze w produkcie microsoftu :( Jak widać zdublował co miał w pamięci a na dodatek obciął bez sensu warunek.
Podsumowując:
- Wyniki Bing wzbogaciły moje wyszukiwanie w stosunku do Google o ponad 17% (kiedyś warto by sprawdzić efekt w drugą stronę)
- Bing kierował częściej do stron głównych przeszukiwanego serwisu.
- Różnie przez google i bing są przedstawiane w opisach pozycje rozwijanego menu zrobionego na listach. Google pozycje listy rozpoczyna · czyli ·, Bing zaś kończy pozycję listy średnikiem.
- Mechanizm wstawiania warunków dodatkowych w bing nie działa poprawnie.
W bazie danych znalazłem jeszcze 12 artykułów które należy poddać edycji a których nie wyszukała żadna z użytych wyszukiwarek. Mimo zindeksowania domeny i regularnych wizyt robotów z jakiś przyczyn 40% stron www uczelni jest niewyszukiwalne i zasila deep web (ukryty głęboki internet).