Wysokie koszty utrzymania magazynu cyfrowego to totalna bzdura

Słuchałem przedwczoraj fragmentarycznie wypowiedzi w radiu tok.fm dr Tomasza Makowskiego, dyrektora z Biblioteki Narodowej na temat ugody z google odnośnie Google Book Search.

Spodobały mi się jego wypowiedzi.

Mówił fajnie, zwracał uwagę na ciekawe zagadnienia, oficjalnie zdementował plotkę jakoby BN rozmawia z wielkim G.

Wczoraj czytam w wyborczej „Bibliotekarze chcą zdążyć przed Googlem ” wywiad z nim a tu taki tekst

Z kolei magazynowanie kopii wiąże się ze znacznymi, stałymi opłatami za utrzymywanie własnych serwerów albo za outsourcing.

i jakoś nie mogę przestać się zastanawiać czy ja jestem głupi czy dyrektor gada od rzeczy.

Tydzień temu za 700 zł brutto w detalu kupiłem sieciowy dysk zewnętrzny 1 terabajt. Dobra wiem gdzie kupować ;) normalnie są trochę droższe ale nadal nie jest to jakaś astronomiczna kwota. Wiem że profesjonalne rozwiązania są droższe, na potrzeby szacowania przyjmijmy abstrakcyjnie że 3x droższe :)

Następnie rozpocząłem rozważania jak wielki może być zasób CBN Polona stwierdziłem że chyba bóg wie jak wielki to nie jest, oszacowałem że 100 terabajtów go pomieści  więc (700 x 3) x 100 = 210 000 zł brutto i w detalu :) kosztuje sprzęt do magazynowania, do tego opłaty stałe za prąd, 3 -4 półki w klimatyzowanym pomieszczeniu i chyba jeśli chodzi o magazynowanie to wszystko.

Biorąc sprzęt w leasing na 5 lat (czas gwarancji na dyski) mamy ratę około 4200 zł miesięcznie (z jakiegoś kalkulatora online) doliczmy koszt klimatyzacji, prądu, sprzątaczki to da +- 5000 zł miesięcznie za utrzymanie całego magazynu cyfrowego jakim dysponuje Cyfrowa Biblioteka Narodowa. Kosztów wynajmu pomieszczenia nie liczę i korzystania z sieci lokalnej też nie, a chyba innych kosztów już niema, na siłę koszt konfiguracji urządzeń można doliczyć ale chyba BN ma jakiegoś informatyka na etacie?

I tu pojawia się kwestia czy to wiele :)

Moim zdaniem 5 tysięcy miesięcznie za zakup sprzętu na własność i utrzymanie całego magazynu cyfrowego nadal kosztuje BN mniej niż utrzymanie 1 pracownika szczebla dyrekcyjnego – więc to nie są znaczne koszty!

Niestety nie potrafię inaczej zrozumieć tego fragmentu wypowiedzi inaczej niż robienie w trąbę opinii publicznej :(

PS.

Użyłem moich infobrokerskich mocy ;) i nieoficjalnie (za to u źródła) potwierdziłem że magazyn CBN Polona w 100 terabajtach się zmieści bez problemu :) a nawet zatańczy kankana, więc moje szacunki są znacznie zawyżone. Jestem przekonany że realnie stałe koszty utrzymania magazynu (nie udostępnianie w świat, opracowanie, itp. o których jest mowa w artykule wcześniej) są na poziomie utrzymania 1 pracownika magazynu, czyli w skali przedsięwzięcia na skalę krajową niskie albo wręcz prawie żadne!

Z przyjemnością oczekuję że ktoś udowodni mi że się mylę, albo przeoczyłem jakieś istotne koszty :> bo nie chciałbym zmieniać pozytywnego wrażenia jakie odniosłem słuchając dr Tomasza Makowskiego.

Opublikowano
Umieszczono w kategoriach: mózgownica

Autor: Niedoszły Bibliotekarz

Dinozaur pamiętający czasy LOAD "*",8,1 oraz szczęśliwy posiadacz BBS-a przez tydzień. Wizjoner, z żalem w sercu obserwujący jak "dziki zachód" internetu upada na kolana pod wpływem polityków i korporacji. Aktualnie władca CMS-ów na państwówce. Wyznawca synergii oraz Pastafarianizmu. Możesz go podglądać na Facebooku czy Twitterze

3 komentarze

  1. No to tak, zasięgnąłem informacji u źródła i będę prostował. Trzymasz się krzesła? To jedziemy.

    Po pierwsze to zapomniałeś podłączyć te dyski do jakiegoś komputera. W magazynie danych jest to system wysokiej dostępności, czyli jakieś 3-4 maszyny w klastrze. Na serwer lekką ręką 10 000 musisz mieć, a podejrzewam, że trochę więcej.

    Po drugie, żeby z tych dysków zrobić macierz, trzeba te dyski zredundować, czyli do tego wszystkiego musisz mieć kontrolery, ścieżki do dysków, zasilacze, wentylatory, UPS-y, szafy, okablowanie i całą resztę. Dysków nie stosuje się na surowo tylko w jakimś RAID-zie, a wtedy efektywna powierzchnia dysków spada. Jak masz RAID 10 to z 100 TB robi Ci się 50. Po 3-5 latach hardware powinieneś wymienić w ciemno.

    Poważny projekt musi być backupowany, czyli dodatkowy serwer backupu i biblioteka taśmowa do przechowywania danych. Dobra praktyka mówi ze dane warto przechowywać w dwóch miejscach fizycznych, czyli ewentualnie jeszcze koszty drugiego pomieszczenia.

    Z klimą policzyłeś tylko prąd, ale urządzenia do klimatyzacji też trzeba kupić. I to takie, które można rozbudować, bo jak dostawiasz urządzenia, moc grzewcza się zwiększa. W serwerowni powinien być system gaszenia gazem, też nie jest najtańszy.

    A ludzie do obsługi tego to nie sprzątaczka i informatyk na etacie, tylko zespół, który jest przeszkolony do robienia backupów, zarządzania macierzami, administrowaniem systemami klastrowymi itp.

    Koszty można mnożyć, bo mówimy tu tylko o samym sprzęcie do przechowywania, nie liczymy skanerów i komputerów do tego, ludzi, którzy będą skanować, obrabiać itp.

    Żeby był pogląd na skalę kosztów: Śląska Internetowa Biblioteka Zbiorów Zabytkowych ma wygenerować ok. 12 TB zasobu. Cały projekt, te 12 TB zdigitalizowanych dokumentów to koszt 7,2 mln zł.

    Zasada jest taka, że projektów digitalizacyjnych nie liczy się po kosztach dysków tylko szacuje się wielkość i oczekiwania względem trwałości zasobów i to z nich dedukuje się, jak ma wyglądać infrastruktura.

    Wyliczenia i informacje nie są moje, tylko specjalisty w tej dziedzinie :-)

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *