Przeszukaj Serwis Informacyjny FBC pro

Przeszukaj zbiory FBC

FBC >

Wprowadzenie do digitalizacji

Jakie jest uzasadnienie dla prowadzenia digitalizacji w sektorze dziedzictwa kulturowego?

W tej części kompendium przedstawiono zarys podstawowych pojęć związanych z procesem digitalizacji dziedzictwa kulturowego. Oprócz tego uzasadniono dlaczego digitalizacja jest tak ważna i jaka jest rola małych instytucji kultury w procesie konserwacji dokumentów cyfrowych. Zostanie przedstawiony również podstawowy sposób organizacji pracy przy digitalizacji, co wprowadzi czytelnika w działania prowadzące do tworzenia i udostępniania cyfrowych wersji obiektów dziedzictwa kulturowego w Internecie.

Wstęp

Jakie jest uzasadnienie dla digitalizacji w sektorze dziedzictwa kulturowego? W poniższych opisach i insrukcjach próbujemy odpowiedzieć na te pytania prezentując przykłady różnych projektów digitalizacyjnych. Opis każdego z nich zawiera informacje o specyfice cyfryzowanych materiałów, celach jakie przyświecały instytucjom realizującym dany projekt oraz rzeczywistych zyskach jakie osiągnięto dzięki cyfryzacji. 1 Ilustracja 1. Digitalizacja Codex Gigas, zdjęcie wykonane przez Jensa Östmana (Biblioteka Narodowa Szwecji) [źródło].

Projekt Henry III Fine Rolls

"Henry III Fine Rolls" to projekt zrealizowany przez Archiwum Narodowe i King's College w Londynie. "Spisy opłat (ang. fine rolls) są najstarszymi zachowanymi rejestrami powstałymi w angielskiej kancelarii królewskiej. Ich niemalże ciągła publikacja od roku 1199., obejmująca każdy rok panowania, jest przechowywana w Archiwum Narodowym w Kew. Z czasów rządów Henryka III (1216-1272) zachowało się 56 rejestrów, zapisanych w języku łacińskim na pergaminie [...] Są one podstawowym źródłem dla poznania historii Anglii w okresie między zatwierdzeniem Wielkiej Karty Swobód (Magna Carta) w początkowym okresie panowania Henryka III, a ustanowieniem państwa parlamentarnego pod koniec jego rządów." [źródło] 2 Ilustracja 2. Widok jednego z dokumentów projektu "Henry III Fine Rolls" [źródło]. Bezpośredni dostęp do skarbów kultury ma zazwyczaj tylko ograniczona grupa ludzi. Przed digitalizacją spisów opłat, wartość tych dokumentów dla historyków była znacznie niższa z powodu braku odpowiedniego wydania. Dzięki digitalizacji, spisy są teraz zrozumiałe i dostępne bez ograniczeń. Dostępność takich źródeł historycznych osiągnięto dzięki następującym działaniom:
  • przetłumaczeniu spisów na współczesny język angielski,
  • zapewnieniu możliwości wyszukiwania danych z dokumentu - według osób, miejsc i tematów,
  • opublikowaniu skanów dokumentów ułatwiających zbadanie oryginalnego tekstu łacińskiego,
  • opublikowaniu tłumaczeń z odpowiednimi indeksami w formie książkowej [źródło].
Zachęcamy do zapoznania się z przykładowym komentarzem do jednego z opracowanych w ramach projektu skanów, dostępny jest on tutaj. Więcej szczegółów na temat projektu można znaleźć na stronie http://www.finerollshenry3.org.uk.

Projekt Discover Domesday

Projekt "Discover Domesday" (pol. Poznaj Księgę Sądu Ostatecznego) jest projektem Archiwum Narodowego Wielkiej Brytanii. "Księga Sądu Ostatecznego, sporządzona w Anglii pod koniec XI w., jest najsłynniejszym i najstarszym zachowanym rejestrem publicznym Wielkiej Brytanii. Jest to bardzo szczegółowy spis i wycena wszystkich posiadłości króla oraz jego najważniejszych poddanych, z uwzględnieniem ludności zależnej, budynków oraz pogłowia trzody i bydła. Spis ten był ogromnym przedsięwzięciem, a sama Księga Sądu Ostatecznego, będąca jego zapisem - niezwykłym dokonaniem. Do XIX-wiecznych spisów ludności nie ma nic w historii Anglii, co można do niej porównać." [źródło] Księga Sądu Ostatecznego zyskała status ulubionego skarbu dziedzictwa narodowego Wielkiej Brytanii, ale aby ją zobaczyć na wystawie w Muzeum Archiwum Narodowego, szansę miało mniej niż 1% mieszkańców. W związku z opublikowaniem jej on-line, Archiwum Narodowe zrealizowało plan udostępnienia jej najbardziej zainteresowanym użytkownikom, w tym dzieciom w wieku szkolnym, miłośnikom badań genealogicznych i pracownikom naukowym. Księga Sądu Ostatecznego jest teraz dostępna bezpłatnie on-line, a użytkownicy mogą łatwo wyszukać w niej każde pojęcie oraz przeczytać jej współczesne tłumaczenie. Oprócz tego opracowane zostały również materiały edukacyjne, takie jak gra i quiz dla dzieci w wieku szkolnym. [źródło]

Program digitalizacji prasy australijskiej

Australian Newspapers Digitisation Program (pol. Program digitalizacji australijskiej prasy) prowadzony jest przez Australijską Bibliotekę Narodową. "[...] na początku gazety służyły również jako dzienniki urzędowe - publikowały listy wszystkich skazanych przywożonych do Australii statkami, nazwę statku, którym byli transportowani, przemieszczenia więźniów między koloniami karnymi, listy pozwoleń na opuszczenie więzienia i innych dokumentów związanych z przedterminowym zwolnieniem. Skazani mogli opuścić kolonię karną po zakończeniu wyroku lub po otrzymaniu ułaskawienia (ang. Absolute Pardon). Wyjazdy były ogłaszane w Sydney Gazette, w kolumnie "Zawiadomienie o zamiarach" (ang. "Notice of Intent"). Sekcje informacji z najstarszych australijskich gazet zawierające wiadomości na temat ruchu statków są bardzo ważnym źródłem dla genealogów, dostarczając unikatowych informacji na temat skazanych, ale także innych osób. W takich gazetach dobrze udokumentowana została zarówno kolonizacja Australii przez Brytyjczyków, jak i sposób traktowania rdzennej ludności aborygeńskiej w tym czasie. Wszystkie te czynniki sprawiają, że australijskie gazety są bogatym źródłem dla badaczy". [źródło] 3 Ilustracja 3. Ilustracja z Canberra Times, 26.07.1928, str. 6. Wśród głównych celów programu Australian Newspapers Digitisation Program (ANDP) jego twórcy wymieniają:
  • zwiększenie dostępności australijskich gazet,
  • stworzenie narodowego serwisu, który będzie umożliwiał bezpłatny dostęp on-line do gazet australijskich - od pierwszej z 1803 r. do końca 1954 r.
Rezultaty digitalizacji są dostępne bezpłatnie on-line na platformie, która umożliwia także wyszukiwanie tekstowe. [źródło] Należy również wspomnieć, że dawne gazety były zwykle drukowane na tzw. kwaśnym papierze, kiepskiej jakości, który dość szybko ulega zniszczeniu. Digitalizacja, oprócz mikrofilmowania, jest jedynym sposobem zachowania tych materiałów w dłuższej perspektywie czasowej. Wyniki projektu digitalizacji australijskiej prasy dostępne są w serwisie Trove. Zachęcamy do zapoznania się z przykładowym artykułem dostępnym we wspomnianym serwisie.   4b Ilustracja 4. Przykładowy artykuł w serwisie Trove.  

Projekt The Great War Archive

Projekt The Great War Archive (pol. Archiwum I Wojny Światowej) jest projektem zrealizowanym przy okazji tworzonego na Uniwersytecie Oksfordzkim Cyfrowego Archiwum Poezji I Wojny Światowej. Cyfrowe Archiwum Poezji I Wojny Światowej to projekt Uniwersytetu w Oksfordzie, w którym szczególną uwagę zwrócono na ważniejszych brytyjskich poetów walczących na froncie zachodnim. Zawiera ono również bogate materiały historyczne stanowiące kontekst dla poezji. Częścią tego projektu jest inicjatywa nazwana Great War Archive (GWA, Archiwum I Wojny Światowej). Zadaniem Archiwum było zebranie prywatnych materiałów takich jak: zdjęcia rodzinne, dzienniki, listy czy inne dokumenty i pamiątki z czasów wojny. Realizatorzy projektu kontaktowali się z posiadaczami materiałów (wykorzystując różne kanały komunikacje np. lokalne media), aby uzyskać cyfrowe kopie materiałów i zapisać towarzyszące im opowieści na temat doświadczeń rodzinnych. W czasie 16 tygodni trwania projektu zebrano 6500 obiektów. "W projekcie otrzymaliśmy 42 unikatowe, niepublikowane dzienniki żołnierzy z różnych pól bitew, 63 pamiętniki, 255 niepublikowanych listów, ponad 700 fotografii, wiele broszurek, lokalne obwieszczenia na temat rekrutacji, zdjęcia rzadkich przedmiotów (np. oryginalnego projektu grobu nieznanego żołnierza), itp." [źródło] 5 Ilustracja 5. Pocztówka polowa [źródło] Jaka jest wartość takiej kolekcji? "Od czasu rozpoczęcia, znaczenie projektu zostało potwierdzone przez wielu historyków wojskowości i przedstawicieli muzeów narodowych w Wielkiej Brytanii, Kanadzie i Australii, którzy kontaktowali się z nami zarówno w trakcie trwania, jak i po zakończeniu projektu. Był on opisywany w publikacjach prasowych na całym świecie i wywołał szerokie zainteresowanie. Wczesne statystki użytkowników pokazują, że Archiwum I Wojny Światowej przysporzyło Archiwum Poezji I Wojny Światowej więcej użytkowników, niż materiały, które tworzą bardziej akademicką część archiwum poezji. Nauczyciele regularnie pobierają materiały, aby ilustrować lekcje omawiające różne zagadnienia związane z I Wojną Światową - pozwalają one ożywić temat i zainteresować uczniów. Dla badaczy - zarówno tych związanych z uczelniami, jak i genealogów, regionalnych historyków, a także osób zainteresowanych poszerzaniem wiedzy - nieoglądane dotąd materiały wyznaczają nowe kierunki badań. W rezultacie, z twórcami projektu wciąż kontaktują się osoby, które mogły odnaleźć nieznaną historię swojej rodziny lub społeczności." [źródło]

Podsumowanie

Media w postaci cyfrowej pozwalają więcej się nauczyć i zauważyć, można je wykorzystać na więcej sposobów i bardziej efektywnie, niż media tradycyjne. Bez digitalizacji nie byłoby możliwe np. szybkie przeszukiwanie wszystkich numerów prasy Australian Government Gazettes. Cyfrowe zdjęcia z wystaw muzealnych ułatwiają użytkownikom podjęcie decyzji związanej z pójściem do muzeum lub zachęcają do obejrzenia innych zbiorów tej instytucji. Media cyfrowe pomagają rozwijać sztukę współczesną, dostarczając narzędzi i materiałów, które mogą być łatwo kopiowane, łączone i mieszane w celu uzyskania nowych treści. Biblioteki mogą skanować książki i udostępniać je studentom w czytelniach bibliotecznych, na ekranach monitorów. Dzięki temu limitowana ilość kopii poszczególnych egzemplarzy zgromadzonych w magazynach bibliotecznych przestaje być problemem. Digitalizacja jest metodą na uzyskanie dostępu do zasobów, które mogłyby być niedostępne w przyszłości z powodu zniszczenia, lub niemożność odczytania z powodu braku odpowiedniego sprzętu. W pierwszym przypadku są to np. dziewiętnastowieczne gazety, zaś w drugim stare taśmy filmowe czy płyty winylowe. Wśród wielu innych zalet digitalizacji można wymienić:
  • zapewnienie lepszego dostępu do nieznanych lub rzadko wykorzystywanych kolekcji,
  • zapewnienie lepszych funkcji wyszukiwania i przeglądania kolekcji zdjęć,
  • zapewnienie lepszego zrozumienia oryginalnych prac przez udoskonalone indeksowanie lub niektóre formy wzmocnienia obrazu cyfrowego,
  • tworzenie zbiorów łatwych do wykorzystania w edukacji,
  • wspieranie rozwoju wiedzy, podkreślenie znaczenia i zrozumienia dziedzictwa kulturowego,
  • umożliwienie zachowania zbiorów dla przyszłych pokoleń przez wprowadzenie formatu cyfrowego.
Sześć wyżej wymienionych zalet digitalizacji nie wyczerpuje wszystkich możliwości, wskazują one jednak na znaczącą rolę digitalizacji dla zachowania dziedzictwa kulturowego. Ułatwiony dostęp do wiedzy i wsparcie działań związanych z zachowaniem dziedzictwa kulturowego to najważniejsze korzyści, które można uzyskać dzięki digitalizacji. Oba działania zalicza się do podstawowych w misji małych instytucji kultury.  

Jak może wyglądać organizacja pracy w prostym digitalizacyjnym?

Według jednej z najbardziej ogólnych definicji, digitalizacja to przetworzenie obiektu analogowego w format cyfrowy. Poniższe opisy poświęcone są omówieniu pojęć związanych z digitalizacją i możliwym sposobom organizowania pracy przy digitalizacji w instytucji. Przykłady różnych projektów digitalizacyjnych przedstawione wcześniej mogą dać pogląd na to, jak różnorodnych obiektów może dotyczyć digitalizacja - mogą się znaleźć wśród nich rysunki, książki, rękopisy, a nawet nagrania muzyczne na płytach winylowych. Każdy rodzaj zasobów wymaga innego traktowania oraz wykorzystania określonych narzędzi, których właściwe użycie wymaga dodatkowej wiedzy. Kolejny etap to wybór odpowiedniego sposobu prezentacji obiektów w sieci i publikacja w bibliotece cyfrowej. Sama cyfryzacja nie jest trudna - wystarczy zaznajomić się z kilkoma podstawowymi pojęciami. Aby lepiej uświadomić sobie co może pójść źle, prześledzimy kilka przykładów pokazujących, na co trzeba zwrócić uwagę podczas digitalizacji.

Przykład 1 - Zbyt niska rozdzielczość

6 Ilustracja 6. Zbyt niska rozdzielczość sprawia, że tekst jest nieczytelny.   Nawet dla osób biegle władających łaciną odczytanie tekstu z powyższej ilustracji byłoby problemem. Aby zrozumieć powód nieczytelności tego tekstu, należałoby dowiedzieć się więcej na temat rozdzielczości obrazu. Rozdzielczość obrazu określa jego szczegółowość - im jest ona wyższa, tym więcej detali widać. Zwykle stosowanie niższej rozdzielczości pozwala na szybsze ściąganie pliku, zmniejsza bowiem ilość danych do pobrania i przetworzenia przez komputer użytkownika, ale jak widać na Ilustracji 1 - zbyt niska rozdzielczość może spowodować, że tekst będzie nieczytelny. Z drugiej strony, jeśli obraz ma bardzo wysoką rozdzielczość, jest bardzo wyraźny, ale zajmuje dużo miejsca na dysku twardym. Wydłuża to czas pobierania i oczekiwania przez użytkownika na pojawienie się obrazu na ekranie komputera. Ważne jest zatem dobranie proporcji między rozmiarem a jakością obrazu cyfrowego.

Przykład 2 - Gdzie jest pan Smith?

Aby znaleźć wszystkie wystąpienia danego słowa w tekście strony WWW podczas używania jednej z popularnych przeglądarek internetowych (takich jak Firefox, Opera, Internet Explorer lub Chrome), wystarczy wcisnąć kombinację klawiszy CTRL+F, wpisać słowo "Smith" i nacisnąć ENTER. Jak widać jest to dość proste. Jednak po otwarciu tego linku i próbie powtórzenia czynności, odnalezienie tekstu będzie niemożliwe, mimo iż użytkownik widzi de facto ten sam tekst. Grafika tam zamieszczona przedstawia zawartość strony WWW i o ile obie wersje mogą być bez problemu odczytane przez użytkownika, to w drugim przypadku nie można wykorzystać przeglądarki do wyszukania konkretnego fragmentu tekstu. Na tym właśnie polega podstawowa różnica między plikami tekstowymi (cyfrowym tekstem) i graficznymi. 7 Ilustracja 7. Plik graficzny prezentujący zawartość strony internetowej nie pozwala na realizację wyszukiwania pełnotekstowego   Proces digitalizacji jest równoznaczny z przetworzeniem rzeczywistej książki do formatu cyfrowego z użyciem skanera lub aparatu cyfrowego. W rezultacie powstaje seria obrazów ukazujących zeskanowane strony, których tekst można bez problemu odczytać. Można jednak łatwo wyobrazić sobie sytuację, w której trzeba będzie wyszukać określoną informację w 300-stronicowej książce. O wiele łatwiej wtedy po prostu wcisnąć CTRL+F, niż przeglądać i czytać całość tekstu z plików graficznych. Cyfrowy tekst umożliwia również wygodne kopiowanie całych fragmentów, np. zdań czy akapitów. Nie można tego osiągnąć w przypadku plików graficznych. Co trzeba zrobić, aby przetworzyć plik graficzny zawierający tekst do postaci przeszukiwalnej (zrozumiałej dla programów komputerowych)? Mamy do wyboru dwa główne wyjścia:
  • ręcznie wprowadzić tekst z pliku graficznego i zapisać go używając edytora tekstowego, np. Notatnika,
  • użyć specjalnego oprogramowania, które zinterpretuje obraz i automatycznie przygotuje tekst w postaci cyfrowej.
Maszynowe (automatyczne) rozpoznawanie tekstu (tzw. OCR), o którym tu mowa, wydaje się być dobrym rozwiązaniem, jednak w rzeczywistości wymaga ono dodatkowej pracy, polegającej na znalezieniu i poprawieniu ewentualnych błędów popełnionych przez program. W przypadku pisma ręcznego, użycie takiego oprogramowania jest prawie niemożliwe. Problemy związane z rozpoznawaniem tekstu będą dokładniej omówione w innych częściach kompendium.

Przykład 3 - Jak otworzyć ten plik?

Wiemy już, że obrazy powinny mieć odpowiednią rozdzielczość, ale im większa rozdzielczość, tym dłuższy czas pobierania pliku. Można wyobrazić sobie nowy format plików, który przy zachowaniu bardzo wysokiej rozdzielczości pobiera się niezwykle szybko. Z takiej możliwości chciałaby z pewnością skorzystać każda biblioteka cyfrowa. Jest tylko jeden problem - format ten jest rzadko używany, wymaga zainstalowania dodatkowego i trudnego w obsłudze oprogramowania, a firma która go opracowała pobiera wysoką opłatę za możliwość jego użycia. Jest to oczywiście przykład skrajny, ale przy wybieraniu formatu plików powinno się wziąć pod uwagę nie tylko kwestie związane z funkcjonalnością, takie jak rozmiar pliku - o innych czynnikach będzie mowa później. Należy zawsze mieć na uwadze, że dla bibliotek cyfrowych niezwykle ważna jest kwestia dostępności jej zasobów. Powyższe przykłady ukazują kilka kluczowych czynników, które należy wziąć pod uwagę przy przeprowadzeniu digitalizacji. W procesie przetwarzania obiektów analogowych do formy cyfrowej można zetknąć się z następującymi problemami:
  1. Istnieje więcej niż jedno narzędzie odpowiednie do wykonania zadania;
  2. Należy wiedzieć, jak digitalizować z użyciem konkretnego narzędzia;
  3. Trzeba pamiętać, że przy digitalizacji mamy do czynienia z cennymi obiektami muzealnymi (należy zachować ostrożność);
  4. Może to być ostatnia szansa na dokonanie digitalizacji danego obiektu, dlatego należy zapewnić wysoką jakość zarówno w trakcie, jak i po zakończeniu procesu skanowania;
  5. Przetworzenie tekstu z formy pliku graficznego do tekstu cyfrowego może być naprawdę żmudnym zadaniem, jednak wartym wykonania;
  6. Przy wyborze formatu do publikacji on-line, należy pamiętać, że biblioteki cyfrowe są tworzone dla użytkowników. W związku z tym pod uwagę należy brać ich rzeczywiste potrzeby.

Organizacja pracy przy digitalizacji

Wcześniej przedstawiliśmy kilka przykładów projektów digitalizacyjnych, pokazano również niektóre czynniki mające wpływ na jakość digitalizacji. W niniejszej części będzie można dowiedzieć się więcej na temat możliwych sposobów organizacji pracy przy cyfryzacją zbiorów. Bardziej szczegółowo przedstawimy to na przykładzie kilku zadań. Zadanie 1: "Mamy 10 archiwalnych numerów lokalnej gazety. Chcielibyśmy również opublikować zdjęcia kościoła z naszej miejscowości, a także wideo z wydarzenia, które miało miejsce w ubiegłym tygodniu w naszej bibliotece." Zadanie 2: "Posiadamy wszystkie numery gazety od 1930 do 1939 roku, otrzymaliśmy fundusze na ich digitalizację. Chcielibyśmy zapewnić możliwość wyszukiwania pełnotekstowego w cyfrowych wersjach tych gazet." Zadanie 3: "Część naszych zbiorów uległa zniszczeniu, ale na szczęście mamy mikrofilmy. Chcielibyśmy stworzyć również cyfrowe kopie tych materiałów, aby zabezpieczyć się przed ewentualnym zniszczeniem mikrofilmów." Projekty digitalizacyjne mogą różnić się skalą, dostępnymi funduszami, terminami realizacji, stanem zachowania i rodzajem skanowanych materiałów. Część zadań może być wykonana całkiem szybko, z użyciem zwykłego aparatu cyfrowego i komputera średniej klasy, ale niektóre prace wymagają zastosowania dodatkowego sprzętu i bardziej formalnego podejścia do organizacji pracy. Wkrótce przedstawimy bardziej konkretne przykłady, natomiast w ogólnym zarysie digitalizacja składa się z następujących etapów:
  1. Wybór obiektów do digitalizacji,
  2. Przygotowanie metadanych dla wybranych obiektów,
  3. Wybór odpowiedniego sprzętu do przeprowadzenia digitalizacji,
  4. Skanowanie danych obiektów,
  5. Edycja zeskanowanych obrazów z użyciem oprogramowania graficznego,
  6. Przygotowanie obiektów cyfrowych do prezentacji w sieci,
  7. Wykonanie kopii bezpieczeństwa cyfrowych oryginałów,
  8. Publikacja obiektów w bibliotece cyfrowej.
Każdy z wymienionych etapów zostanie omówiony w poniższym kompendium. W przypadku małych instytucji, w których za digitalizację  odpowiedzialna jest zazwyczaj tylko jedna osoba, organizacja pracy i zachowanie procedur nie ma aż tak dużego znaczenia. Jednak zawsze warto dokumentować przebieg digitalizacji i opisać działania, które zostały wykonane w celu realizacji danego zadania. Choćby po to, aby prace mogły być realizowane mimo ewentualnych zmian kadrowych/urlopów itp. Koordynacja i zarządzanie stają się ważne, gdy w pracę nad digitalizacją zaangażowanych jest więcej osób, lub gdy oczekiwania co do jakości i terminów realizacji są wysokie, a także gdy te warunki występują łącznie. W takim przypadku należy zorganizować pracę tak, aby rozdzielić odpowiedzialność, uwzględnić umiejętności i wiedzę poszczególnych pracowników. Organizacja pracy będzie wyglądać inaczej, niż gdy za wszystko odpowiedzialna jest jedna osoba. W tzw. masowej digitalizacji zadania powinny być jasno określone, a specjalizacja poszczególnych osób zaangażowanych w proces powinna być możliwie wąska. Dzięki temu okres wdrażania nowej osoby jest względnie krótki. Gdy digitalizacja jest zadaniem jednorazowym, można rozważyć wynajęcie zewnętrznego podwykonawcy, który zajmie się digitalizacją kolekcji. W tej sytuacji należy jednak pamiętać, że potrzebna będzie wiedza i zasoby ludzkie, aby zweryfikować wyniki prac zewnętrznej firmy.

Wybór obiektów do digitalizacji

Liczba obiektów, ich rodzaj i stan zachowania determinują wszystkie kolejne etapy procesu digitalizacji, dlatego selekcja materiałów może mieć istotne znaczenie dla przebiegu całego procesu. W przypadku małych instytucji kultury, wybór obiektów do digitalizacji może być prostą sprawą - najprawdopodobniej pracownicy takich instytucji sami wiedzą, jakie obiekty mogą być interesujące dla ich użytkowników. Mimo tego, niezależnie od wielkości projektu, zawsze warto stworzyć choćby prostą listę obiektów, które chcemy zdigitalizować. Pozwoli to oszacować zarówno ilość pracy jak i czasu potrzebnego do digitalizacji. Do najważniejszych czynników mających wpływ na proces digitalizacji należą:
  • Kwestie praw autorskich i praw własności intelektualnej (IPR),
  • Dostępność istniejących wersji cyfrowych,
  • Wysokość kosztów digitalizacji.
Prawa własności intelektualnej (w szczególności prawa autorskie) nie oznaczają, że pracownik biblioteki nie może zdigitalizować książki. Problemem jest jej późniejsze udostępnienie w wersji cyfrowej dla szerokiej rzeszy użytkowników. Według prawa obowiązującego w większości krajów Unii Europejskiej, dopuszcza się udostępnienie cyfrowych kopii na terenie biblioteki, natomiast nie zezwala się na udostępnienie publikacji objętej prawem autorskim w Internecie. Należy o tym pamiętać, gdyż skutki naruszeń praw autorskich mogą być bardzo dotkliwe. Jeśli istnieje już cyfrowa wersja obiektu, należy rozważyć, czy warto powielać czyjąś pracę przez ponowną digitalizację. Wysokie koszty digitalizacji mogą być związane z niektórymi, stosunkowo rzadkimi materiałami, do których zalicza się na przykład profesjonalne taśmy wideo. W takim przypadku może być wymagane zakupienie specjalnego sprzętu do digitalizacji, który może być kosztowny. Jednym z możliwych, rozsądnych wyjść jest zlecenie digitalizacji firmie zewnętrznej, co może efektywnie zmniejszyć koszty całego przedsięwzięcia. Więcej informacji na temat wyboru obiektów do digitalizacji i tworzenia dobrych kolekcji cyfrowych, zostanie przedstawionych w dalszych częściach kompendium.

Zlecanie digitalizacji firmie zewnętrznej (ang. outsourcing)

"Najczęściej outsourcing widziany jest jako przekazanie zadań niezwiązanych bezpośrednio z podstawową działalnością firmy do realizacji dostawcy zewnętrznemu". [źródło]. Obecnie outsourcing jest szeroko stosowanym rozwiązaniem w różnych sferach przemysłu. Może być wykorzystany na różnych etapach digitalizacji, szczególnie w przypadku procesu skanowania i rozpoznawania tekstu. Outsourcing może także znacząco obniżyć koszty digitalizacji. Poniżej znajduje się fragment "Handbook on Cost Reduction in Digitisation" (pol. Podręcznika na temat zmniejszania kosztów digitalizacji) Simona Tannera [źródło], który bardziej szczegółowo wyjaśnia problem outsourcingu w digitalizacji. "Skorzystanie z usług zewnętrznej firmy pozwala na użycie sprzętu i fachowej wiedzy strony trzeciej, podczas gdy zespół realizujący projekt może koncentrować się na kwestiach, w których sam posiada wiedzę specjalistyczną. Dzięki przekazaniu pracy firmie zewnętrznej, koszty zakupu i utrzymania sprzętu nie są w całości ponoszone przez projekt. W wielu projektach nigdy nie udaje się w pełni wykorzystać amortyzacji sprzętu, który został zakupiony, co zwiększa koszty digitalizacji. Inne powody outsourcingu to:
  • duża ilość pracy do wykonania w krótkim czasie;
  • nadmiernie wysoki koszt specjalistycznego sprzętu (np. skanery do starodruków lub mikrofilmów);
  • brak możliwości zapewnienia wymaganego w instytucji poziomu jakości z powodu braku umiejętności i doświadczenia;
  • skala projektu wykluczająca digitalizację w instytucji: ograniczenia powierzchni, infrastruktury lub personelu;
  • chęć wykorzystania zalet firm zagranicznych (w których niższe koszty utrzymania personelu znajdują odbicie w kosztach digitalizacji) w wykonaniu czynności takich jak: masowe skanowanie dokumentów lub mikrofilmów, przepisywanie tekstu ze skanów (ang. text rekeying) w celu zapewnienia możliwości wyszukiwania danych z tekstu lub konwersja dokumentów do formatu XML".

Przygotowanie metadanych

Czym są metadane? Dosłownie, metadane to dane o danych - takie rozumienie tego pojęcia ma zastosowanie zarówno w przypadku zasobów cyfrowych, jak i tradycyjnych. Istnieją różne rodzaje metadanych, a każdy jest odpowiednio zależny od danego celu, jednak wszystkie mają wspólną właściwość - jasno zdefiniowaną strukturę. Oprócz tego, określane są zasady tworzenia i wykorzystywania metadanych. Przejrzysta struktura, zasady użycia i tworzenia metadanych są bardzo pomocne zarówno dla użytkowników, jak i dla programów komputerowych, przetwarzających informacje przechowywane w rekordach. 8

Ilustracja 8. Metadane pozwalają dotrzeć do zasobów których szukamy. Zdjęcie autorstwa Mariusza Kucharczyka [źródło].

 

Klasyfikacja metadanych

Metadane mogą być pomocne przy wielu czynnościach związanych z przeszukiwaniem zasobów i zarządzaniem nimi, oraz konserwacją związaną z długotrwałym przechowywaniem danych. W trakcie trwania projektu digitalizacyjnego może być konieczne stworzenie metadanych opisujących kilka klas zasobów, w tym:
  • obiekty fizyczne, które mogą być zdigitalizowane,
  • obiekty cyfrowe, stworzone w wyniku procesu digitalizacji,
  • wszystkie obiekty będące pochodnymi oryginalnych rezultatów digitalizacji,
  • kolekcje dowolnych obiektów należących do którejś z powyższych klas zasobów.
Jak widać, metadane mogą być użyte do opisania wszystkich rezultatów procesu digitalizacji, różnych rodzajów obiektów i do bardzo wielu innych celów. Nie istnieje jeden standard metadanych, za pomocą którego można oddać całą tę różnorodność. Pełny pogląd na standardy metadanych może dać poniższa klasyfikacja. Metadane można podzielić ze względu na:
  • rodzaj instytucji, w których są używane:
    • muzea,
    • archiwa,
    • biblioteki,
  • rodzaje funkcji, które mają być opisane przez metadane:
    • metadane opisowe
      • umożliwiają wyszukanie i interpretację obiektu cyfrowego
    • metadane administracyjne
      • służą do zarządzania obiektem cyfrowym i dostarczają więcej informacji na temat okoliczności jego powstania oraz wszelkich ograniczeń dotyczących jego użycia
    • metadane konserwatorskie
      • przeznaczone do wspomagania długotrwałego przechowywania materiałów cyfrowych
    • metadane strukturalne
      • opisują logiczne lub fizyczne relacje między poszczególnymi częściami obiektu
    • opis na poziomie kolekcji
      • Na podstawie kolekcji można tworzyć wiele różnych rodzajów serwisów cyfrowych. Powinny być opisane w sposób umożliwiający użytkownikowi zapoznanie się z najważniejszymi cechami kolekcji, takimi jak jej zakres, format obiektów, prawa własności i ograniczenia dostępu. Opis taki pozwala również na umieszczenie kolekcji w serwisach cyfrowych gromadzących i udostępniających informacje o kolekcjach.
Uwaga: W rzeczywistości poszczególne schematy metadanych często są przeznaczone do różnych funkcji, w skutek czego powyższe kategorie nakładają się na siebie. W niniejszym kompendium skupimy się głównie na metadanych opisowych. Każdy rodzaj metadanych wymieniony powyżej jest realizowany przy użyciu różnych schematów (standardów) metadanych. Jednym z ważniejszych standardów dla metadanych opisowych jest Dublin Core Metadata Element Set (DCMES); przykładowy rekord stworzony przy użyciu tego standardu wygląda następująco: Twórca (ang. Creator): Rose Bush Tytuł (ang. Title): A Guide to Growing Roses Opis (ang. Description): Opisuje sposób uprawy i pielęgnacji różnych rodzajów krzewów różanych. Data (ang. Date): 2001-01-20 W specyfikacji DCMES jest 15 elementów; wśród nich znajdują się Title (pol. tytuł), Creator (pol. twórca), Description (pol. opis), itp. Specyfikacja ta określa dokładną interpretację danego elementu oraz to, jaka informacja powinna się w nim znaleźć.
  • Pole "Creator" (pol. twórca) przechowuje informacje na temat osoby lub organizacji pierwotnie odpowiedzialnej za stworzenie dokumentu.
  • Pole "Title" (pol. tytuł) to nazwa nadana dokumentowi.
  • Pole "Description" (pol. opis) jest tekstem opisującym dokument.
  • Pole "Date" (pol. data) jest momentem lub okresem czasu związanym z pewnym wydarzeniem w cyklu życia dokumentu.

Standardy terminologiczne

Zgodnie z tym, co powiedziano we wstępie do tej części, metadane mają określoną strukturę oraz stosuje się do nich określone reguły. Metadane są użyteczne, jeśli przy ich tworzeniu postępuje się zgodnie z tymi regułami. Dzięki nim, użytkownicy będą mogli dotrzeć i skorzystać z zasobów, których szukają. Przedstawiony został przykład rekordu metadanych zgodnych ze standardem DCMES. Jednak zgodność z DCMES nie wystarcza, żeby informacja przechowywana w rekordach metadanych była użyteczna dla wszystkich potencjalnych użytkowników. Aby osiągnąć pełną efektywność wymiany informacji zawartych w rekordach metadanych niezbędne jest:
  • wspólne zrozumienie używanego schematu metadanych (ogółem chodzi o elementy opisu np. nazwisko i imię autora),
  • wspólne zrozumienie terminów używanych jako wartości w polach schematu metadanych.
Stosowanie standardu DCMES rozwiązuje pierwszy problem, natomiast doprowadzenie do wspólnego zrozumienia terminów może być osiągnięte przez stosowanie ogólnie przyjętych terminologii i ustalenie relacji pomiędzy terminami pochodzącymi z różnych kategorii terminologicznych. Czasem określona rzecz może mieć więcej niż jedną nazwę, a osoba może być znana pod więcej niż jednym nazwiskiem. Jeśli w metadanych umieści się tylko jedną z tych nazw - użytkownicy, którzy nie znają tej właśnie nazwy, nie będą w stanie znaleźć informacji na poszukiwany temat. Mogą nawet dojść do wniosku, że w bibliotece cyfrowej, z której korzystają, nie ma zasobów związanych z daną osobą lub przedmiotem. Aby uniknąć takiej sytuacji część ekspertów zaczęła opracowywać standardowe terminologie i konwencje mogące pomóc w tworzeniu i wykorzystywaniu użytecznych metadanych zarówno katalogującym, jak i użytkownikom. Takie terminologie (lub słowniki) łączą w jedynym rekordzie wszystkie możliwe nazwy, pod którymi znana jest dana osoba. W większości przypadków w takim słowniku sugerowane jest użycie jednej z form, a dany termin powiązany jest z innymi o szerszym lub węższym znaczeniu. Używane słowniki kontrolowane powinny być ogólnodostępne, dzięki czemu w przypadku terminów niezrozumiałych, użytkownicy mogliby znaleźć ich objaśnienie.

Użycie istniejących metadanych

Jak widać, w przygotowaniu metadanych kryje się wiele pułapek. Jeśli to możliwe, warto użyć istniejących już metadanych, które można zaimportować z publicznie dostępnego katalogu. Po zaimportowaniu metadanych do własnego systemu można dokonać ich korekt tak, aby lepiej spełniały wymagania użytkowników.

Sprzęt do skanowania

Pod pojęciem sprzętu skanującego rozumiemy wszelkie urządzenia do rejestracji obrazu, w tym skanery i aparaty cyfrowe. Skanowanie jest centralną częścią procesu digitalizacji. W tej części kompendium przedstawione zostaną rodzaje sprzętu, za pomocą którego można digitalizaować różne rodzaje materiałów. Przed rozpoczęciem skanowania należy zdecydować, jaki rodzaj skanera będzie najlepszy dla przetwarzanego obiektu. Aby podjąć dobrą decyzję należy być świadomym, czym różnią się poszczególne urządzenia i jakie są ich cechy. Niektóre rodzaje skanerów są tak drogie, że ich nabycie przekracza możliwości małych instytucji. Niektóre z nich są niezwykle funkcjonalne i szybkie, ale w rzeczywistości większość zadań, które wykonuje się z użyciem tych bardzo zaawansowanych technicznie skanerów można wykonać za pomocą aparatu cyfrowego lub prostego skanera płaskiego. 9

Ilustracja 9. Czy aparaty komórkowe mogą być wykorzystywane jako sprzęt do digitalizacji? Autorem zdjęcia jest Kai Hendry [źródło]

 

Typy sprzętu do skanowania

Poniżej można znaleźć podstawową klasyfikację sprzętu skanującego z krótkim opisem. Większość informacji oparta jest na źródłach dostępnych na stronie Biblioteki Uniwersytetu Cornella w Ithace (USA): [źródło].

Skanery płaskie

  • "Nie bez powodu skanery płaskie są najbardziej znanym i najlepiej sprzedającym się rodzajem skanerów. Są one uniwersalne, łatwe w użyciu i powszechnie dostępne. Ich popularność do celów publikowania w sieci otworzyła duży rynek, dzięki czemu ceny podstawowych modeli spadły poniżej 100 dolarów".
  • "Automatyczne podajniki dokumentów (ang. Automatic Document Handler, ADH), dostępne dla niektórych modeli, mogą zwiększyć przepustowość i odciążyć osoby je obsługujące, szczególnie w przypadku digitalizacji zestawów jednakowych dokumentów w stosunkowo dobrym stanie".
  • "Specjalną wersją skanera płaskiego jest skaner do książek z wysięgnikiem (ang. overhead book scanner), w którym źródło światła, czujniki oraz optyka przeniesione zostały na wysięgnik, pod który układa się materiały do skanowania".

Skaner z podajnikiem

  • "Skanery te oparte są na technologii, która jest również stosowana w skanerach płaskich, ale te posiadają maksymalną przepustowość osiąganą zwykle kosztem jakości. Zaprojektowane są z myślą o wysokiej wydajności, wymaganej w sektorze biznesu. Typowe jest tu skanowanie czarno-białe oraz relatywnie niska rozdzielczość w odcieniach szarości".
  EPSON DSC picture

Ilustracja 10. Skaner bębnowy [źródło].

Skanery bębnowe

  • "Wyróżniają się spośród innych typów skanerów najwyższą rozdzielczością i jakością skanów. Są również najdroższe. Poza ceną, ich negatywną stroną jest powolność skanowania oraz skomplikowana obsługa, wymagająca wysoko wykwalifikowanego personelu. Skanery bębnowe nie nadają się do skanowania kruchych i łamliwych dokumentów".

Skanery mikrofilmów

  • "Wysoce wyspecjalizowane urządzenia do digitalizacji taśm filmowych, mikrofisz i kart perforowanych. Uzyskanie dobrej i spójnej jakości skanów z mikrofilmów może być trudne w przypadku różnej jakości poszczególnych części oryginału. Skaner ma niewielkie możliwości poprawienia jakości skanów".

Skanery slajdów

  • "Używane są do digitalizacji zasobów slajdów oraz fotografii obiektów trójwymiarowych, a także dokumentów, które nie nadają się do bezpośredniego skanowania."

Cyfrowe aparaty fotograficzne

  • "Cyfrowe aparaty fotograficzne łączą w sobie skaner oraz optykę aparatu tworząc wszechstronne narzędzie wytwarzające skany o najwyższej jakości. Mimo iż są wolniejsze i bardziej skomplikowane w obsłudze od skanerów płaskich, ich wszechstronność pozwala na użycie ich do digitalizacji szerokiej gamy dokumentów i obiektów. Większość delikatnych materiałów może być zdigitalizowana za pomocą cyfrowego aparatu fotograficznego, jednakże należy wziąć pod uwagę, iż szkodliwa dla tych materiałów może być konieczność zapewnienia zewnętrznego oświetlenia."

Skanery 3D

  • To najnowsza technologia skanerów bezdotykowych, które pozwalają na bezpieczny pomiar 3D obiektów muzealnych - umożliwiają przeprowadzenie pełnej digitalizacji zabytku.
11 Ilustracja 11. Skanowanie za pomocą skanera 3D. Autor: Phil Parker [źródło]  

Jak wybrać właściwy skaner?

W "Moving Theory into Practice: Digital Imaging Tutorial" [źródło] autorzy zwracają uwagę na następujące fakty: "Specyfikacja skanerów może być trudna w interpretacji, co w połączeniu z brakiem standaryzacji sprawia, że bezpośrednie porównania sprzętu są niemożliwe. [...] Przy zgłębianiu informacji na temat dostępnych skanerów, należy mieć na uwadze fakt, że większość tych urządzeń zaprojektowana została dla potrzeb sektora biznesu lub segmentu sztuk graficznych, które stanowią duży rynek zbytu. Zaledwie kilka urządzeń zaprojektowano specjalnie z możliwością dostosowania ich do specyficznych potrzeb bibliotek i archiwów. Zadaniem osoby planującej digitalizację będzie ustalenie który skaner jest najbardziej odpowiedni do zadań". O czym należy pamiętać przy wyborze skanera [źródło]:
  • Czy sprzęt jest odpowiedni do skanowania materiałów o różnych wielkościach (np. A4, A0), różnych typów (pojedyncze strony, książki), różnych powierzchni (błyszczące, przezroczyste)? Czy możliwe będzie skanowanie obiektów w bardzo złym stanie?
  • Czy dany sprzęt generuje obrazy wystarczającej jakości?
  • Czy sposób działania danego skanera zgodny będzie z zaplanowanym harmonogramem produkcji i budżetem? Czy jest on wystarczająco szybki i łatwy w obsłudze?
  • O ile to możliwe należy uzyskać informacje takie jak: maksymalne obciążenie robocze (ilość skanów w jednostce czasu), średni czas bezawaryjnej pracy (ang. MTBF - Mean Time Between Failure) oraz jaka jest wydajność cyklu życiowego.
  • Co przewiduje umowa serwisowa (gwarancja 24-godzinnej naprawy uszkodzeń, pełen serwis, itp.)?
Zagadnienia dotyczące sprzętu skanującego oraz jego efektywnego wykorzystywania będą rozwinięte w dalszej części kompendium.

Obróbka graficzna po skanowaniu

Obróbka graficzna po skanowaniu nie zawsze jest niezbędna. Może być pomocna przy:
  • Naprawianiu błędów skanera w zakresie kalibracji
    • obrazy otrzymane po skanowaniu mogą się bardzo różnić od oryginalnych, czasami możliwa jest korekta kolorów dzięki wykorzystaniu oprogramowania graficznego.
  • Zmianie w zakresie położenia obrazów
    • w wyniku błędów osoby skanującej lub samej maszyny obrazy mogą być przekręcone, co utrudnia ich oglądanie. Może to być łatwo naprawione dzięki odpowiedniemu oprogramowaniu.
  • Konwersji do odpowiedniego formatu graficznego
    • różne urządzenia skanujące tworzą obrazy w różnych formatach, niekoniecznie optymalnych do przechowywania w dłuższej perspektywie czasowej.
Obróbka końcowa (ang. post-processing) może zostać wykonana przy użyciu pakietów graficznych, takich jak Photoshop lub GIMP.

Rozpoznawanie tekstu

Jak już wspomniano, aby osiągnąć pełną dostępność dokumentów i odnieść korzyści z ich formy cyfrowej, nie wystarczy opublikowanie tekstu w postaci plików graficznych. Użytkownicy najbardziej cenią sobie możliwość wykonania wyszukiwania pełnotekstowego. Dostęp do cyfrowego tekstu pozwala również na stosowanie syntezatorów mowy - programów komputerowych, które czynią tekst dostępnym dla osób niewidomych. Istnieją również inne aplikacje pozwalające na bardziej efektywne korzystanie z informacji przechowywanych w dokumentach tekstowych. Aby z nich korzystać, należy najpierw przekształcić plik graficzny do formy cyfrowego tekstu. Dwa podstawowe sposoby przeprowadzania takiej konwersji to:
  1. "Ręczne" przepisanie tekstu z ze skanów (bądź oryginału), a następnie zapisanie go za pomocą edytora tekstu takiego jak np. Notatnik,
  2. Posłużenie się przeznaczonym do tego oprogramowaniem, które rozpozna tekst i automatycznie przygotuje jego wersję cyfrową.
Pierwsza możliwość wydaje się prosta, ale w rzeczywistości jest bardzo kosztowna i mozolna. Druga zaś, mimo iż nieporównywalnie szybsza, również wymaga ręcznej weryfikacji otrzymanych wyników. Automatyczne rozpoznawanie znaków czyli OCR (ang. optical character recognition) jest w tej chwili szeroko stosowane w wielu dziedzinach. Nowoczesne aplikacje (i urządzenia) OCR są bardzo skuteczne w rozpoznawaniu tekstów współczesnych. Gorsze rezultaty osiąga się, gdy oprogramowanie OCR jest stosowane w przypadku starych druków lub dokumentów pisanych nietypową czcionką. Aby osiągnąć stuprocentową poprawność tekstu digitalizowanego przy pomocy OCR, powinien on zostać sprawdzony przed publikacją w bibliotece cyfrowej. 12 Ilustracja 12. Przykładowe zastosowanie aplikacji do automatycznego rozpoznawania znaków. Zdjęcie autorstwa Sho Hashimoto [źródło].   Jaką metodę wybrać, aby osiągnąć najlepsze rezultaty?
  • O ile to możliwe, przed zakupem oprogramowania OCR należy wypróbować wersję testową,
    • oprogramowanie OCR bywa bardzo drogie, co może zniechęcać. Istnieją także darmowe rozwiązania, ale mogą wymagać znajomości zagadnień informatycznych.
    • po zainstalowaniu wersji testowej, należy sprawdzić jak radzi sobie ona z zasobami, których dotyczył będzie nasz projekt digitalizacyjny.
  • Jeżeli oprogramowanie OCR nie daje odpowiednich rezultatów, trzeba rozważyć ręczne wprowadzanie tekstu.
    • rozwiązania pozwalające przyspieszyć ten proces zostaną omówione w dalszej części.

Co jest istotne przy korzystaniu z oprogramowania OCR?

Istnieje kilka czynników mających wpływ na jakość tekstów będących wynikiem procesu OCR.
  • Typ dokumentu
    • jakość zależy od tego, czy korzystamy z tekstu drukowanego czy też pisanego ręcznie.
  • Jakość druku
    • lepsza jakość pozwala osiągnąć lepsze rezultaty.
  • Jakość oryginalnego dokumentu
    • jeżeli obiekt oryginalny był uszkodzony lub nieczytelny, stwarzający problemy z odczytaniem, nie można spodziewać się zbyt dobrych wyników OCRa.
  • Rozdzielczość, liczba kolorów
    • w przypadku niektórych dokumentów, mała liczba kolorów może spowodować utratę informacji, podobnie jak przy niskiej rozdzielczości. Mniejsza ilość informacji przeważnie obniża jakość OCR.
  • Oprogramowanie OCR zwykle lepiej się sprawdza w przypadku obrazów o dużym kontraście
    • co ważne, wysoki kontrast ułatwia rozpoznawanie kształtu liter
  • Język tekstu
    • większość współczesnych mechanizmów OCR wykorzystuje słowniki ortograficzne do poprawy błędów literowych. Jako, że trudno o słowniki (zasoby językowe) dla niektórych, mało znanych języków, wydajność OCR dla takich tekstów również może być niższa.
  • Układ tekstu
    • układ tekstu w książce (jedna kolumna) różni się od tego w gazecie (wiele kolumn i ilustracje); im bardziej skomplikowana struktura tekstu, tym trudniej uzyskać dobre rezultaty przy obróbce OCR.
  • Formatowanie tekstu
    • odpowiednie interlinie, kolumny i marginesy pozwalają lepiej rozpoznać granice tekstu.
Na rynku dostępnych jest kilka aplikacji oprogramowania OCR; przed wyborem należy rozważyć różne aspekty związane z możliwościami konkretnego pakietu oprogramowania. Najprostszym sposobem doboru jest sprawdzenie, jak dana aplikacja działa w przypadku konkretnego obiektu będącego przedmiotem digitalizacji. Dostawcy oprogramowania oferują darmowe wersje testowe, warto z nich skorzystać i sprawdzić jak dany program działa na naszym komputerze i jak radzi sobie z danym typem materiałów.

Wersje obiektów cyfrowych do prezentacji w sieci

Jednym z celów digitalizacji jest ochrona zbiorów. Cyfrowa kopia danego obiektu pozwala na jego częściowe zachowanie, nawet jeśli oryginalna wersja stanie się nieczytelna. Tworzenie kopii cyfrowej odbywa się przez skanowanie, co może być bardzo pracochłonne, uciążliwe i niebezpieczne (dla skanowanego materiału). Należy, o ile to możliwe, unikać ponownego skanowania, dlatego najrozsądniej jest rejestrować obrazy w wysokiej rozdzielczości. Takie działanie pozwoli zachować wszystkie detale oryginalnego obiektu. Jeżeli natomiast szczegółowa reprodukcja nie jest niezbędna, możliwe jest stworzenia kopii obiektu w niższej rozdzielczości, bez potrzeby ponownego skanowania. Więcej informacji na temat doboru rozdzielczości zostało zawartych w dalszych częściach kompendium. W tej części przedstawione zostaną zagadnienia związane z przygotowaniem wersji obiektów cyfrowych przeznaczonych do prezentacji na stronach internetowych. Skanowanie w wysokiej jakości wydaje się być bardzo dobrym rozwiązaniem, ale czy jest ono przydatne w przypadku prezentacji obiektu w Internecie? Wysoka rozdzielczość obrazu wymaga odpowiednio dużo miejsca na twardym dysku, czas potrzebny na ściągnięcie takiego pliku przy obecnej przepustowości sieci może być bardzo długi, a użytkownicy nie lubią czekać. Nawet biorąc pod uwagę ciągle rosnącą prędkość Internetu, prezentacja obrazów o wysokiej jakości (rozdzielczości) może być problematyczna. Być może za kilka lat problem ten zostanie rozwiązany, ale jak poradzić sobie z tym problemem dzisiaj? Rozwiązanie jest bardzo proste, należy przygotować oddzielną wersję o niższej rozdzielczości, przystosowaną do przesyłu tzw. wersję do prezentacji w sieci. Duże instytucje, takie jak Biblioteka Narodowa Australii, wyróżniają kilka różnych wersji wzorcowego obiektu cyfrowego [źródło]:
  • Miniatura
    • pomniejszona wersja oryginalnego obiektu, przeznaczona do łatwego i szybkiego przeglądania, przydatna np. do prezentacji wszystkich obrazów znajdujących się danej kolekcji.
  • Podgląd
    • wersja o rozmiarze dostosowanym do szerokości ekranu i wydruku na papierze o standardowym formacie A4.
  • Kopia szczegółowa (ang. Examination copy)
    • umożliwia szczegółowy ogląd, może wymagać przewijania obrazu gdy jest wyświetlana w przeglądarce internetowej, ale pozwala dokładnie przyjrzeć się każdemu fragmentowi strony. Czas pobierania pliku z kopią szczegółową może być zauważalny.
  • Kopia do druku (ang. Print copy)
    • wersja o wysokiej rozdzielczości przystosowana do wydruku.
  • Kopia interaktywna
    • pozwala użytkownikowi dostosować rozmiar i jakość obrazu do jego potrzeb.
Każda kopia jest tworzona do innych celów, oferuje inną jakość (poziom szczegółów), ale każda z nich powstaje z oryginalnie zeskanowanego obrazu jakim jest kopia główna - egzemplarz wzorcowy. Na podstawie zdjęcia autorstwa doug88888 [źródło] przygotowaliśmy różne wersje tej samej ilustracji: miniatura, większa miniatura, kopia szczegółowa, oryginał. Każda z nich charakteryzuje się innym poziomem szczegółów i co za tym idzie różną wielkością pliku. Należy zapamiętać:
  • Kopia główna - egzemplarz wzorcowy - to kopia o wysokiej rozdzielczości (wymagająca tym samym długiego czasu pobierania):
    • jest to zeskanowany oryginalny obraz; wszystkie pozostałe wersje mogą być tworzone na tej podstawie, bez potrzeby ponownego skanowania obiektu.
  • Wersje do prezentacji w sieci (ang. Web delivery versions) - to kopie o niższej rozdzielczość, a tym samym krótszym czasie pobierania
    • wersje wykonane na podstawie egzemplarza wzorcowego, zwykle przystosowane do konkretnych celów, np. miniatury stosowane do prezentowania wyników wyszukiwania.
    • tworzenie niezbędnych wersji do prezentacji na stronie WWW może wykonywać automatycznie oprogramowanie biblioteki cyfrowej.
Kopia główna - egzemplarz wzorcowy jest więc najważniejszym wynikiem procesu digitalizacji i powinna być dobrze chroniona. Usuwanie egzemplarza wzorcowego jest jednym z najczęściej popełnianych błędów. Należy być świadomym jego wartości i zapewniać ochronę przede wszystkim tej kopii.

Publikowanie obiektów w sieci

Co jest niezbędne do opublikowania obiektów cyfrowych w sieci? Czy wystarczy mieć zwykłą stronę WWW? Zazwyczaj tak. W Internecie dostępnych jest też wiele usług, które pozwalają (za darmo) udostępniać różnego rodzaju treści multimedialne, na przykład:
  • Flickr.com - umożliwia udostępnianie zdjęć,
  • Scribd.com - na potrzeby udostępniania plików PDF,
  • youtube.com - może być wykorzystany do publikacji filmów.
Są to strony dobrze znane, używane codziennie przez miliony użytkowników. Przeznaczone są one dla szerokiego grona odbiorców i nie oferują wsparcia dla procesu digitalizacji, konserwacji i złożonych schematów metadanych. Dla przykładu, niemożliwe jest wysłanie na youtube.com materiału filmowego z opisem zgodnym ze standardem Dublin Core. Innym problemem może być fakt, że użytkownicy w zależności od szukanego rodzaju zasobów musieliby przeskakiwać z jednego portalu na drugi. Na portalu Flickr oglądać zdjęcia zamieszczone tam przez daną instytucję, w przypadku dokumentów PDF przeskakiwać na Scribe. Wygląd tych stron jest często bardzo różny, brak też narzędzi wyszukiwawczych pozwalających przeszukiwać w jednym miejscu całość zbiorów danej instytucji. Na rynku znajduje się obecnie sporo pakietów oprogramowania służących do tworzenia bibliotek cyfrowych, rozwijanych specjalnie w celu rozwiązania wspomnianych wyżej problemów oraz wspierających digitalizację wartościowych obiektów. Tego typu oprogramowanie wspiera mechanizmy zaawansowanego wyszukiwania wraz z różnymi schematami metadanych oraz innymi użytecznymi funkcjami. Mówiąc w skrócie, oprogramowanie do tworzenia cyfrowej biblioteki pozwala stworzyć infrastrukturę gotową do łatwego zarządzania obiektami cyfrowymi i ich publikacji. Biblioteka cyfrowa to jednak coś więcej niż tylko samo oprogramowanie. Całościowa koncepcja biblioteki cyfrowej (wraz z jej strukturami organizacyjnymi i różnymi modelami funkcjonowania) zostanie omówiona w kolejnych częściach kompendium.

Publikowanie obiektów w bibliotece cyfrowej

Co należy zrobić, aby opublikować obiekt w bibliotece cyfrowej? Zazwyczaj proces ten jest bardzo prosty, jednakże silnie uzależniony od wybranego oprogramowania. Przed rozpoczęciem publikacji, koniecznie należy się upewnić, czy:
  1. Posiada się dostęp do biblioteki cyfrowej;
  2. Oprogramowanie biblioteki cyfrowej wspiera schemat metadanych, użyty w opisach posiadanych obiektów (jeśli nie, należy zmapować - dokonać konwersji jednego schematu na drugi lub też wybrać inne oprogramowanie.)
  3. Format cyfrowy, w którym zdigitalizowane obiekty mają być pokazywane w sieci, jest wspierany przez oprogramowanie biblioteki cyfrowej.
Niektóre systemy bibliotek cyfrowych wspierają konserwację zbiorów cyfrowych, umożliwiając przesyłanie nie tylko wersji przeznaczonej do publikacji, lecz także cyfrowej kopii głównej. Zazwyczaj jednak konserwacja cyfrowych kopii głównych nie jest obsługiwana przez oprogramowanie biblioteki cyfrowej. Po wykonaniu powyższych kroków konieczne jest przesłanie danych do systemu.

Materiały natywnie cyfrowe (ang. born digital)

Poza materiałami zdigitalizowanymi, istnieją także dokumenty, które powstały w formacie cyfrowym (ang. born digital) i nie istnieją w wersji analogowej. Należy pamiętać, że tego typu dokumenty mogą być wartościowe, warto więc je zachować i udostępniać w bibliotekach cyfrowych. Ten aspekt konserwacji zbiorów cyfrowych jest bardzo często pomijany, należy więc pamiętać nie tylko o starych gazetach, ale też o zasobach cyfrowych, które nie wymagają digitalizacji, gdyż od początku istnieją w formie cyfrowej. Przykładem takich materiałów mogą być prace dyplomowe np. magisterskie, które w chwili obecnej powstają głównie w postaci cyfrowej, a następnie są drukowane. Inny przykład to zdjęcia czy filmy nakręcone kamerą cyfrową.

Podsumowanie - jak nad tym wszystkim zapanować?

Powyżej przedstawiliśmy problemy, jakie może stwarzać digitalizacja:
  1. Czasem istnieje więcej niż jedno narzędzie odpowiednie do wykonania pracy.
  2. Należy wiedzieć, którego narzędzia użyć do digitalizacji w danym przypadku.
  3. Trzeba pamiętać, że przy digitalizacji mamy do czynienia z cennymi obiektami bibliotecznymi, archiwalnymi, czy muzealnymi (należy więc zachować ostrożność).
  4. Może to być ostatnia szansa na dokonanie digitalizacji danego obiektu, dlatego należy zapewnić wysoką jakość zarówno w trakcie, jak i po zakończeniu procesu skanowania.
  5. Przetworzenie tekstu z formy pliku graficznego do tekstu cyfrowego może być naprawdę żmudnym zadaniem, jednak warto to zrobić.
  6. Przy wyborze formatu do publikacji w sieci należy pamiętać, że biblioteki cyfrowe są tworzone dla użytkowników. W związku z tym format, który zostanie wybrany powinien poza odpowiednimi parametrami technicznymi być również znany szerokiemu gronu potencjalnych użytkowników biblioteki.

Przypisy

  • "Outsourcing", Wikipedia [link]
  • "Handbook on Cost Reduction in Digitisation" (pol. Podręcznik redukcji kosztów w trakcie digitalizacji), Simon Tanner [link]
  • "Moving theory into practice. Digital imaging tutorial" (pol. Przechodząc od teorii do praktyki. Tutorial cyfrowego przetwarzania obrazów), Biblioteka Cornell University [link]
  • "Images for Web delivery - standards" (pol. Wersje obrazów do prezentacji w sieci - standardy), Australijska Biblioteka Narodowa [link]