Archiwum

Tag Archives: Wirtualne Laboratorium Transkrypcji

[Also in English about Changes and improvements made in release in Virtual Transcription Laboratory]

Otrzymałem właśnie informację o wdrożonych przed klku dniami zmianach w Wirtualnym Laboratorium Transkypcji.

„Najważniejsze zmiany jakie zostały wprowadzone:

– edytor transkrypcji wspiera pracę z drukami wielokolumnowymi np. gazetami (opcja ta jest dostępna dla nowotworzonych projektów),

– dodano mechanizm weryfikacji linii, z każdą linią skojarzona jest informacja o tym czy została ona już przejrzana,

– usprawniony mechanizm importu plików TIFF,

– możliwość pobierania transkrypcji w formie prostego pliku tekstowego,

– link do podglądu całej strony w edytorze transkrypcji,

– w widoku podglądu transkrypcji dodane zostały numery porządkowe linii,

– w edytorze transkrypcji możliwe jest przesuwanie linii na konkretną pozycję (poprzez podanie jej numeru),

– po zakończeniu wsadowego OCRa wysyłany jest mail do właściciela projektu,

– w widoku historii zmian widoczna jest informacja o autorze zmian,

– w formularzu tworzenia nowego projektu pole autor jest teraz opcjonalne.”

Szczegółowa nota do wydania z listą wszystkich zmian i poprawek znajduje się :: tutaj :: (w języku angielskim).

Uruchomiono także :: tutaj :: forum sugestii i  usprawnień, w ramach którego można przekazywać swoje propozycje ulepszeń w WLT oraz głosować na pomysły, które już zostały zgłoszone. Aby to uczynić, należy wejść na forum korzystając z pomarańczowej zakładki “Twoja sugestia”, która znajduje się w prawym górnym rogu strony WLT.

Reklamy

Miesiąc temu miałem przyjemność napisać kilka słów od siebie o :: Wirtualnym Laboratorium Transkrypcji ::

Dziś otrzymałem list od Adama Dudczaka z linkiem do prezentacji, jaką miał podczas lubelskiej konferencji :: Zwrot Cyfrowy w Humanistyce ::

Wystąpienie Adama Dudczaka można obejrzeć :: tutaj ::

Proszę się nie zrażać, że na samym początku nie ma głosu. Od ok. 1 minuty do końca głos został zarejestrowany. Pod tym linkiem znajduje się też wiele innych prezentacji, które miały miejsce podczas konferencji.

To konkretne wystąpienie może być w moim odczuciu szczególnie interesujące dla bibliotekarzy zajmujących się digitalizacją i problematyką OCR.

Na zaproszenie pana Adama Dudczaka miałem przyjemność testować nowy portal pod nazwą Wirtualne Laboratorium Transkrypcji.

Projekt ten stanowi część bardzo dużego przedsięwzięcia o nazwie SYNAT, z którego głównymi założeniami („stworzenie uniwersalnej, otwartej, repozytoryjnej platformy hostingowej i komunikacyjnej dla sieciowych zasobów wiedzy dla nauki, edukacji i otwartego społeczeństwa wiedzy”) można zapoznać się :: tutaj ::

W SYNAT zaangażowany jest Zespół Bibliotek Cyfrowych Poznańskiego Centrum Superkomputerowo-Sieciowego. :: Tutaj :: można śledzić blog zespołu. Szczególnie zainteresowani powinni być bibliotekarze pracujący przy digitalizacji zbiorów oraz w informacji naukowej.
Wirtualne Laboratorium Transkrypcji docelowo służyć ma przede wszystkim badaczom oraz bibliotekarzom. Na stronie projektu możemy przeczytać, że zainteresowani mogą nim być także: instytucje kultury, hobbyści oraz użytkownicy bibliotek cyfrowych. Portal został w połowie września udostępniony w wersji testowej

Czym jest WLT?

Autorzy projektu piszą: „Wirtualne Laboratorium Transkrypcji to portal, który wspiera digitalizację zasobów dziedzictwa kulturowego poprzez wspomaganie tworzenia pełnotekstowych wersji dokumentów historycznych”.

To zdanie jest dla mnie niejasne i w swoich uwagach napisałem, że opis tego narzędzia powinien być bardziej sprecyzowany i uściślony.

Poniżej przedstawiam garść uwag. Od ocen staram się powstrzymać, ponieważ WLT jest wciąż na etapie testów i z pewnością wiele uwag testujących użytkowników zostanie w nim w przyszłości uzwględnionych.

WLT służyć ma zatem przede wszystkim badaczom podczas pracy ze zdigitalizowanym tekstem. Moim najbliższym skojarzeniem było narzędzie T-PEN, o którym kiedyś już pisałem. Należy jednak pamiętać, że T-PEN przeznaczony jest głównie dla osób pracujących z rękopisami, podczas gdy WLT (przynajmniej na razie) przydatne będzie przede wszystkim podczas pracy z tekstem drukowanym.

Podczas przeglądania projektu zabrakło mi czegoś w rodzaju przewodnika dla początkującego użytkownika. Pan Adam Dudczak zapewnił mnie, że w planach jest umieszczenie na stronie plików audiowizualnych i informacji, które ułatwią korzystanie z aplikacji. W moim odczuciu byłoby to przydatne.

Obecnie importować można pliki w formatach jpg, gif oraz png. W najbliższym czasie ma być także możliwy import plików w formacie tiff. Nie jest przewidziany natomiast (przynajmniej na razie) import pdf-ów. Twórcy portalu zapewniają jednak, że, jeśli pojawiłoby się zainteresowanie taką funkcją, może ona zostać dodana.

Pierwszą rzeczą, jaką należy zrobić, jest utworzenie projektu. Po zaimportowaniu plików (przebiegło to sprawnie i szybko) można przystąpić do transkrypcji tekstu.

Pracuję głównie na wczesnych drukach (inkunabuły i wczesny wiek XVI) oraz rękopisach (XV-XVI w.). W przypadku tego typu tekstów OCR się na razie nie sprawdza (gdy ktoś wymyśli OCR do czytania rękopisów piętnastowiecznych powinien dostać Nobla).

Podczas transkrypcji zaznaczamy przepisywaną linię i wpisujemy odczytany tekst.

Istnieje także możliwość wstawiania komentarzy. Coś mi tam jednak nie grało. Zwróciłem uwagę, że dobrze byłoby w jakiś sposób zaznaczyć na transkrypcji, gdzie komentarz jest dodany (podświetlenie itp., co ułatwiłoby odnalezienie komentarza później – po kilku dniach, tygodniach, miesiącach).

Istnieje także możliwość rozwinięcia panelu z całą transkypcją, która wówczas widoczna jest po lewej stronie.

Podświetlony jest wers, który właśnie przepisujemy. To bardzo dobre rozwiązanie.

Obecnie możliwy jest jedynie eksport w hOCR, choć autorzy rozważają także TEI oraz pliki wordowskie. W moim odczuciu byloby to przydatne, ale jestem ciekaw opini innych czytelników.

To dość istotne, bo przecież po przepisaniu tekstu większość z nas przystępuje do dalszej pracy (wstawianie komentarzy, przypisów itp., a zazwyczaj pracujemy w Wordzie).

Gdy testowałem aplikację – nie działały specjalne czcionki, które można dodać z klawiatury (po kilknięciu w ikonkę pojawia się cała paleta dostępnych czcionek). Błąd został namierzony i trwają prace nad jego usunięciem.

Z moich uwag, które zostaną być może uwzględnione w przyszłości – możliwy jest jedynie widok podstawowy i powiększony. Nie da się natomiast zoomem sterować. Byłoby to przydatne (w moim odczuciu) szczególnie podczas pracy z rękopisami, gdy mamy styczność z drobnymi zapiskami, glosami itp.

Zwróciłem także uwagę, że w przypadku badaczy pracujących z dawnymi tekstami, zarówno łacińskimi, jak i polskimi – przydatne byłoby umieszczenie słowników lub linków do nich. Jeśli czytelnicy znają takie słowniki, które dostępne są na zasadzie wolnej licencji – proszę o kontakt.

Przy okazji chciałbym także zachęcić do kontaktu z twórcami Wirtualnego Laboratorium Transkrypcji, który będzie możliwy w październiku w kilku miastach w Polsce:

20 października – podczas Poznańskiej Imprezy Wolnego Oprogramowania;

24 października – podczas ThatCamp w Lublinie;

25 października –  podczas Zwrotu Cyfrowego w Humanistyce w Lublinie;

26 października – będzie można odwiedzić stoisko WLT na konferencji Kultura 2.0.

Z testową wersją Wirtualnego Laboratorium Transkrypcji można zapoznać się :: tutaj :: Strona dostępna jest w językach polskim i angielskim.

I bardzo, ale to bardzo się cieszę, że w Polsce trwają prace nad takim projektem.

%d blogerów lubi to: