Archiwum

Tag Archives: transkrypcje online

[Also in English about Changes and improvements made in release in Virtual Transcription Laboratory]

Otrzymałem właśnie informację o wdrożonych przed klku dniami zmianach w Wirtualnym Laboratorium Transkypcji.

„Najważniejsze zmiany jakie zostały wprowadzone:

– edytor transkrypcji wspiera pracę z drukami wielokolumnowymi np. gazetami (opcja ta jest dostępna dla nowotworzonych projektów),

– dodano mechanizm weryfikacji linii, z każdą linią skojarzona jest informacja o tym czy została ona już przejrzana,

– usprawniony mechanizm importu plików TIFF,

– możliwość pobierania transkrypcji w formie prostego pliku tekstowego,

– link do podglądu całej strony w edytorze transkrypcji,

– w widoku podglądu transkrypcji dodane zostały numery porządkowe linii,

– w edytorze transkrypcji możliwe jest przesuwanie linii na konkretną pozycję (poprzez podanie jej numeru),

– po zakończeniu wsadowego OCRa wysyłany jest mail do właściciela projektu,

– w widoku historii zmian widoczna jest informacja o autorze zmian,

– w formularzu tworzenia nowego projektu pole autor jest teraz opcjonalne.”

Szczegółowa nota do wydania z listą wszystkich zmian i poprawek znajduje się :: tutaj :: (w języku angielskim).

Uruchomiono także :: tutaj :: forum sugestii i  usprawnień, w ramach którego można przekazywać swoje propozycje ulepszeń w WLT oraz głosować na pomysły, które już zostały zgłoszone. Aby to uczynić, należy wejść na forum korzystając z pomarańczowej zakładki “Twoja sugestia”, która znajduje się w prawym górnym rogu strony WLT.

Facebook jest czasem bardzo użyteczny. Ktoś, nawet nie pamiętam kto, podrzucił niedawno link do bloga :: Early Modern Online Bibliography ::, gdzie znajduje się bardzo obszerny opis narzędzia do transkypcji, o którym kiedyś :: dwukrotnie :: pisałem. Czyli ponownie T-PEN.

Gorąco zachęcam do lektury. Autorem tekstu jest James Ginther, jeden z twórców narzędzia.

Z artykułem T-PEN: A New Tool for Transcription of Digitized Manuscripts można zapoznać się :: tutaj ::

Na zaproszenie pana Adama Dudczaka miałem przyjemność testować nowy portal pod nazwą Wirtualne Laboratorium Transkrypcji.

Projekt ten stanowi część bardzo dużego przedsięwzięcia o nazwie SYNAT, z którego głównymi założeniami („stworzenie uniwersalnej, otwartej, repozytoryjnej platformy hostingowej i komunikacyjnej dla sieciowych zasobów wiedzy dla nauki, edukacji i otwartego społeczeństwa wiedzy”) można zapoznać się :: tutaj ::

W SYNAT zaangażowany jest Zespół Bibliotek Cyfrowych Poznańskiego Centrum Superkomputerowo-Sieciowego. :: Tutaj :: można śledzić blog zespołu. Szczególnie zainteresowani powinni być bibliotekarze pracujący przy digitalizacji zbiorów oraz w informacji naukowej.
Wirtualne Laboratorium Transkrypcji docelowo służyć ma przede wszystkim badaczom oraz bibliotekarzom. Na stronie projektu możemy przeczytać, że zainteresowani mogą nim być także: instytucje kultury, hobbyści oraz użytkownicy bibliotek cyfrowych. Portal został w połowie września udostępniony w wersji testowej

Czym jest WLT?

Autorzy projektu piszą: „Wirtualne Laboratorium Transkrypcji to portal, który wspiera digitalizację zasobów dziedzictwa kulturowego poprzez wspomaganie tworzenia pełnotekstowych wersji dokumentów historycznych”.

To zdanie jest dla mnie niejasne i w swoich uwagach napisałem, że opis tego narzędzia powinien być bardziej sprecyzowany i uściślony.

Poniżej przedstawiam garść uwag. Od ocen staram się powstrzymać, ponieważ WLT jest wciąż na etapie testów i z pewnością wiele uwag testujących użytkowników zostanie w nim w przyszłości uzwględnionych.

WLT służyć ma zatem przede wszystkim badaczom podczas pracy ze zdigitalizowanym tekstem. Moim najbliższym skojarzeniem było narzędzie T-PEN, o którym kiedyś już pisałem. Należy jednak pamiętać, że T-PEN przeznaczony jest głównie dla osób pracujących z rękopisami, podczas gdy WLT (przynajmniej na razie) przydatne będzie przede wszystkim podczas pracy z tekstem drukowanym.

Podczas przeglądania projektu zabrakło mi czegoś w rodzaju przewodnika dla początkującego użytkownika. Pan Adam Dudczak zapewnił mnie, że w planach jest umieszczenie na stronie plików audiowizualnych i informacji, które ułatwią korzystanie z aplikacji. W moim odczuciu byłoby to przydatne.

Obecnie importować można pliki w formatach jpg, gif oraz png. W najbliższym czasie ma być także możliwy import plików w formacie tiff. Nie jest przewidziany natomiast (przynajmniej na razie) import pdf-ów. Twórcy portalu zapewniają jednak, że, jeśli pojawiłoby się zainteresowanie taką funkcją, może ona zostać dodana.

Pierwszą rzeczą, jaką należy zrobić, jest utworzenie projektu. Po zaimportowaniu plików (przebiegło to sprawnie i szybko) można przystąpić do transkrypcji tekstu.

Pracuję głównie na wczesnych drukach (inkunabuły i wczesny wiek XVI) oraz rękopisach (XV-XVI w.). W przypadku tego typu tekstów OCR się na razie nie sprawdza (gdy ktoś wymyśli OCR do czytania rękopisów piętnastowiecznych powinien dostać Nobla).

Podczas transkrypcji zaznaczamy przepisywaną linię i wpisujemy odczytany tekst.

Istnieje także możliwość wstawiania komentarzy. Coś mi tam jednak nie grało. Zwróciłem uwagę, że dobrze byłoby w jakiś sposób zaznaczyć na transkrypcji, gdzie komentarz jest dodany (podświetlenie itp., co ułatwiłoby odnalezienie komentarza później – po kilku dniach, tygodniach, miesiącach).

Istnieje także możliwość rozwinięcia panelu z całą transkypcją, która wówczas widoczna jest po lewej stronie.

Podświetlony jest wers, który właśnie przepisujemy. To bardzo dobre rozwiązanie.

Obecnie możliwy jest jedynie eksport w hOCR, choć autorzy rozważają także TEI oraz pliki wordowskie. W moim odczuciu byloby to przydatne, ale jestem ciekaw opini innych czytelników.

To dość istotne, bo przecież po przepisaniu tekstu większość z nas przystępuje do dalszej pracy (wstawianie komentarzy, przypisów itp., a zazwyczaj pracujemy w Wordzie).

Gdy testowałem aplikację – nie działały specjalne czcionki, które można dodać z klawiatury (po kilknięciu w ikonkę pojawia się cała paleta dostępnych czcionek). Błąd został namierzony i trwają prace nad jego usunięciem.

Z moich uwag, które zostaną być może uwzględnione w przyszłości – możliwy jest jedynie widok podstawowy i powiększony. Nie da się natomiast zoomem sterować. Byłoby to przydatne (w moim odczuciu) szczególnie podczas pracy z rękopisami, gdy mamy styczność z drobnymi zapiskami, glosami itp.

Zwróciłem także uwagę, że w przypadku badaczy pracujących z dawnymi tekstami, zarówno łacińskimi, jak i polskimi – przydatne byłoby umieszczenie słowników lub linków do nich. Jeśli czytelnicy znają takie słowniki, które dostępne są na zasadzie wolnej licencji – proszę o kontakt.

Przy okazji chciałbym także zachęcić do kontaktu z twórcami Wirtualnego Laboratorium Transkrypcji, który będzie możliwy w październiku w kilku miastach w Polsce:

20 października – podczas Poznańskiej Imprezy Wolnego Oprogramowania;

24 października – podczas ThatCamp w Lublinie;

25 października –  podczas Zwrotu Cyfrowego w Humanistyce w Lublinie;

26 października – będzie można odwiedzić stoisko WLT na konferencji Kultura 2.0.

Z testową wersją Wirtualnego Laboratorium Transkrypcji można zapoznać się :: tutaj :: Strona dostępna jest w językach polskim i angielskim.

I bardzo, ale to bardzo się cieszę, że w Polsce trwają prace nad takim projektem.

Dziś chciałbym przybliżyć narzędzie do transkrypcji tekstów ze zdigitalizowanych rękopisów, które dostępne są, jak można przeczytać w informacjach zawartych na profilu projektu na Facebooku, w repozytoriach bibliotek z całego niemal świata.

T-PEN (Transcription for Paleographical and Editorial Notation) został stworzony w Center for Digital Theology na Uniwersytecie w Saint Louis. Kierownikiem projektu jest James Ginther (na academia.edu można się zapoznać z jego kilkoma artykułami). Drugą aktywną osobą w projekcie (widoczną m.in. na Twitterze) jest Alison Tara Walker. Ona również posiada profil na academii.
Do głównych zadaniach Centrum Cyfrowej Teologii (bo tak chyba należy przetłumaczyć nazwę tego instytutu) należy opracowanie narzędzi do badań teologicznych oraz nauczania tejże. Obok T-PEN-a grupa z St. Louis postawiła sobie za zadanie także archiwizowanie średniowiecznych artefaktów, mających szczególne znaczenie religijne oraz teologiczne. Dotychczasowe projekty obejmowały tworzenie baz średniowiecznych tekstów (także zintegrowanych z ilustracjami) oraz modele (3DRT) średniowiecznych kościołów.
Na youtube oraz na powitalnej stronie projektu dostępne są dwa kilkunastominutowe wprowadzające filmy. Ich obejrzenie umożliwia zapoznanie się z podstawowymi funkcjami T-PEN.
Na jednym z nich narzędzie prezentuje James Ginther. Na drugim zaś Alison Tara Walker.

[Na kanale tpentool na youtube obecnie filmów znajduje się więcej.]

James Ginther jest człowiekiem bardzo sympatycznym. Chętnie też odpowiada na wszelkie pytania odnośnie projektu. Nurtowała mnie kwestia specjalnych znaków. Jak można zobaczyć na filmie, teoretycznie dostępna jest niewielka ilość liter – w dodatku przydatnej do transkrypcji tekstów staroangielskich. Zapytałem zatem,czy w przyszłości planowane jest poszerzenie tej funkcji o inne czcionki, przydatne w transkrypcji tekstów słowiańskich, greckich, skandynawskich itd.
Oto odpowiedź, jaką otrzymałem:

„Right now, we cover anything in Unicode-8, so all of the above are covered.  This can happen in two ways.  (1) if the user selects their keyboard language, T-PEN accepts that input and stores it as unicode. (2) if they wish to have special characters available, then can create „buttons” for the transcription tool.  The first 10 are „hot key” assignments (CTRL+1 through 0), but all of them are available as a clickable button.”

Inną kwestią problematyczną dla użytkowników może być konieczność korzystania z tzw. prywatnych kolekcji, np, Parker Library. Dostęp do zdigitalizowanych rękopisów jest płatny w przypadku tej kolekcji. Jeśli użytkownik wybierze sobie w T-PEN rękopis z takiej kolekcji, wówczas pojawi się komunikat, że nie jest uprawniony do korzystania z niego. Tak było w moim przypadku. Należy wówczas skierować prośbę bezpośrednio do danej biblioteki. Każdy przypadek traktowany jest indywidualnie, więc prośba o udostępnienie może być rozpatrzona pozytywnie. Przyznaję jednak, że, szczególnie  w przypadku dawnych materiałów, osobiście jestem za całkowicie wolnym dostępem i trochę mnie to mierzi. Jest to jednak rzecz, na którą TPEN-owcy nie mają żadnego wpływu.

Obecnie dostępnych jest ponad 3 tys. rękopisów i liczba ta wciąż rośnie. Zarejestrowanych jest na razie 230 użytkowników.

T-PEN obecny jest także na portalach społecznościowych. Oprócz wspomnianego powyżej Facebooka i kanału na youtube, można śledzić poczynania grupy także na Google+. Istnieje także osobny blog poświęcony temu narzędziu.

James Ginther poinformował mnie także, właśnie wpuszczono wersję T-PEN 2, która różni się nieco od starszej, z której ja korzystałem.

Po pierwsze, możliwe są prywatne ładowania własnych materiałów. Konieczna jest tylko umiejętność stworzenia pliku zip oraz przygotowania serii jpg-ów, które można samodzielnie „załadować” do T-PEN-a. Zostaną one automatycznie określone jako prywatne i nie będą dostępne dla innych użytkowników, a także nie pojawią się w katalogu T-PEN-a. Materiały mogą być przez właściciela danego konta udostępnione maksymalnie pięciu innym użytkownikom.

Po drugie, grupa pod przewodnictwem Jamesa Ginthera obecnie wspiera bardzo projekty crowd-sourcingowe, czy też, jak sam to podkreślił – publiczne.

Po trzecie, samodzielnie można także wyróżnić swoje własne dodatkowe narzędzie (słownik, bazę tekstów itp.), która będzie widoczna za transkrypcją tak, jak słownik abrewiacji (Capelli).

Po czwarte wreszcie, bardzo proste na razie narzędzie do sporządzania adnotacji będzie udoskonalane podczas nadchodzącego lata.

Na koniec jeszcze jedna ważna uwaga. Jeśli jakaś biblioteka w Polsce byłaby zainteresowana udostępnieniem swojej zdigitalizowanej kolekcji w T-PEN, James Ginther prosi o kontakt.

%d blogerów lubi to: