Arcanum blog

A betűtenger áramlása

Mit tesz az Arcanum?

2018. június 12. - hacsa.

Az Arcanum csodaszer. Az alkimisták titka. Ennek a titoknak immáron mindannyian birtokában vagyunk. Tudjuk, miből lesz az arany. A tudás szabadságából. Amelyhez azok jutnak hozzá, akik a nyílt betűtengeren hajózhatnak jó navigációval. Erről a tengerről, az őt tápláló forrásokról, lakóiról és a rajta való eligazodás kérdéseiről esett szó az Arcanum Digitális Tudománytár (ADT) második nyílt napján, június 8-án a Teve utcában, a Fővárosi Levéltár épületében.

Mit tehet ma érdeklődő felebarátunk, aki kíváncsi rá, miből lett a politikusszomorító magyar publicisztika, glossza, a kritikus zsurnalista szellem? Ha nincs elég ereje, ideje, kitartása, akkor semmit. Ha van, akkor fölkutatja, melyik könyvtárban őrzik és adják ki neki a Pozsonyból Bécsbe üldözött, II. József által tűrt és támogatott Magyar Kurírt és főleg annak legrégibb és legbátrabb évfolyamait, melyekben hajdani dicső pályatársunk, Szacsvay Sándor a 18. század végefelé meghonosította nyelvünkön ezeket a remek műfajokat. És akkor porladó lapról porladó lapra, avagy szempusztító mikrofilmen kockáról kockára kibogarászhatja ezeket az utat törő írásokat más műfajú közlemények rengetegéből.

              A Hét, 1989. szeptember 22.          

Nemsokára azonban ez másképp lesz, mert az Arcanumban már szkennelik a Magyar Kurirt, s az ADT kliensei hamarost otthon és neglizsében kereshetnek rá bármely névre-szóra a Magyar Kurir fél évszázadában. Továbbá hasonlóképp nehezen elérhető korabeli laptársaiban, mivel az 1850 előtti magyar őssajtó digitalizálásával van most elfoglalva az Arcanum öt szkennerének egynémelyike, melyek közül azt a nagyot és ügyeset mutatták most be a Fővárosi Levéltár előcsarnokába, mellyel a lapra nem szedhető könyveket, bekötött folyóirat-évfolyamokat lehet gerinctörő kihajlítás nélkül beszkennelni. 

Az ADT a magyar nyelven (avagy magyar területen) kinyomtatott betűtenger legnagyobb adatbázisa, amelyben kutatni lehet. Egy ilyen kutatás mélységének, minőségének a szintje a kutatható állomány tömegétől függ. Minél nagyobb ez a tömeg, annál több meglepő és új utakat nyitó adatot találhatni ott, ahol a kutatónak eszébe sem jutna kutatni. Mondjuk, az újságírónak az a dolga, hogy Horthy Miklós születésének június 18-án esedékes 150. évfordulója alkalmából megírja, micsoda fölhajtás és össznépi hajbókolás volt itt a kormányzó hetvenedik és hetvenötödik születésnapján. Nincs az az ember, akinek ilyenkor eszébe jutna megnézni és fáradtságot nem kímélve fölkutatni például az Asztalosmesterek Lapját, melyből az Arcanum kimutatja azt a hő szeretetet, mellyel az Asztalosmesterek Ipartestületének elöljárósága a nemzet egészéhez hasonlóan "rajongással és hálával fordult fennkölt vezére felé". És a Budapesti Fehérneműtisztítók Ipartestülete és szaklapja sem maradt el mögöttük! 

Az ADT-ben 16 és fél millió oldalon kereshető bármi és bárki, együtt és külön, egyszerűen és összetetten. Ha valaki a nagybetűs mellett a kisbetűs arcanumra is kíváncsi, akkor a legrégebbi latin nyelvű találatok után a Magyar Könyv-Ház 1799-ben kiadott 12. kötetében megleli "A' Zsidó szókkal határos más Nemzeti szóknak IV-dik Folytatását", melyben a "Szent Írásbéli egynehány Ige meg-fejtetik", s az arcanumról, melyről az idegen szavak szótárai csupán annyit szoktak elárulni, hogy titkos szer, csodagyógyszer, megtudjuk, hogy miért illik rá a digitális tudománytárra más jelentésében is: 

sajttaj_3.jpgAz Arcanum ügyvezető igazgatója, Biszak Sándor mesélt az ADT sikereiről és gondjairól. Ezek szerint havonta egymillió oldalt tudnak digitalizálni, annyit, amennyi nagyjából száz folyóméternyi polcot foglal el. (A 11. században Európa egyik leggazdagabb könyvtárában, a Pannonhalmi Apátságban nyolcvan kötetet őriztek. Ezzel a mennyiséggel az Arcanum egy munkanap alatt végez. És azóta csak egy ezredév telt az emberiség sok ezredévnyi történetéből. Mi lesz itt, mire még egy ezredév eltelik a sokból?)

Amikor az Arcanum még a kilencvenes években elkezdte kiadni a CD-it, még új volt az az élmény, hogy egy kis lemezen haza lehet vinni például ötven költő teljes életművét. Azóta megszoktuk, hogy a betűnek nem kell hely, csak áram. Az a kis információ, hogy az Arcanum a fő feladatai mellett ledigitalizálta hat könyvkiadó teljes termését, már senkit nem rendít meg.

Az Arcanum nyolc-tíz éve kezdte el azt a digitalizálási munkát, amelynek Biszak Sándor szerint 2020-ra nagyjából a végére ér. Már ami a sajtót, a magyar lapokat és folyóiratokat illeti. Ami addig nem lesz benne az ADT-ben, azt már nem lehet fellelni, vagy a közzétételére nem lehet engedélyt szerezni. 

Felmerült a sajtótájékoztatón a Magyar Nemzet kapcsán, hogy mi legyen azzal az anyaggal, amelyet (momentán?) nem szabad közreadni, de lehetne benne keresni. A jelenlévők túlnyomó többsége úgy vélte, hogy a semminél a keresési lehetőség is több, mert akkor legalább nem kell vaktában tapogatóznunk a könyvtárban, tudjuk, hová nyúljunk, hol a tű a szénakazalban. 

Azért másolhatjuk ki, idézhetjük be cikkeinkbe és blogjainkba egyszerű Copy-Paste-tal mindazt, amit az Arcanumon találunk, mert föltalálták azokat az OCR (optical character recognition) rendszereket, amelyek fölismerik a karaktereket. Az ügyvezető igazgató némi szkepszissel utalt a szakemberek ígéretére, miszerint ezek a rendszerek hamarost olyan kézírást is elolvasnak majd, amilyeneket az egyszerű halandó sem tud kisilabbizálni. A régi kódexet pedig úgy olvassák majd, hogy ki sem kell azokat nyitni. 

Egyelőre azonban mindent át kell olvasni, amit az ember az ADT-ből kimásol, mert mindig akad egy-két betűhiba. Az ügyvezető igazgató szerint száz karakterenként egy-két hibás felismerés fordulhat elő. Ez átlagosan bizonyára így van, de a különbségek igen nagyok a digitalizált nyomtatvány korától, minőségétől és állapotától függően. A blogíró tapasztalata szerint a hajtásokban, sorvégeken elmosódó vagy pláne felülfirkált szövegekből nem sok jön át. Éppen az OCR-vel kapcsolatban említette az igazgató, hogy persze a két százaléknyi hiba is 600 karaktert jelenthet például a Hon egy-egy oldalán, amelyre 30 ezer karakter is ráfér. 

Ezen azért a blogíró megdöbbent. Pedig tartotta kezében és buzgón forgatta az Országgyűlési Könyvtárban Jókai Mór hatalmas formátumú, kiváló liberális napilapját. A Népszabadság feleakkora oldala az utolsó időkben, már 8-9 ezer karakterrel megtelt. Régi szép idők, amikor még nem voltak fotók, képszerkesztők, és senkit sem érdekelt az olvasók szemének kényelme...

Az Arcanum egyik munkatársa éppen a Hont mutogatta az előtérben a laptopján, és azon magyarázta a keretezés és kijelölés rejtelmeit. Ezek szerint a Honderű mellé hamarosan a derűtlen Hon is megérkezik az ADT-be

35076571_217214112422026_2510196157293002752_n.jpg

A Pesti Naplónak, a magyar sajtótörténet egyik legfontosabb lapjának viszont van olyan húszegynéhány évfolyama, amely sehogy sem tud megérkezni, mert egyszerűen nem kapható sehol a világon olyan szkenner, amellyel akkora formátumot lehetne szkennelni, amekkora az volt. 

Biszak Sándor szerint csak a szkennerek nem képesek fejlődni ebben a rohamosan változó világban. 

Képek a nyílt napról:

34985148_217213362422101_7787016414795137024_n.jpg

35066172_217214499088654_2339518958723399680_n.jpg

34963554_217214405755330_6148442715848704000_n.jpg 

A bejegyzés trackback címe:

https://arcanum.blog.hu/api/trackback/id/tr6114033070

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

süti beállítások módosítása