Vymezení konkrétních cílů

Fondy českých knihoven obsahují obrovské množství informací. Přesto, že dominují informace textové, významnou částí našeho kulturního dědictví jsou i informace zachycené graficky, ať už se jedná o kresby, mapy, schémata, grafy, fotografie, tabulky nebo jiné primárně grafické prvky.

S postupující́ digitalizací se díky nasazení systémů OCR a fulltextového vyhledávaní daří otevírat veřejnosti doposud skryté textové kulturní dědictví. Cílem předkládaného projektu je podobným způsobem otevřít veřejnosti i grafický obsah digitálních knihoven.

S využitím metod strojového učení bude možné identifikovat grafické elementy obsazené v digitalizovaných dokumentech, typově je kategorizovat, doplnit o kontextové údaje umožňující jejich snadnější vyhledávaní́ a rozšířit nabídku služeb našich digitálních knihoven o systém pro vyhledávaní takto identifikovaných grafických prvků. Významnou součástí výstupů projektu bude i nastroj pro nalezení různých vyobrazení stejných osob a databáze takto nalezených osob, které se podaří identifikovat.