Laipni lūdzam fraktūras teksta labošanas lapā!


Vēlamies uzlabot vecās drukas automātiskās atpazīšanas kvalitāti Latvijas Nacionālajā Digitālajā bibliotēkā, tāpēc izmēģinām jaunu pārraudzītās mašīnmācīšanās pieeju.

Lai dators precīzi atpazītu tekstu, vispirms nepieciešams izveidot teksta pareiza attēlojuma paraugu – vismaz 10 000, cilvēka rokām izlabotas, nevainojamas rindiņas. Katru rindiņu pārbauda divi rakstu pratēji.

Automātiskajai atpazīšanai izmantojam teksta atpazīšanas programmatūru Tesseract, kas darbojas, izmantojot LSTM (long short-term memory) neironu tīkla modeli. LSTM strādā precīzāk nekā agrīnie neironu tīkla modeļi un ir labi piemērots rakstības un runas atpazīšanai. LSTM pieder pie dziļās mācīšanās (deep learning) algoritmu saimes.


Vairāk informācijas par šo arhitektūru: LSTM