sk-spell

podpora slovenčiny v Open Source programoch
24. March 2023, Zdenko Podobný

K dispozícii je opravený aspell-sk slovník (verzia 2.4.7-1) – v predchádzajúcej verzií chýbal adresár “doc” ).

2023-06. týždeň :: Novinky   

posledná zmena: 6. February 2023

Bola pridaná podpora kontroly preklepov pre Slovenský jazyk v projekte CSpell (Code Spell Checker) na základe dát z hunspell-sk, ako aj jeho rozšírenie pre VS Code.

2022-52. týždeň :: Novinky   

posledná zmena: 27. December 2022

Vydaná nová verzia Malého Anglicko-Slovenského Slovníka pre GoldenDict dsl-mass-2.0_20221227.zip [252 kB] (stiahnuté: 132x) — má viac ako 16.000 slov a pokrýva rozsah slovíčok The Oxford 3000™ by CEFR level (A1 – B2 level).

2022-51. týždeň :: Novinky (#2)   

posledná zmena: 18. March 2023

K dispozícii je aj verzia 2.4.7 pre aspell-sk založená na dátach z hunspell-sk.

2022-51. týždeň :: Novinky   

posledná zmena: 20. December 2022

Bola vydaná nová verzia 2.4.7 slovenských dát (vratane ascii verzie) pre hunspell (Mozilla projekty, Libreoffice, Adobe (Reader) ďalšie).

2022-39. týždeň :: Novinky   

posledná zmena: 30. September 2022

Bola vydaná nová verzia 2.4.6 slovenských dát pre hunspell (Mozilla projekty, Libreoffice, Adobe (Reader) veľa ďalších).

2022-27. týždeň :: Novinky   

posledná zmena: 10. July 2022

Vydaná nová verzia Malého Anglicko-Slovenského Slovníka pre GoldenDict dsl-mass-2.0_2022710.zip [218 kB] (stiahnuté: 37x) — má viac ako 15.000 slov.

2022-02. týždeň :: Novinky   

posledná zmena: 18. January 2022

Vydaná nová verzia Malého Anglicko-Slovenského Slovníka pre GoldenDict dsl-mass-2.0_20220118.zip [232 kB] (stiahnuté: 126x) — okrem doplnenia nových prekladov a opráv bol vylepšený export z Glosswordu a výstupné formátovanie do dsl (ABBYY Lingvo .dsl dictionary).

2021-42. týždeň :: Novinky   

posledná zmena: 22. October 2021

Bola vydaná nová verzia 2.4.4 slovenských dát, pre hunspell (Mozilla projekty, Libreoffice, Adobe (Reader) veľa ďalších).

building tesserocr python package on windows 64bit   

posledná zmena: 20. March 2021

back to tesseract-ocr-en

Requirements

Tesseract 4.1.1 Windows installation (64bit) in command line

Initialisation of project structure

Destination for dependencies
mkdir F:\win64
set INSTALL_DIR=F:\win64
set PATH=%PATH%;%INSTALL_DIR%\bin
Build tree:
mkdir F:\Project & cd Project
Initialize VS environment:
call "c:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Auxiliary\Build\vcvars64.bat" x64

zlib build and installation

curl https://zlib.net/zlib1211.zip
"c:\Program Files\Git\usr\bin\unzip.exe" zlib1211.zip
cd zlib-1.2.11
mkdir build.msvs && cd build.msvs
cmake .. -DCMAKE_INSTALL_PREFIX=%INSTALL_DIR%
cmake --build . --config Release --target install
cd ..\..

libpng build and installation

curl https://vorboss.dl.sourceforge.net/project/libpng/libpng16/1.6.37/lpng1637.zip
"c:\Program Files\Git\usr\bin\unzip.exe" lpng1637.zip
cd lpng1637
mkdir build.msvs && cd build.msvs
cmake .. -DCMAKE_INSTALL_PREFIX=%INSTALL_DIR%
cmake --build . --config Release --target install
cd ..\..

leptonica build and installation

Note: tesseract 4.1.1 cmake build needs release and debug version of leptonica
git clone --depth 1 https://github.com/DanBloomberg/leptonica.git
cd leptonica
mkdir build.msvs && cd build.msvs
cmake .. -DCMAKE_INSTALL_PREFIX=%INSTALL_DIR%  ^
   -DCMAKE_PREFIX_PATH=%INSTALL_DIR% ^
   -DBUILD_PROG=OFF -DSW_BUILD=OFF -DBUILD_SHARED_LIBS=ON
cmake --build . --config Debug --target install
cmake --build . --config Release --target install
cd ..\..

tesseract build and installation

git clone -b 4.1.1 --depth 1 https://github.com/tesseract-ocr/tesseract.git
cd tesseract
cmake .. -DCMAKE_INSTALL_PREFIX=%INSTALL_DIR% ^
    -DCMAKE_PREFIX_PATH=%INSTALL_DIR% ^
    -DLeptonica_DIR=%INSTALL_DIR%\lib\cmake  ^
    -DBUILD_TRAINING_TOOLS=OFF -DSW_BUILD=OFF -DBUILD_SHARED_LIBS=ON
cmake --build . --config Release --target install
cd ..\..

Post installation

cd F:\Project
git clone --depth 1 https://github.com/tesseract-ocr/tessconfigs tessdata
curl -L https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata ^
    --output F:\Project\tessdata\eng.traineddata
curl -L https://github.com/tesseract-ocr/tessdata/raw/master/osd.traineddata ^
    --output F:\Project\tessdata\osd.traineddata
SET TESSDATA_PREFIX=F:\Project\tessdata

Check

%INSTALL_DIR%\bin\tesseract -v
tesseract 4.1.1
 leptonica-1.81.0 (Mar 17 2021, 20:26:26) [MSC v.1928 LIB Release x64]
  libpng 1.6.37 : zlib 1.2.11
 Found AVX2
 Found AVX
 Found FMA
 Found SSE

tesserocr build

git clone https://github.com/zdenop/tesserocr.git
cd tesserocr
git checkout window_build
SET VS90COMNTOOLS=%VS140COMNTOOLS%
SET INCLUDE=%INCLUDE%;%INSTALL_DIR%\include
SET LIBPATH=%LIBPATH%;%INSTALL_DIR%\lib

python setup.py build
python setup.py bdist_wheel
pip uninstall tesserocr
pip install dist\tesserocr-2.5.2b0-cp38-cp38-win_amd64.whl

Post installation

Note: adjust to you Python instalation
copy F:\win64\bin\*.dll "C:\Program Files\Python38\Lib\site-packages\"

Check

cd F:\Project\tesserocr
python
>>> import tesserocr
>>> tesserocr.PyTessBaseAPI.Version()
'4.1.1'
>>> tesserocr.get_languages()
('F:\\Project\\tessdata/', ['eng', 'osd'])
>>> from PIL import Image
>>> image = Image.open(r'F:\Project\tesserocr\tests\eurotext.png')
>>> with tesserocr.PyTessBaseAPI() as api:
...     api.SetImage(image)
...     print(api.GetUTF8Text())
...
The (quick) [brown] {fox} jumps!
Over the $43,456.78 <lazy> #90 dog
& duck/goose, as 12.5% of E-mail
from aspammer@website.com is spam.
Der ,schnelle” braune Fuchs springt
iiber den faulen Hund. Le renard brun
«rapide» saute par-dessus le chien
paresseux. La volpe marrone rapida
salta sopra il cane pigro. El zorro
marron ripido salta sobre el perro
perezoso. A raposa marrom ripida
salta sobre o cdo preguigoso.
>>>

© projekt sk-spell

RSS [opensource] [w3c] [firefox] [textpattern]