Cherche solution OCR

Pour un projet je cherche une solution ocr gratuite pour transformer un pdf (2 colonnes), en texte qu’on puisse copier coller, j’essaie pas mal de solution en ligne gratuite mais c’est pas dingue comme résultat (genre là j’essaie newocr ou onlineocr).

Des idées?

regarde PDF24 creator

1 « J'aime »

Il analyse mon fichier mais ne trouve absolument rien je ne sais pas pourquoi :

Googledoc fonctionne bien en y entrant une image d’une seule colonne mais ça me demande énormément de boulot d’éditer chaque page en 2 images séparées, déjà que ça va représenter beaucoup de taf à faire vu la quantité de texte j’aimerais bien essayer de gagner du temps quand même.

tu a enregistré le fichier en mode _ocred? c’est lui qu’il faut ouvrir apres

au taf ça fonctionne bien , c’est celui la qu’on installe par défaut sur les postes des utilisateurs au bureau

Oui le fichier de sortie est strictement identique sans texte avec le suffixe qu’il rajoute (et il annonce 0 mots détectés).
Il y a moyen que je te l’envoie que tu testes histoire de voir si c’est moi qui déconne ou pas?

pas de soucis c’est calme en plus en ce moment^^

ça a l’air de fonctionner en effet merci pour le coup de main, si quelqu’un a une autre solution pour voir ce que ça donne je prends aussi!

Au taf, Acrobat Pro fait bien le job pour nous.
Pareil, si tu veux, je peux le convertir de mon côté :wink:

1 « J'aime »

Infix est plutôt bon mais comment dire :smiley:

  • Tu as des exemples de fichiers ?
  • Et es-tu sous Linux ?
  • c’est en quelle langue ?

J’ai déjà fait un peu pire pour des fichiers de Saga ou c’est une ligne en haut et 3 colonnes en bas.

Si c’est à peu près toujours au même endroit à quelques pixels près, je peux te faire un script pour faire des trucs en couplant imagemagick et tesseract et un peu de cat.

Si tu as la totale, tu peux m’envoyer un lien par mp pour que je télécharge le tout. Vu que j’ai déjà un exemple de truc, je devrais pouvoir te pondre un truc.

Je suis sous windows, c’est de l’anglais, ça ressemble à ça.

On essaie un truc là, je te dirais si j’ai besoin, merci!

J’ai fait un truc qui fonctionne à peu près correctement même si forcément, il y a des pétouilles au niveau des images, du texte qui n’est pas sur deux colonnes, etc. Si jamais ça peut servir à d’autres dans des cas similaires

Ma solution utilise pdfseparate, ghostscript, imagemagick, tesseract, sed et la commande cat, forcément, c’est plutôt sous Linux que ça se passe, mais tout est gratuit.

voilà les trois petits scripts que j’ai utilisé pour faire ça :
https://eolindel.free.fr/images/test.zip
il y en a :

  • un pour séparer le pdf en un fichier par page au format png pas trop petit, ici, tout est automatique
  • un pour faire la reconnaissance de caractère en splittant en deux les pages, qui recolle le texte de chaque colonne à la suite et fait un poil de nettoyage. Ici, il faut adapter les zones à prendre pour faire le découpage des colonnes sur les lignes « -crop 1301x3508+000+000 +repage » AAAAAxBBBBB indique la zone à découper, +CCCC+DDDD indique le décalage horizontal et vertical respectivement (donc ici, on découpe une zone de 1301 pixel par 3508 avec aucun décalage : donc en partant du bord haut gauche)
  • le dernier, il faut adapter au nombre de page (ici 13) : ça recolle chacune des pages en sortie à la suite les unes des autres pour tout mettre bout à bout. Je viens de voir qu’en rajoutant la ligne :
awk -i inplace '$1=$1' RS= ORS="\n\n" full_out.txt

ça permet de regrouper les paragraphes pour que la traduction deepl ne soit pas hachée par les sauts de ligne. :wink:

Sur l’exemple d’endeavor, ça fait des fichiers intermédiaires un peu gros (3Mo par page), on peut économiser un peu de place, ou faire du grand ménage à la fin. Et en terme de performance, le total a pris 2~3 minutes pour 13 pages.

:warning: Sur mon navigateur, il fait de la merde au niveau des «"», mais normalement, ils sont bien encodés en UTF-8

5 « J'aime »

Tu a réussi à faire ce que tu voulais ?

Acrobat pro marche très bien et je pense que la version d’essai ferait bien le job. Perso quand je clique sur modifier, ça comprend bien tout.

Merci à tous en effet grace aux conseil de @apidadi j’utilise acrobat pro, qui est très fort pour rendre le pdf éditable par section, mais qui fait pas un super boulot d’ocr (par exemple il voit quasi systématiquement down en clown…), ce qui vu que je dois faire des copié collé dans deepl sans pouvoir relire (je ne veux pas me spoiler) n’est pas acceptable, je crée donc le pdf dans acrobat, je passe le fichier dans le site qui a été conseiller qui détruit l’apparence du fichier mais a un bon OCR, je copie colle les paragraphes un par un dans deepl puis dans acrobat, ça prends du temps mais ça a l’air de faire le job (posté dans oathsworn).
Reste à évaluer si ça sert à quelque chose avant d’investir autant de temps que ça dedans, réponse dans 1 semaine après ma prochaine partie.

1 « J'aime »

C’est peut être HS mais première partie d’oathsworn hier soir donc story mode, avec la tablette et j’ai utilisé :

  • Universal copy, une appli qui permet de sélectionner le texte dans l’appli, ce qui n’est pas possible sinon
  • trad Google avec lecture dans l’application ce qui fait qu’une fois le texte sélectionné, la traduction s’affichait par dessus l’appli.

C’était pas trop mal, mais la traduction était pas toujours top.

La prochaine fois, j’utiliserai l’appli deeple qui permet d’avoir une meilleure traduction (j’ai fait quelques tests ce matin). Le seul problème et qu’elle ne peut pas s’ouvrir par dessus l’appli oathsworn et il faut donc y revenir après.

1 « J'aime »

ça a l’air de demander beaucoup de manipulations en partie quand même j’avoue que je préfère faire le boulot en amont mais je vais regarder universal copy merci

C’est sur que c’est moins fluide que de tout avoir prévu avant…:wink:
Mais ça permet d’éviter le spoil ou de le faire en aveugle et c’est toujours plus fluide que la trad à la volée en même temps que la découverte du texte… :grin: