Pour un projet je cherche une solution ocr gratuite pour transformer un pdf (2 colonnes), en texte qu’on puisse copier coller, j’essaie pas mal de solution en ligne gratuite mais c’est pas dingue comme résultat (genre là j’essaie newocr ou onlineocr).
Googledoc fonctionne bien en y entrant une image d’une seule colonne mais ça me demande énormément de boulot d’éditer chaque page en 2 images séparées, déjà que ça va représenter beaucoup de taf à faire vu la quantité de texte j’aimerais bien essayer de gagner du temps quand même.
Oui le fichier de sortie est strictement identique sans texte avec le suffixe qu’il rajoute (et il annonce 0 mots détectés).
Il y a moyen que je te l’envoie que tu testes histoire de voir si c’est moi qui déconne ou pas?
J’ai déjà fait un peu pire pour des fichiers de Saga ou c’est une ligne en haut et 3 colonnes en bas.
Si c’est à peu près toujours au même endroit à quelques pixels près, je peux te faire un script pour faire des trucs en couplant imagemagick et tesseract et un peu de cat.
Si tu as la totale, tu peux m’envoyer un lien par mp pour que je télécharge le tout. Vu que j’ai déjà un exemple de truc, je devrais pouvoir te pondre un truc.
J’ai fait un truc qui fonctionne à peu près correctement même si forcément, il y a des pétouilles au niveau des images, du texte qui n’est pas sur deux colonnes, etc. Si jamais ça peut servir à d’autres dans des cas similaires…
Ma solution utilise pdfseparate, ghostscript, imagemagick, tesseract, sed et la commande cat, forcément, c’est plutôt sous Linux que ça se passe, mais tout est gratuit.
un pour séparer le pdf en un fichier par page au format png pas trop petit, ici, tout est automatique
un pour faire la reconnaissance de caractère en splittant en deux les pages, qui recolle le texte de chaque colonne à la suite et fait un poil de nettoyage. Ici, il faut adapter les zones à prendre pour faire le découpage des colonnes sur les lignes « -crop 1301x3508+000+000 +repage » AAAAAxBBBBB indique la zone à découper, +CCCC+DDDD indique le décalage horizontal et vertical respectivement (donc ici, on découpe une zone de 1301 pixel par 3508 avec aucun décalage : donc en partant du bord haut gauche)
le dernier, il faut adapter au nombre de page (ici 13) : ça recolle chacune des pages en sortie à la suite les unes des autres pour tout mettre bout à bout. Je viens de voir qu’en rajoutant la ligne :
ça permet de regrouper les paragraphes pour que la traduction deepl ne soit pas hachée par les sauts de ligne.
Sur l’exemple d’endeavor, ça fait des fichiers intermédiaires un peu gros (3Mo par page), on peut économiser un peu de place, ou faire du grand ménage à la fin. Et en terme de performance, le total a pris 2~3 minutes pour 13 pages.
Sur mon navigateur, il fait de la merde au niveau des «"», mais normalement, ils sont bien encodés en UTF-8
Merci à tous en effet grace aux conseil de @apidadi j’utilise acrobat pro, qui est très fort pour rendre le pdf éditable par section, mais qui fait pas un super boulot d’ocr (par exemple il voit quasi systématiquement down en clown…), ce qui vu que je dois faire des copié collé dans deepl sans pouvoir relire (je ne veux pas me spoiler) n’est pas acceptable, je crée donc le pdf dans acrobat, je passe le fichier dans le site qui a été conseiller qui détruit l’apparence du fichier mais a un bon OCR, je copie colle les paragraphes un par un dans deepl puis dans acrobat, ça prends du temps mais ça a l’air de faire le job (posté dans oathsworn).
Reste à évaluer si ça sert à quelque chose avant d’investir autant de temps que ça dedans, réponse dans 1 semaine après ma prochaine partie.
C’est peut être HS mais première partie d’oathsworn hier soir donc story mode, avec la tablette et j’ai utilisé :
Universal copy, une appli qui permet de sélectionner le texte dans l’appli, ce qui n’est pas possible sinon
trad Google avec lecture dans l’application ce qui fait qu’une fois le texte sélectionné, la traduction s’affichait par dessus l’appli.
C’était pas trop mal, mais la traduction était pas toujours top.
La prochaine fois, j’utiliserai l’appli deeple qui permet d’avoir une meilleure traduction (j’ai fait quelques tests ce matin). Le seul problème et qu’elle ne peut pas s’ouvrir par dessus l’appli oathsworn et il faut donc y revenir après.
ça a l’air de demander beaucoup de manipulations en partie quand même j’avoue que je préfère faire le boulot en amont mais je vais regarder universal copy merci
C’est sur que c’est moins fluide que de tout avoir prévu avant…
Mais ça permet d’éviter le spoil ou de le faire en aveugle et c’est toujours plus fluide que la trad à la volée en même temps que la découverte du texte…