PDF content wrong sequence and space

Good morning, I am new into Elasticsearch use. I install it to search information from content of PDF generated by my old ERP.
Elastic extract correct text but into wrong sequence that depend from PDF read sequence or tab Order. This cause a merge of string that cause problem into research of specific text.
Any idea to solve this problem?

example:

text of filed attachment, content:

"content": "0000000001\n\n25/02/2025\n\nEmesso da :\n\n 522\n\nApprovato da:\n\n 1\n\nL.A.M.E.C. DI POLLON VINCENZO E PIO S.N.C.\n\nVIA GIORGIONE, 32\n\n31037 RAMON DI LORIA TV\n\nFLA22\n\nORIANO CECCHIN\n\n0423485475 0423759811Tel. Fax\n\nCOMMESSA N.:\n\nORDINE FORNITORE DEL PAGINA\n\nFORNITORE\n\nCOD. FOR. DEL PORTOVS. RIF. MEZZO VETTORE\n\nPAGAMENTO BANCA DI APPOGGIO\n\nDA: UFF. ACQUISTI SIG.\n\nCODICE ARTICOLO DESCRIZIONE U.M. QUANTITA' PREZZO UNITARIO DATA CONS\nCOD.\n\nIVA\n\nDESTINAZIONE MERCE\n\nOF\n\nRICEVUTA BANCARIA 90 GG. F.M.\n\nPREZZO SCONT.\n%\n\nSCONTO\n\nORIANO\n\nN 20,00LAVORAZIONI GENERICHE INTESO:\n\nInteso foratura flnge cieche DN40\n\ncod.625-00068-00 per portarle forate a\n\ncod.625-00182-00 \n\nrif.vs.offerta mail del 25/02/2025\n\n 4,50ZZZZLAV 6/3/25 I.22 90,00\n\nNMATERIALE DI CONTO LAVORO\n\nn°20 flange cod.625-00182-00\n\nMIC 6/3/25 I.22\n\n 90,00 109,80 20,0 EURO\n\nTOT. Q.TA' NETTO MERCE TOTALE IVATO\nFIRMA\n\nUNICONFORT S.R.L.\n\nSISTEMA QUALITA' ISO 9001 MD 0606\n\n\n\n\n0000000001\n\n\n25/02/2025\n\n\nEmesso da :\n\n\n 522\n\n\nApprovato da:\n\n\n 1\n\n\nL.A.M.E.C. DI POLLON VINCENZO E PIO S.N.C.\n\n\nVIA GIORGIONE, 32\n\n\n31037 RAMON DI LORIA TV\n\n\nFLA22\n\n\nORIANO CECCHIN\n\n\n0423485475 0423759811Tel. Fax\n\n\nCOMMESSA N.:\n\n\nORDINE FORNITORE DEL PAGINA\n\n\nFORNITORE\n\n\nCOD. FOR. DEL PORTOVS. RIF. MEZZO VETTORE\n\n\nPAGAMENTO BANCA DI APPOGGIO\n\n\nDA: UFF. ACQUISTI SIG.\n\n\nCODICE ARTICOLO DESCRIZIONE U.M. QUANTITA' PREZZO UNITARIO DATA CONS\nCOD.\n\n\nIVA\n\n\nDESTINAZIONE MERCE\n\n\nOF\n\n\nRICEVUTA BANCARIA 90 GG. F.M.\n\n\nPREZZO SCONT.\n%\n\n\nSCONTO\n\n\nORIANO\n\n\nN 20,00LAVORAZIONI GENERICHE INTESO:\n\n\nInteso foratura flnge cieche DN40\n\n\ncod.625-00068-00 per portarle forate a\n\n\ncod.625-00182-00 \n\n\nrif.vs.offerta mail del 25/02/2025\n\n\n 4,50ZZZZLAV 6/3/25 I.22 90,00\n\n\nNMATERIALE DI CONTO LAVORO\n\n\nn°20 flange cod.625-00182-00\n\n\nMIC 6/3/25 I.22\n\n\n 90,00 109,80 20,0 EURO\n\n\nTOT. Q.TA' NETTO MERCE TOTALE IVATO\nFIRMA\n\n\nUNICONFORT S.R.L.\n\n\nSISTEMA QUALITA' ISO 9001 MD 0606",
"content_length": 1983

Hi @uniconfortced. I assume you are using the Elasticsearch Attachment Processor? It delegates the work of extracting text from PDF files to Apache Tika, and unfortunately does not expose any way to really impact Tika's behavior.

Thank You very much for your answer. I bypass the problem using additional step into pipeline where search text with specific matrix and change it in spaces.