Lista winnt@man.lodz.pl
[Lista archiwów] [Inne Listy]

Re: [WINNT] Problem z odczytem plików

To: winnt@man.lodz.pl
Subject: Re: [WINNT] Problem z odczytem plików
From: "Andrzej P. Wozniak" <uszer@poczta.onet.pl.invalid>
Date: Sat, 9 Nov 2013 23:57:48 +0100
Osoba podpisana jako Grzegorz Niemirowski <gnthexfiles@poczta.onet.pl>
w artykule <news:l5mbuc$cgg$1@node2.news.atman.pl> pisze:

666 <j.666@gazeta.pl> napisał(a):
Fantastycznie (jak by nie było piszesz o roku 1993).
To wydrukuj w 2013 spod Safari z www pdf-a z polskimi znakami.
Albo przeklej copy-paste tekst z Acrobata do Worda.

Nie używam Safari ani Acrobata. W każdym razie problemy z polskimi
literami mam bardzo rzadko.
Poza tym mieszasz kilka rzeczy. Jedna rzecz to istnienie norm dla
kodowania. Druga sprawa to przestrzeganie tych stron kodowych
(Microsoft nie przestrzegał PN, forsował swoją stronę kodową 1250).
Trzecia sprawa to kodowanie danych w pliku. Przykładowo Unicode może
być kodowane jako UTF-8  albo UTF-16. Trzecia sprawa to obsługa stron
kodowych i kodowań w programach.

W przypadku PDF mamy pomieszanie z poplątaniem. Stare wersje standardu
przewidywały możliwość stosowania własnej tabeli znaków zamiast tabeli
unikodowej. W szczególności taka tabela może zawierać tylko znaki faktycznie
występujące w tekście (ponumerowane zwykle według jakieś 8-bitowej strony
kodowej, rzadziej kolejno czy według częstotliwości występowania) i tylko
te glify z fontu są wbudowane w wygenerowany plik PDF, co zmniejsza jego
rozmiar.

W interesujących nas przypadkach mamy zwykle plik PDF zakodowany z użyciem
tabeli dla strony kodowej windowsowej (windows-1250) lub makowej (x-mac-ce,
10029) zamiast tabeli unikodowej, więc po przekopiowaniu znaki ASCII
pozostaną na swoim miejscu, a zamiast polskich ogonków zobaczymy znaki,
które mają takie same numery w tabeli unikodowej, czyli pochodzące
z ISO-8859-1.

--
Andrzej P. Woźniak uszer@pochta.onet.pl (zamień miejscami z<->h w adresie)

<Pop. w Wątku] Aktualny Wątek [Nast. w Wątku>