Re: [OT] Hurtowa zmiana nazw plików w XP

Autor: Andrzej P. Wozniak <uszer_at_poczta.onet.pl.invalid>
Data: Fri 04 Nov 2005 - 21:59:35 MET
Message-ID: <dkgigd$tou$1@olszynka.pl>
Content-Type: text/plain; charset="iso-8859-2"

Osoba podpisana jako AdamS <adam@ciach_ciach.webpark.pl> w artykule
<news:1qtewku0kxbv2.9n5h4twbktn7.dlg@40tude.net> pisze:

> Radosław Sokół wrote:
>
>> AdamS napisał(a):
>>> przeszkadza. U mnie wszystkie posty, jak twierdzisz zaśmiecone,
>>> wyświetlane są poprawnie. Może coś nie tak z Twoim czytnikiem. Bez
>>> urazy.
>> To, że są *wyświetlane* poprawnie nie znaczy, że *są*
>> poprawne.
> Ujął bym to tak: może i są poprawne tylko z różnych powodów używają
> niestandardowej strony kodowej

Nie są poprawne, bo nie zawierają żadnej deklaracji zestawu znaków, a bez
deklaracji tylko zestaw us-ascii jest zawsze poprawnie wyświetlany.
Wiadomości powinny być wyświetlane poprawnie _niezależnie_ od ustawień
czytnika - na Ukrainie, w Turcji, Izraelu, Egipcie czy dokadkolwiek
pojedziesz na wakacje, a nie tylko na Twoim komputerze w domu.

>> Hint: Przestaw sobie domyślne kodowanie z ISO-8859-2 na
> Ale po co skoro jest to ustalony standard kodowania m.in. polskich
> znaków, z którego właśnie korzysta MIME?

Zestawy znaków (a jest ich dużo) są dopuszczane do użytku w Internecie przez
IANA. Dla języka polskiego dopuszczone są m.in. zestawy windows-1250,
iso-8859-2 i utf-8, wybór iso-8859-2 był arbitralny. Jednak nawet przy
istnieniu tylko jednego zestawu znaków dla danego języka zestaw ten musi być
zadeklarowany, bo
standard nie przewiduje obowiązkowej deklaracji języka przesyłki. Poza tym
tekst może być wielojęzyczny.

>> Tu nie chodzi o to, aby móc przeczytać (bo po jednym kliknięciu
> No chyba przede wszystkim chodzi o to aby przeczytać, ewentualnie
> później poprawiać błędy.

Program zwykle nie próbuje zgadywać, co ma wyświetlić, więc jeśli natrafia
na coś niepoprawnego (niekoniecznie niezgodnego ze standardem), może
zachować się w nieprzewidziany sposób, np. odmówić wyświetlenia czy zawiesić
się.
Nawet człowiek znający się na rzeczy nie zawsze zgadnie o co chodzi. Wyobraź
sobie, że dostałem maila z krzaczkami bez deklaracji zestawu znaków
wysłanego przez jakieś anonimowe proxy. Spróbuj zgadnąć, w jakim języku jest
ten mail? Może w chińskim? A może w koreańskim lub rosyjskim? A jeśli tak,
to jakiego uzyto zestawu znaków? A może w żadnym z nich, bo któryś serwer po
drodze dokonał błędnej konwersji znaków utf-8 zakodowanych 8-bitowo na
Quoted Printable?
Mogę próbować zgadywać na podstawie nagłówków pokazujących drogę, którą
przeszedł mail, ale jaką mam mieć pewność, które z nich są prawdziwe, a
które sfałszowane? A co mam pomyśleć, jesli okazuje się, że mail został
wysłany z jakiegoś komputera podłączonego do Neostrady i trafił do mnie
drogą przez Chiny, Koreę, Meksyk, Brazylię, Indie i Niemcy? Jakiego języka
użył nadawca?

>> i ja widzę poprawnie polskie znaczki), ale o to, by ludzie
>> wysyłali na grupę _poprawnie_zakodowane_wiadomości_.
> Reasumując (w uproszczeniu), MIME załatwia nam sprawę poprawnego
> wyświetlenia niestandardowych znaków ascii

Nie ma niestandardowych znaków ascii. Jest standardowy zestaw us-ascii.
Standard MIME jako taki nie zajmuje się zestawami znaków, tylko typami
przesyłek i sposobem ich kodowania transportowego. Owszem, w szczególności,
dla typów tekstowych wymaga deklarowania zestawu znaków, ale tych zestawów
nie definiuje.

> w przypadku stosowania
> *różnych domyślnych* stron kodowych w relacji nadawca-odbiorca

Nie w tym przypadku, tylko w każdym przypadku - zgodnie ze standardem. A
standard jako domyślny ustanowił zestaw us-ascii, zaś o jakiejkowiek
interpersonalnej relacji nie ma w nim mowy.
Nawet wysyłając wiadomość do znanego użytkownika nie możesz mieć pewności,
czym i w jaki sposób ją odbiera, więc nie powinieneś wysyłać wiadomości,
która może sprawić jakikolwiek kłopot odbiorcy.
Może odbiorca zwykle korzysta z OE na stacjonarnym komputerze, ale akurat
teraz czyta wiadomość ściągniętą przez GPRS na komórkę, tymczasem Ty go
uraczyłeś krzakami w HTML (to w nawiązaniu do tematyki grupy)?
Pomyśl teraz:
- tekst został wklepany w Wordzie czy Notepadzie, więc jest zapisany w
zestawie znaków windows-1250 przy braku znaczników <META> deklarujących
język;
- mail został wysłany z wiersza poleceń źle skonfigurowanym Blatem, czyli
bez
wymaganych przez MIME deklaracji kodowania transportowego, typu przesyłki i
zestawu znaków przesyłki, co oznacza domyślny zestaw us-ascii;
- w HTML domyślnym zestawem znaków jest iso-8859-1, czyli 8-bitowy zestaw
różny od 7-bitowego zestawu us-ascii domyślnego dla mail/news;
- komórki domyślnie używają utf-8.
Co i jak sobie przeczyta odbiorca, jeśli uwzględnić jeszcze, że gdzieś po
drodze są wspomniane już serwery robiące konwersję z 8-bit do Quoted
Printable i na odwrót?

-- 
Andrzej P. Woźniak  uszer@pochta.onet.pl  (zamień miejscami z<->h w adresie)
Received on Fri Nov 4 22:10:08 2005

To archiwum zostało wygenerowane przez hypermail 2.1.8 : Fri 04 Nov 2005 - 22:42:01 MET