Re: Nielegalne binaria na news-serwerach

Autor: Krzysztof Halasa <khc_at_pm.waw.pl>
Data: Tue 19 Apr 2005 - 20:00:47 MET DST
Message-ID: <m3y8beeje8.fsf@defiant.localdomain>
Content-Type: multipart/mixed; boundary="=-=-="

Marcin Frankowski <ab@anti.spam.com.invalid> writes:

> Ð tÞ jÕst niÕw

±tpliwi

Õ bug GnusÐ.

Co to jest bug? Program pracuje prawidlowo, tylko nieoptymalnie.
Jest to raczej brak funkcjonalnosci (ktora, nie watpie, zostanie
zrobiona). To nie jest np. blad w zalozeniach lub w implementacji,
a zwykle takie rzeczy nazywamy "bugiem".

> I litÕrÐ

ó

u¿yt

Ð w pÞlskim


ÞwiÕ jÕst _pÞlsk

±_

litÕr

±,

Skad ta pewnosc? Ta litera, z technicznego punktu widzenia, moze byc
polska litera, ale nie musi. Komputer nie moze tego wiedziec.

Chyba nie wymagamy od programu by analizowal cytowany przez kogos
fragment, by stwierdzic czy uzyte tam litery sa polskie czy tez
nie (przypominam ze oryginalny list jest w UTF8, czyli nie mamy
informacji o np. jezyku, uzywanym zestawie znakow itd. - ten tzw.
"problem" nie wystepuje, jesli program zna charset).

Jedyna mozliwosc poprawienia zachowania programu to optymalizacja.
To ma sie dokladnie nijak do jezyka (alfabetu), ktorego czescia jest
dana litera.

> i niÕ
> mÐ

¿

ÐdnÕj pÞtrzÕby kÞdÞwÐniÐ jÕj jÐkÞ litÕry pÞwiÕdzmy frÐnáuskiÕj, w
> ISÞ-8859-1.

Nie ma potrzeby, oczywiscie. Ale mozna tak zrobic, chyba ze podasz jakis
sensowny przyklad, ktory tego zabrania.
Bo to, ze nie jest to najszczesliwsze rozwiazanie, to ja wiem.

> ZÐlÕ

¿y,

áÞ rÞzumiÕ

æ

jÐkÞ

b³±d.

NÐ pÕwnÞ tÐkiÕ dziÕlÕniÕ nÐ áz

ê¶

ái jÕst
> áÐ

³k

ÞwiáiÕ niÕuzÐsÐdniÞnÕ jÐk

±k

ÞlwiÕk lÞgiázn

±

zÐsÐd

±

(ázytÕlnÞ


ái,
> zÐáhÞwÐniÐ minimÐlnÕgÞ áhÐrsÕtu,

u¿yt

ÕáznÞ


ái, minimÐlizÐáji Þbj

êt

Þ


ái
> przÕsy

³ki...).

Jest uzasadnione sposobem dzialania programow (komputerow - one wykonuja
programy, a nie np. "mysla"). Program nie zastanawia sie na ile czesci
(i czy) podzielic list, on po prostu koduje po kolei wszystkie znaki.

> Równi

Õ dÞbrzÕ Gnus

móg

³by

dziÕli

æ

jÕszázÕ bÐrdziÕj - nÐ
> áz

ê¶

ái us-Ðsáii, isÞ-8859-1 i us-8859-2, tylkÞ niÕ miÐ

³

Þby tÞ
> ÐbsÞlutniÕ

¿

ÐdnÕj zÐlÕty, Ð tylkÞ wniÞs

³

Þ bÐ

³

ÐgÐn.

Moglby (pomijajac to "us-8859-2). Ale to byloby bez sensu, optymalizacja
tego jest sprawa oczywista. Natomiast przypuszczalnie "problem" z litera
"ó" przy przejsciu z UTF8 do ISO 8859 nie jest az tak oczywisty, i po
prostu nikomu nie przyszlo do glowy, ze cos takiego nastapi
(nawet nie to, ze ktos to zauwazy).

BTW: jaki inny program potrafi zrobic to lepiej? Tzn. zrobic to samo
co Gnus - przekonwertowac z UTF8 do _odpowiednich_ np. 8859
i zoptymalizowac zmiany charsetow?

> PÞpÐtrz sÞbiÕ w

¼r

ód

³

Þ tÕgÞ pÞstÐ.

A po co? Dla mnie istotne jest ze list jest poprawny, co mnie
obchodzi ze (jak sie domyslam) czesc zakodowales jako cyrylice.

Zauwaz takze, ze moglbym po prostu kazac Gnusowi kodowac to w UTF8,
ale nie chce tego robic ze wzgledu na wiadome zalecenia.

-- 
Krzysztof Halasa
Received on Tue Apr 19 20:05:18 2005

To archiwum zosta³o wygenerowane przez hypermail 2.1.8 : Tue 19 Apr 2005 - 20:40:03 MET DST