Re: Potrzrebny edytor tekstu do masowego przetwarzania...

Autor: grapeli23 <grapeli23_at_googlemail.com>
Data: Sat 28 Mar 2009 - 14:27:15 MET
Message-ID: <gql8jj$94o$1@nemesis.news.neostrada.pl>
Content-Type: text/plain; charset=iso-8859-2

Dnia 27.03.2009 PureNick <ibozaur@CTRL+X> napisał/a:
> kolejny zacny uzyszkodnik jenternetu o wdziecznym pseudonimie Dominik &
> Co raczyl(a) zaszczycic towarzystwo temi oto slowy:
>> PureNick napisał(a):
>
>>> Dziękuję wszystkim za zaangażowanie, ale po raz kolejny przekonałem się
>>> że takie kwiatki to nie dla mnie. Oczywiście dziura w niebie
>>> się nie zrobi, jeśli na tym polegnę, ale chciałem sobie wyciąć śmieci
>>> z plików HTML, które łączę w jeden dłuuuugi plik, żeby z niego masowo
>>> pobierać obrazki (serwis Flickr), i w czasie tego łączenia programik
>>> okropnie długo się męczy, żeby to wszystko przetworzyć, a potem taka
>>> zbiorcza strona bardzo długo otwiera się w przeglądarce.
>
>> Daj jakiś konkretny plik, co wyciąć, gdzie wstawić i co dalej z tym
>> zrobić. Może wystarczy po prostu po kolei z plików HTML wycinać
>> linki i pobierać zawartość np. wgetem?
>
> A proszę bardzo, z przyjemnością:
>
> 1. Oto plik który ściągam przez Firefoksa wtyczką 'DownThemAll!':
> http://zax.pl/~ibozaur/temp/flickr_do_bacza__za_duzy.htm
>
> 2. Oto plik po wycięciu śmieci:
> http://zax.pl/~ibozaur/temp/flickr_do_bacza__dobry.htm
> śmieci, czyli około 96% zawartości, które zaczynają się po ciągu:
><!-- ############## COMMENTS -->
>
> Sprawadzałem, że po usunięciu wszystkiego od tej frazy, nawet razem
> ze znacznikami </body></html>, strona się otwiera, i - co najważniejsze
> - zawiera tylko to czego potrzebuję.
>
> Pozdrawiam
>
W tym wypadku wystarczy skorzystać z GNU utilities.

cat flickr_do_bacza__za_duzy.htm | grep -B 10000 '^<.*#\{10,\} COMMENTS' \
 | grep -v '^.*## COMMENTS' >> flickr_do_bacza__dobry.htm

Użycie '--before-context' -B 10000 jest brzydkie, ale powinno być
skuteczne.
Received on Sat Mar 28 14:20:03 2009

To archiwum zostało wygenerowane przez hypermail 2.1.8 : Sat 28 Mar 2009 - 14:42:02 MET