Lista winnt@man.lodz.pl
[Lista archiwów] [Inne Listy]

[WINNT] Google Drive

To: winnt@man.lodz.pl
Subject: [WINNT] Google Drive
From: "Marek J." <MarekJ@Koscielisko.pl>
Date: Thu, 10 Nov 2016 00:09:10 +0100
Jest tu może ktoś, kto ma doświadczenie w ściąganie serii danych z Google Drive?
Mój SO to w8.1
Mam taki nietypowy przypadek. Jest sobie strona z danymi, która zawiera około 
150 linków do plików pdf(?)

przykładowy link wygląda tak 
https://drive.google.com/file/d/0B-n8zi4LbvWVLWs5N0N0Q1BtX3c/view

Link uruchomiony w przeglądarce wygląda dziwnie. W nagłówku ma Kom_01-2016.pdf Dysk Google. Po lewej stronie ma napis Kom_01-2016.pdf, a w środku dokument, który nie wygląda na pdf.
PDF średnio mnie interesuje bo chcę wyciągnąć dane liczbowe z tabeli.

Próbuję więc zapisz jako txt. Chrome w ogóle nie ma takiej opcji, IE zapisuje bardzo dużą kobyłę z ogromną ilością html-u ( na końcu jest jednak zwykły tekst), Firefox zapisuje krótki plik tekstowy, z którego można wyciągnąć liczby. Sukces?. Nie. Bo jak są braki w wierszu w tabeli to je pomija. Liczba wyników jest mniejsza i nie wiadomo, który brakuje.

Po prawej stronie jest ikonka Pobierz. Klik. Wyraźnie widać, że pobiera jeszcze raz i proponuje albo zapisać albo bezpośrednio otworzyć np w Foxid Reader. OK. A tam Save as txt. Zapisuje poprawnie sformatowany plik tekstowy.
Jest ta droga żmudna i tylko masochista podejmie się tak ściągnąć 150 linków.

Próbowałem zautomatyzować ten proces.
TC Sieć -> FTP ściągnij w/g listy . np ftplista.txt a w nim link -> PlikWynikowy
Niestety nią ściąga -> bład. Jeżeli jest inny link tylko z http, ściąga bez problemu. Czy ktoś wie czy rzeczywiście TC nie ściąga plików z https ?

No to może powershell na dwa sposoby
(new-object System.Net.WebClient).DownloadFile('link','PlikWynikowy.html')  lub
 Invoke-WebRequest -OutFile "PlikWynikowy.html" link
obydwie wersje ściągają identyczne b.duże pliki, w którym są setki skryptów ciurkiem pisanych ale niema ani jednego elementu tekstu wyświetlanego poprzednio w przeglądarce !!.

PlikWynikowy.html uruchomiony w przeglądarce wyświetla jednak dokument, choć 
nieco inaczej.
Wygląda na to, że link w przeglądarce najpierw ściąga jakieś zestaw procedur, które następnie automatycznie uruchamiają się ściągając właściwy dokument. Niestety ta wiedza nie prowadzi do zautomatyzowania procesu ściągania

Ideałem byłoby taki zestaw instrukcji
przegladarka(np firefox) link (opcja otwórz plik w FoxitReader) (opcja Save as)
albo przynajmniej taki firefox link (opcja zapisz plik do txt) (opcja exit)
Marne są szanse na działanie takiej instrukcji

Może, ktoś już rozwiązywał podobny problem, albo macie jakieś inne pomysły, żeby cały proces od linku do pliku tekstowego zautomatyzować.

Pozdrawiam,

--
Marek J.

<Pop. w Wątku] Aktualny Wątek [Nast. w Wątku>