Jest tu może ktoś, kto ma doświadczenie w ściąganie serii danych z Google Drive?
Mój SO to w8.1
Mam taki nietypowy przypadek. Jest sobie strona z danymi, która zawiera około
150 linków do plików pdf(?)
przykładowy link wygląda tak
https://drive.google.com/file/d/0B-n8zi4LbvWVLWs5N0N0Q1BtX3c/view
Link uruchomiony w przeglądarce wygląda dziwnie. W nagłówku ma Kom_01-2016.pdf Dysk Google. Po lewej stronie
ma napis Kom_01-2016.pdf, a w środku dokument, który nie wygląda na pdf.
PDF średnio mnie interesuje bo chcę wyciągnąć dane liczbowe z tabeli.
Próbuję więc zapisz jako txt. Chrome w ogóle nie ma takiej opcji, IE zapisuje bardzo dużą kobyłę z ogromną
ilością html-u ( na końcu jest jednak zwykły tekst), Firefox zapisuje krótki plik tekstowy, z którego można
wyciągnąć liczby. Sukces?. Nie. Bo jak są braki w wierszu w tabeli to je pomija. Liczba wyników jest mniejsza
i nie wiadomo, który brakuje.
Po prawej stronie jest ikonka Pobierz. Klik. Wyraźnie widać, że pobiera jeszcze raz i proponuje albo zapisać
albo bezpośrednio otworzyć np w Foxid Reader. OK. A tam Save as txt. Zapisuje poprawnie sformatowany plik
tekstowy.
Jest ta droga żmudna i tylko masochista podejmie się tak ściągnąć 150 linków.
Próbowałem zautomatyzować ten proces.
TC Sieć -> FTP ściągnij w/g listy . np ftplista.txt a w nim link -> PlikWynikowy
Niestety nią ściąga -> bład. Jeżeli jest inny link tylko z http, ściąga bez problemu. Czy ktoś wie czy
rzeczywiście TC nie ściąga plików z https ?
No to może powershell na dwa sposoby
(new-object System.Net.WebClient).DownloadFile('link','PlikWynikowy.html') lub
Invoke-WebRequest -OutFile "PlikWynikowy.html" link
obydwie wersje ściągają identyczne b.duże pliki, w którym są setki skryptów ciurkiem pisanych ale niema ani
jednego elementu tekstu wyświetlanego poprzednio w przeglądarce !!.
PlikWynikowy.html uruchomiony w przeglądarce wyświetla jednak dokument, choć
nieco inaczej.
Wygląda na to, że link w przeglądarce najpierw ściąga jakieś zestaw procedur, które następnie automatycznie
uruchamiają się ściągając właściwy dokument. Niestety ta wiedza nie prowadzi do zautomatyzowania procesu ściągania
Ideałem byłoby taki zestaw instrukcji
przegladarka(np firefox) link (opcja otwórz plik w FoxitReader) (opcja Save as)
albo przynajmniej taki firefox link (opcja zapisz plik do txt) (opcja exit)
Marne są szanse na działanie takiej instrukcji
Może, ktoś już rozwiązywał podobny problem, albo macie jakieś inne pomysły, żeby cały proces od linku do pliku
tekstowego zautomatyzować.
Pozdrawiam,
--
Marek J.
|