ニコニコ動画のHTMLを取得していろいろpart4
ニコニコ動画のHTMLを取得していろいろ
本日3つ目の記事。何やってんだか・・・(-_-;
あの後、String型の再生数とか日付を適当な型に直す部分を作成。 ダウンロードと集計→動画作成までは一度に出来ないので、XMLで保存するようにしました。 ↓XMLで保存した様子 (UTF-16で保存しようとしたけど上手くできなかった・・・)そのあと、タグ検索を順にダウンロードする仕組みを作成。基本的なアルゴリズムは・・・ 1. 調査ページに1ページ目をセット 失敗回数に0をセット 2へ 2. 一気にアクセスしないように5~10秒ほど空気を読んで待つ 3へ 3. 失敗回数が3以下で、調査ページが最後まで行ってなかったら調査ページのURLからダウンロードを開始する ダウンロードが終わったら4へ 失敗回数が4以上だったり、調査完了してたら7へ 4. ダウンロードが成功していたら5へ, 失敗していたら失敗回数を1増やして2へ 5. ページのHTMLを解析する 成功したら6へ 失敗してたら失敗回数を1増やして2へ 6. 解析結果を覚えておく 調査ページを進めて 失敗回数に0をセット 2へ 7. 解析結果をファイルに保存したりして終了 こんな感じ。ちょっとミスって書いてる箇所があるかも・・・。 とりあえず、チーターマンを再生順で動画600個分(20ページ)XMLにして、こんな感じになりました。長い間見てると目が痛くなるのでほどほどにお願いします。
最終更新: 2023/05/07 16:49


そのあと、タグ検索を順にダウンロードする仕組みを作成。基本的なアルゴリズムは・・・
1. 調査ページに1ページ目をセット 失敗回数に0をセット 2へ
2. 一気にアクセスしないように5~10秒ほど空気を読んで待つ 3へ
3. 失敗回数が3以下で、調査ページが最後まで行ってなかったら調査ページのURLからダウンロードを開始する ダウンロードが終わったら4へ 失敗回数が4以上だったり、調査完了してたら7へ
4. ダウンロードが成功していたら5へ, 失敗していたら失敗回数を1増やして2へ
5. ページのHTMLを解析する 成功したら6へ 失敗してたら失敗回数を1増やして2へ
6. 解析結果を覚えておく 調査ページを進めて 失敗回数に0をセット 2へ
7. 解析結果をファイルに保存したりして終了
こんな感じ。ちょっとミスって書いてる箇所があるかも・・・。
とりあえず、チーターマンを再生順で動画600個分(20ページ)XMLにして、