2ちゃんねる☆すくれいぱーの説明書+特設サイト作りました!!

せっかく頑張って作ったのにアクセス皆無という悲しみを乗り越えるために記事を書いてしっかりと宣伝してやろうという魂胆です。

2ちゃんねる☆すくれいぱー特設サイト

2ちゃんねる☆すくれいぱーって?

説明が不十分だった気がするので、今一度、ここで分かりやすく解説していきたいと思います。

2ちゃんねる☆すくれいぱーは、2ちゃんねる系の掲示板を巡回して画像を集めてくれるプログラムです。デフォルトでは

  • 2ch.net
  • 2ch.sc
  • おーぷん2ちゃんねる

を巡回します。事前に巡回する板キーワード拡張子などを設定することで、貴方の目的に合った画像収集が可能になります。

Linux(Bash on Ubuntu on windows)ユーザさんへ

v1.3.3.1より、画像のサムネイルを出力出来るようになりました。(色々問題があるため、Windows版では出力出来ません)

推奨環境

  • Windows10 64bit
  • 以下はスクリプトを直接実行する場合に必要です。
    • Python3.6.1(32/64bit)
    • 外部パッケージのインストール(config/requirements.txtを参照して下さい。)

使い方(Windows10向け)

ダウンロード

2ちゃんねる☆すくれいぱー特設サイトにアクセスして、ダウンロード欄にある

  • OneDrive
  • DropBox

の何れかをクリックして、共有フォルダにアクセスします。中にはいくつかファイルがありますが、実行に必要なのは以下の3つのうち1つだけです。

  • v○.○.○.exe
  • v○.○.○.rar
  • v○.○.○.zip

の何れかををダウンロードします。3つとも圧縮形式が違うだけで中身は同じですが、v○.○.○.rarwinrarをインストールしないと解凍出来ません。v○.○.○.exeの方は、自己解凍形式のファイルになりますので、winrarをインストールされていない方でも解凍が出来ます。*1

config.yamlの作成

解凍したフォルダを開いて、2ちゃんねる☆すくれいぱー.exeを実行して下さい。そうしたらすぐに閉じてかまいません。その後、configフォルダにconfig.yamlが作成されますので、それを編集していきます。出来ればメモ帳ではなく、UTF-8でエンコード出来るテキストエディタを使用して開いて下さい。

yamlって何?

各項目を解説します。その前に、yamlは以下のようになっています。
yamlはデータ構造を簡単に、それでいて人間に分かりやすく表現出来るテキスト形式のデータフォーマットです。


key: values

または


key:
- value1
- value3
- value3
....

みたいな感じです。詳しく説明すると結構長くなってしまうので割愛します。とりあえずファイル内のレイアウトなどを崩さずに編集して頂ければ動きます。

最後に、各項目は行頭に#を付けることで無効化することが出来ます(コメントアウト)

例:


extension:
- jpg
- jpeg
- png
#- gif

この場合は、#- gifは無かったことにされます。

config.yaml

それでは実際に編集していきましょう。中身はこうなっています。繰り返しますが、エンコード形式がUTF-8で開いているかを確認して下さい。


board_lists_page_name: subback.html
clean_limit: 1048576
extension:
- jpg
- jpeg
- png
- gif
filter: フィルター
key_word:
- 猫
- バレー
- ゴルフ
- 水泳
- 宇宙
loop: 1
online_gro_filter: https://raw.githubusercontent.com/sakage24/filter/master/gro_table.txt
open_two_channel_url: http://menu.open2ch.net/bbsmenu.html
re_start: 1800
stand_by: 60
storage: ダウンロード
threading: false
two_channel_net_url: https://2ch.net/bbstable.html
two_channel_sc_url: https://2ch.sc/bbstable.html

設定項目の解説

v1.3.2.11で追加。

○○_url:


open_two_channel_url: http://menu.open2ch.net/bbsmenu.html
two_channel_net_url: https://2ch.net/bbstable.html
two_channel_sc_url: https://2ch.sc/bbstable.html

読み込むべき掲示板(おーぷん2ちゃんねる、2ch_net, 2ch_sc)のURLです。そのままでオッケーです。

board_lists_page_name:

board_lists_page_name: subback.html

板一覧が記載されているhtmlファイル名です。そのままでオッケーです。てかsubbackって何ですか?

例:ニュー速VIP@おーぷん

clean_limit:

clean_limit: 1048576

後述するフィルターファイルが1048576バイトを超えた場合、ファイル内の重複を排除してファイルの肥大化を軽減します。そのままで平気です。1とかにすると毎回処理が入ります。

extension:

extension:
- jpg
- jpeg
- png
- gif

検索する画像の拡張子のリストです。任意で編集して下さい。余談ですがこのプログラムでは処理の都合上、jpegをjpgにリネームします。

storage:

storage: ダウンロード

取得した画像を格納するフォルダを指定します。このフォルダ内でkey_wordに基づいて更にサブフォルダを作り、振り分けます。

filter:

filter: フィルター

本プログラムでは、利便性向上の為以下のデータをtxt形式で保存しています。これらのフィルターファイルの保存先です。
*2

  • url_filter.txt
    • 既にアクセスしたURLに再度アクセスしないように、URLをmd5に変換したものを保存しています。
  • gro_filter.txt
    • グロ画像のmd5値が保存してあります。フィルタリングに利用します。
  • img_filter.txt
    • 画像のmd5値を保存しています。これにより、ファイル名が違うだけの同じ画像を保存しないようになっています。

key_word:

key_word:
- - バレー
- ゴルフ
- 水泳
- 宇宙

検索したいスレッドタイトルのキーワードです。何個でも追加できます。

loop:

loop: 1

プログラムの実行回数です。指定回数分繰り返します。

online_gro_filter:

online_gro_filter: https://raw.githubusercontent.com/sakage24/filter/master/gro_table.txt

私が公開しているグロ画像フィルターへのURLです。プログラムは起動時にこのURLと通信して、更新があれば差分を自身のフィルターに追記します。

警告

以下の項目は、設定次第でサーバー負荷を大きく高める可能性がありますので、安易に変更しないで下さい。

re_start:

re_start: 1800

全ての掲示板を読み終えたあと、再度プログラムを実行するまでの待機時間です。サーバーに負担がかかるので安易に短くしないで下さい。

stand_by:

stand_by: 60

スレッドを読み込んだあと、次のスレッドを読み込むまでの待機時間です。サーバーに負担がかかるので安易に短くしないで下さい。

threading:

threading: false

スレッディングを利用して巡回処理を並列に行うことで、I/Oインバウンドを解消します。この設定は古いPCだと重くなる可能性があります。
onにすると大幅にアクセス速度が向上しますが、サーバー負荷を考慮してデフォルトではoffになっています。

機能を有効にする場合

例:

threading: on
もしくは
threading: true

機能を無効にする場合

例:

threading: off
もしくは
threading: false

設定が終了したら、文字コードがUTF-8となっていることを確認してから保存して下さい。
訳が分からなくなったらconfig.yaml削除して再び2ちゃんねる☆すくれいぱー.exeを起動してもう一度作り直してみて下さい。

巡回する掲示板の設定

configフォルダにある

  • 2ch.net_board_lists.yaml
  • 2ch.sc_board_lists.yaml
  • menu.open2ch.net_board_lists.yaml

を開いて下さい。存在しない場合は2ちゃんねる☆すくれいぱー.exeを起動すると作成されます。例として2ch.net_board_lists.yaml内のニュース速報(VIP)を検索してみて下さい。


ニュース速報(VIP):
crawl_flag: true
url: https://hebi.2ch.net/news4vip/
  • crawl_flagtrueもしくはonなら、巡回します。falseもしくはoffなら巡回しません。
  • urlは古い場合があります。クリックして最新のURLか確かめて更新してください。
    • プログラムはURLの移転を検知できません!!これらは手動での対応になります。

起動

以上で初期設定は完了です。2ちゃんねる☆すくれいぱー.exeを起動して下さい。

特設サイトについて

とりあえずこれで最低限起動は出来るようになったと思います。最後に特設サイトの紹介です。

2ちゃんねる☆すくれいぱー特設サイト

今後、2ちゃんねる☆すくれいぱーに関する情報は、こちらのサイトで扱おうと思っています。もちろん、何か大きなことがあればこちらでもアナウンス致します。

あと、よろしければブックマークなり何なりしてくださると更新が捗ります!!

デザインとかはとりあえずレスポンシブデザインならなんでもいい感じで余りこだわってはいませんが、フォントはこちらのサイトからお借りしました。とってもカッコイイフォントですね~。満足です。

終わり

今後共よろしくお願いします!!何気に今までで最長の記事です。ソースコードもカウントされているので反則かな…

*1:v1.3.2.11より、zip形式も追加しました

*2:v1.3.2.14より、yamlからtxt形式に変更しました。

コメントを残す

メールアドレスが公開されることはありません。