Operation KiWi

一生使える言語はPythonだと信じてる

画像収集ソフト「2ちゃんねる☆すくれいぱー」を公開しました

f:id:sakage24:20170603003924j:plain

ここ1週間くらいずっと開発していました...何がここまで私を突き動かしたのか?それは多分エロの力ですwww


スポンサーリンク

こちらの記事は旧版です。

最新版の記事は↓↓↓になります。
www.kiwi-bird.xyz

www.kiwi-bird.xyz


あ、独自ドメインになりました!いまいち引っ越しが上手くいっているのかが分かりません。ちなみにxyzドメインは3円で売っていました...なんでそんな安いんですか...w

最初は100行程度のソースコードだったのに、どんどん増えていって5-10倍くらいの量になりました。結構楽しくやっていたのでブログ更新どころじゃなかったのです。これ皆さん寝てても画像収集が出来ます。

ダウンロード

2ちゃんねる☆すくれいぱー v1.0.6

  • 解凍にはwinrarが必要です。

Readme

github.com

# 2chすく☆れいぱー v1.0.6

## 概要
2ch.scの特定板にアクセスして、画像を収集するプログラムです。

設定したキーワードに基づいてスレを絞り込み、画像があればアクセスして取得します。

デフォルトでは、2ch.netへのスクレイピングは行わないように設定されています。ご承知のこととは存じますが、悪用はお控えください。

グロ画像のmd5収集にご協力下さい。**グロ**フォルダにグロ画像を放り込んでおくと、自動的にmd5を取得してフィルタに登録します。
グロ画像のmd5を教えていただけると、どんどん精度が上がるかと思います。

## 実行方法
1. 解凍後出来たフォルダを開く。
1. 以下のコードをコピーして、sc.exeの存在するフォルダにconfig.yamlを作成すること。storageを変更するとよい。#はコメントアウトなので、適宜外したりすること。
~~~yaml
#config.yaml
# ファイル保存先パス
storage: ダウンロード

# 検索する拡張子
extension:
  - jpg
  - jpeg
  - png
  - gif

# phantomJS.exeの保存パス
phantomjs: phantomjs.exe

# 2ch.scの板一覧を張ってください(板のトップじゃないです。)
address:
# 2ch.net(参考用。#を外さない限りアクセスしません。)
# - http://phoebe.bbspink.com/megami/subback.html  # 女神
# - http://asahi.2ch.net/newsplus/subback.html # ニュース速報+
# - http://shiba.2ch.net/akb/subback.html  # AKB
# - http://vipper.2ch.net/news4vip/subback.html/ # VIP
# - http://matsuri.2ch.net/voiceactor/subback.html/ # 声優個人
# 2ch.sc
  - http://viper.2ch.sc/news4vip/subback.html # VIP
  - http://ikura.2ch.sc/voiceactor/subback.html # 声優個人
# 人大杉のアドレス
oosugi: http://www2.2ch.net/live.html

# キーワード(汎用)
key_word:
 - 宇宙
 - 画像
 - バイク
 - - F1

# 次スレ読み込みまでの待機時間(秒)
stand_by: 60

# タスクの再実行までの待機時間(秒)
re_start: 1800
~~~
3. [PhantomJS](http://phantomjs.org/)からダウンロードして、phantomjs.exeを指定してください。
4. run.exeを実行する。

多分これで動くはず...動かなかったら教えてください。

## 機能
- 画像の自動収集
- 板の追加、削除(config.yamlをより編集可能)
- アクセスしたURLの保存(url_history.yamlに保存)
- グロ画像フィルター(グロ/フォルダ以下に画像を置いておくと、起動時にフィルタに登録します)
- 同じ画像はダウンロード時にmd5を取得、自動的に判断して削除

### 注意点
- デフォルトの保存先はルートディレクトリ/ダウンロード/以下になります。適当に変更してください。
- [PhantomJS](http://phantomjs.org/)は同梱していませんが、**必須**となります。リンクからでも検索からでもたどり着いてダウンロードしてください。
- キーワードは何個でも追加できます。
- デフォルトでは2ch.netへは接続しません。ただし、参考に"#"でコメントアウトしたURLを載せてあります。
- 次スレ読み込みまでの待機時間(秒),タスクの再実行までの待機時間(秒)はサーバーの負荷を考慮して設定してあります。自由に設定出来ますが、負担をかけないようにしてください。
- 悪用するのはやめてください。


### 免責事項

下記の条件を受け入れていただけるのであれば、誰でも自由に無料で、このソフトウェアを使えます。
- 本ファイル(README.md)の変更は一切許可しません。
- このプログラムをコピーしてつかったり、変更を加えてもかまいません。自由にやってください。[ソースコード](https://github.com/sakage24/vip_scraper)も公開しています。
- ただし、許可なしに商用利用、再配布する事は出来ません。リンクする場合は、[私のブログ](http://www.kiwi-bird.xyz/)にリンクをしてください。頼みます。
- このソフトウェアにはなんの保証もついていません。
- たとえ、このソフトウェアを利用したことでなにか問題が起こったとしても、作者はなんの責任も負いません。

### 更新履歴
* v1.0.6    グロ画像をフィルタリング出来る機能を追加した。
* v1.0.5    画像ごとにハッシュを保持して、同一の画像は保存しないようにした。
* v1.0.4    読み込んだURLを保存しておき、再びアクセスしないように設定した。h抜きのURLを認識できるようにした。
* v1.0.3    ファイルパスの問題で起動できなかったのを修正した。
* v1.0.2    主に読み込みが上手くいかない板、スレッドがあったのを修正。
* v1.0.1    スレッドの接頭語をURLから自動で取得できるようにした
* v1.0.0    リリース


### 開発者の情報
* [Twitter@Ops_kiwi](https://twitter.com/Ops_kiwi)
* [© 2017 Operation Kiwi](http://www.kiwi-bird.xyz/)

終わり

疲れた...でも、とりあえず完成できたので満足です。そのうち、グロ回避機能とかも付けたいですね~。
これで女神降臨を見逃さない...

Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-

Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-

退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

スポンサーリンク

スポンサーリンク

### 更新しています...
www.kiwi-bird.xyz