輸入ビジネスの基本はセラーリサーチです。自分と同じ属性のセラーを見つけて、扱っている商品を1つ1つチェックしていきます。
セラーが扱っている商品をすべてぶっこ抜き、一気にASIN、商品名、価格、重量などを表示させられたら、きっと作業がはかどりますよね。
セラーからASINをすべてぶっこ抜くツールが人気だし、高額で販売されている、買われている理由もわかります。
ではそんなツールは作れないのでしょうか?いいえ、実は簡単に作れちゃうんです。
セラーからASINをぶっこ抜くツール(仮)
セラーからASINをぶっこ抜くツールの簡単な説明
ちょちょいと作ってみたツールがこちら。当ブログで公開しているAsinStocker同様、今度はセラー一覧ページからセラーをドラッグ・アンド・ドロップするだけでセラーID、セラー名が登録・ストックできちゃうステキな?仕様です。
セラーID、セラー名にはぼかしを入れています。さすがに公開したらまずいのでご理解ください。
で、赤枠部分を見てもらえるとわかると思いますが、このセラーは全部で520件の商品を扱っていました。
商品ページも22ページあります。これを手動で見ていくのって大変ですよね。
…例のごとく、IEを遠隔操作して拾ったHTMLファイルからASIN抜き出してます。ここまで出来たらあとはもうセラーの数だけ処理をループさせるだけなのでほぼ開発作業完了です。
ASINを取得したらあとはAsinStockerでリサーチするなり、この新ツール?にAsinStockerを合体させたり、自由に料理できます。
どうです?こんなツール、ほしくなっちゃいました?
ツールが抱える課題
問題は、Amazonはwebスクレイピングを規約上禁止しているということです。
ぶっちゃけ、この程度のものであれば本気でやれば数日で作れます。技術的なことは問題にならないのですが、規約が障害です。
ただし、わたしがやっていることは厳密にはwebスクレイピングではない…はずです。あくまでもIEを自動化させているだけです。
webスクレイピングではなくクロール、クローラという表現のほうが正しいですかね?クロールも規約違反ですが。
スクレイピング、クロールツールの現状はどうなっているのか?
規約違反ですが、現状は堂々と規約違反ツールが高額で販売されています。5万とか10万とかで。
とあるブログではメルマガ登録で1週間そういったツールが試用できるものがあり、ダウンロードして使ってみたのですが…。やっぱりwebスクレイピングの類を使っていました。
『ウソつけ!そんなのわかるわけないだろ!』と思った方向けに説明しておきますと、パケットの解析することでアプリがどういう動きをしているのかがわかります。
それにAmazonのAPIにはセラーIDをもとにして商品データを取得することができませんので。(別の方法はありますけどそれはまた今度)
わたしがこういったツールを作ったとして、それを公開してよいのかどうか迷います。
そういう理由で、現在開発ストップ中です。
ツールでセラーから全ASINを抜き出せるのか?
抜き出せない?
同じツール開発系の某輸入ビジネスブログ。https化されていないのでリンクは控えます。(https化されていないページにリンク貼るとこちらまで信頼できないサイト判定されるので…)
そのブログの記事を読む限り、ASINを全部抜き取ることはできていない、と言っています。
ちなみに、わたしのほうは全部のASINを抜き取っています。(たぶん)
170ページあるセラーからも抜き出せています。
実はネット上の情報を集めてみましても、ちらほらASINを抜き出せないと言われているようです。なぜだ?元気に取れてるように見えるけど?
IEをプログラムで操作しHTMLファイルを拾ってきてもらう
webから情報を収集するにはいろんな手段があります。特にわたしが好んで使っているのは、IEの自動化です。
IPアドレスがどうだとか言われている方は多いのですが、意外にというか誰も気にしていないのが『UA(ユーザー・エージェント)』です。サーバが訪問者を特定するのはIPアドレスだけではなく、UAも見ています。
UAとは?
このUAが適切ではないと、不正なリクエストと判断されて正しく情報を取得できなかったり、アクセスブロックを受けてしまう。
webスクレイピングと言っても、しっかりこのUAを設定できているのでしょうかね?わたしはさほど詳しくないのでわかりませんが。
わたしはIEを自動化させていればUAはしっかり適切に設定されると思っており、このような形式にしています。
プログラムを使って直にAmazonからデータを取得するのではなく、プログラムでIEを自動化し、IEにデータを取得してもらっているのです。
あくまでも人間の作業を自動化しているだけなのです。
こうすればプログラムなのか、人がやっているのか、まったく判断ができない…はず。(パケット解析はしていない)
処理は遅くはなりますが、サーバに負担かけないよう遅いほうが良いでしょう。あえて速さを捨てるわけです。
さいごに
このセラーからASINをぶっこ抜くツール、グレーな要素が強すぎて開発をためらっています。
どう提供するかは置いといて、まずは需要を知りたいです。もしよければ、下記アンケートに答えていただけるとうれしいです。
[poll id="2"]
とりあえず、セラーからASIN(だけ)をぶっこ抜くツール…といか、プログラム知識なしでも扱えるサンプルプログラムを作成しました。
プライスター・マカドの特典としていますので、もしよければご検討ください。