ネット上のデータを取り出したい場合、データスクレイピングでリストとして取り出すこともできます。
これまではPower Automate DesktopやUiPathなどのRPAでやっていました。
今回試したのは、ClaudeのChrome拡張を使った方法です。
ネット上にある情報をデータにするには?
ネット上にある情報をデータとして利用したいと考えることもあるでしょう。
もし、集計しようとすれば、まずはデータを揃えるところからです。
ところが、そのデータがないと入力してつくるしかありません。すでにデータがあれば、それを利用しない手はありません。
ネットでCSVファイルをダウンロードできればいいのですが、そうでないことも。
その場合でも、データをつくることはできます。
たとえば、Gmailをもとに、GASを使って、経理データをつくることができます。

きっかけになるデータがあれば、決まったルールをみつけてデータ化することができるわけです。
同じようにネット上にあるデータをリストとしてとりだすことができます。その方法がデータスクレイピング。
Power Automate DesktopやUiPathなどのRPAを利用して、どのデータの情報を取り出すかを決めて、リストとして取り出すことができます。

抽出したいデータを順番にクリックしていき、収録。

流れが決まったら自動的に動いてくれます。

ただ、ネット画面の仕様が変わると、画面上の位置や要素なども変わることがあります。
その場合は設定を見直すことになります。
また、次ページやページ変更のボタンをクリックするタイミングも分岐でルール化する必要があり、手間がかかることもあるわけです。
そこで使ってみたのがAI。
Claudeを利用して、データスクレイピングで必要な情報を取り出してみました。
Claudeでデータスクレイピング
今回、試してみたのは、e-taxのメールボックスのデータを抽出すること。
ログイン後の画面では、直近分しか表示されず、120日以前のデータは、「120日以前」をクリックしないと、画面が切り替わりません。

これがRPAで「いちばん下のデータまで到達したら、120日以前をクリックして、過去のデータも抽出して」とお願いするのは、手間がかかります。
2019年にe-taxのデータスクレイピングをUiPathで試していますが、そのときとは画面の仕様も変わっています。
UiPathでネット上にある情報を収集して(データスクレイピング)活用してみよう! | GO for IT 〜 税理士 植村 豪 OFFICIAL BLOG
さらにそのページのデータを抽出し終えたら、次ページのボタンをクリックしないといけないとなると、けっこうめんどくさいかも…。
そこで、「120日以前」のボタンを押すとか、次ページのボタンをクリックするなど処理のタイミングをAIに判断してもらおうというです。
違いはこんな感じです。
RPA
- 操作を細かく記録する
- 分岐を自分で設定する
- 画面変更があると手直し
Claude
- テキストでお願いする
- 「120日以前を押して」「次ページ」を判断できる
- NGだったときに理由まではわからない
始める前に1つだけ。
e-taxのメールボックス、個人名は「**********」と名前が表示されていません。ここはマイナンバーカードや税理士カードの認証をしないと、表示されないのです。
そこでカギのマークのついたデータをクリックすると、このような表示がでてきます。解除しないと「**********」と入ったままです。スマホでマイナポータルか、カードリーダーを利用して解除します。

この認証解除、MacのChromeだとできず、(わたしが試した限り)WindowsのChromeだと大丈夫です。なので、Windowsでの操作が前提になります。
その後に鍵マークを解除した状態で、Claudeにお願いするわけですが、ここではChrome拡張版を使いました。

こちらからChrome拡張を入れることができます。 Claude(Chrome拡張)
そのまま、メニューバーに表示されたChromeボタンをクリックし、Claudeにログインすると、いつものようにチャットでお願いできるようになります。
こんな感じでチャットからお願いしてみると、

画面真ん中にオレンジのカーソル、画面がオレンジの枠で囲まれて、動き始めます。ただ、どこまで動いているかはわかりません。

5分後に確認してみると、5年分のデータ抽出が終わっていました。

気になるデータは?というと、必要なデータは問題なく抽出できていました。

ということで。
RPAだけでなく、AIでもネット上のデータスクレイピングができるようになっています。
AIが画面を見ながら判断して、ボタンをクリックしてくれるので、設定を減らせたのはよかったかなと。
「めんどくさい…」のアンテナを
仕事に使うデータでも、ネット上にあるデータを利用して解決できることも多いです。
入力が好きならともかく。わたしはExcelは好きですが、ひたすら入力するのはあまり得意ではありません。
だから、データが必要になるときには、アンテナを立てています。
「どこかにデータはねえかー」と。
「データは入力するもの」という前提でいると、ネット上のデータを利用できないか?と気づけません。
でも実際にはそうでもないわけです。
・Amazonなどネットショップのデータ
・クレジットカードのデータ
・Gmail
・ネットバンク
・決済サービスのデータ
などあるわけです。
ふるさと納税のデータもファイルのダウンロードできるのが遅いので、楽天から購入データをデータスクレイピングでとっています。
Power Automate Desktop入門。ネット上のデータを取り出せるデータスクレイピング。 | GO for IT 〜 税理士 植村 豪 OFFICIAL BLOG
どうやってアンテナを立てるか?
わたしは「めんどくさい」と思うかどうかで気付けるようにしています。
もし、データを入力していて、「め、めんどくさい…」と思えれば、なんとかしようとするものです。
それこそ工夫しようとしますから。
今回はClaudeでデータスクレイピングの事例でしたが、やったことがなくても手間を減らすために試してみますし、意外と何とかできるものです。
ということで、ご興味ある方は試してみていただければ。
【編集後記】
昨日は2時から長男(11)と
妻と3人でW杯観戦。
長女(17)は翌日テストなので、
寝ていました。
午前中は相続関係、午後はセミナー開催。
早朝サッカーで眠く、夜は早めに寝ました。
【昨日の1日1新】
※「1日1新」→詳細はコチラ
新セミナー開催
freeeにUPSIDER連携

