Rの考え方

Rの個人研究・考察を行うブログ。最近は因果推論とアナリティクス(機械学習、統計はお休み中)、認知論にお熱。

ブログ

【特許実務ツール】Autodetectの紹介

投稿日:

データ分析(統計学、人工知能関連)業界に居る以上、知財および特許と業務は切っても切れない関係にあります。

今回は、特許実務を楽にするためのツールを作成しましたので紹介します。
技術の内容として下記を採用し、プログラミング言語Pythonをベースに、CLIツールにしています。
・Webスクレイピング(Selenium)
・エクセル加工(OpenExcel)
・自然言語処理(レーベンシュタイン距離、ルールベース)

なお、Webツールにするかどうかは検討中です。

作成にあたって

今回作成のメインとなったのはA-z.さんです。下記ブログでAutodetectを紹介していただきました。
【特許実務ツール】Autodetectのご紹介(特許実務の集約を目指す from A to Z for IP)

具体的には、業務の言語化 → 問題設定 → 要件定義 → アウトプットイメージ作成等、重要なことにはほぼすべて携わってもらっています。
特許事務所所属の弁理士さんで特許実務を分かっていて、言語処理能力が高く、明快な方なので非常にやりやすかった。
むしろ実務で一緒にやってほしいレベル・・・なかなか居ないです。

課題感としても、データ分析業界にも通用する専門家としての価値はどこにあるかに真剣に向き合っている方です。
ブログ(特許実務の集約を目指す from A to Z for IP)も面白いのでぜひご覧ください。

僕自身、専門家の価値を考えることは多いですし、よくいるモデリングの専門のデータサイエンティストはそろそろ不要じゃないかなと思います。
モデリング自体はAutoMLでだいたいどうにかなるなということは実務で証明しているので、僕のスキルとして技術を理解した要件定義や営業部分を強化しています。技術は利用にあたって前提が多くあるので、ビジネスの要件に合わせて技術を選定しなければならないんですが・・・なかなか難しいです。
○○が達成されたら不要になる専門家ってただの作業者では?とも。

僕の役割のメインはコーディングでした。
コードは下記に存在します。
Github: AutoDetectOdp_by_Selenium
特許実務をヒアリングしつつ、特許情報プラットフォームであるPatent ScopeやJ-platpatのWebサイトをスクレイピングするために、色々と工夫をしていました。

特に、難しかったのは、読み取り品質を保ったままのシステム運用でした。
・Webサイトの随所に更新が頻繁にある
・サイト内の構文が一致しない。変わる、ズレる。
・サイト内で部分的な読み取りができないところが多い。
・メンテナンスが多い。(夜はほとんど使えない)

データ分析業界においても、データ収集のためのWebスクレイピングの需要は少なからずあります。
ただ、実務では専門の業者さんに依頼して実行してもらうことが多いです。

実際やってみるとわかりました。
スキル要件は高いわりにこれは虚無い…

具体的には、何が正しくて何が間違っているかが分かりにくいけど変更が多いことが難しかったですね。
・HTML、CSS、JavaScript(その他フレームワーク)などWeb制作の知識が必要なわりに、サイト内に1つでも変更があると動かない。
・1週間に1変更は必ずある。どこが変更されるかわからない。
・読み込み不良なのか、システムの変更なのかがわからない。
・ダウンロードできるはずの資料がなぜか存在しないので、ダウンロードしようとしたAutodetectがフリーズする。

僕は偶然、Webサイトの制作を昔からしているので簡単に対応できましたが、よくいるPython専門のDSさんだと、Web制作系の言語の学習コストがかなり高そうな印象でした。HTML・CSS・JavaScriptが組み合わさると構文理解がさらに難しくなりますし。
読み込み先のシステムが不安定なので、いつ読み込み不良が起きるかも分かりませんでした。

結果的に、そういったところも加味して作業を勧めつつ、Autodetectの読み込み部分は完成できたので良かったと思います。
技術的にも、ある程度Webスクレイピングの基礎を理解できましたし、応用先(WebサービスのUI自動テスト)もありますし良かったかなと思います。

今後について

データの取得は自動で気にできるようになったので、構文解析をしようと思っています。
構文解析にも、A-z.さんの中で多くの課題があるようなのでまずはその理解から始めます。

Pytorch LightningでカンタンにBERTを使えるようですし、BERTは実務においても文書のグルーピングや正しそうな文書探しができることはわかっています。
また続報があれば書きますので、乞うご期待。

-ブログ

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

感情は人に特別なものだろうか。いや、そうではないだろう。

感情をコントロールするのは難しいです。 最近はもう一人の自分を意識しているので、落ち着いてきました。 友人は、感情に振り回されてなおかつ心が痛いときがあるそうです。 どうしてもこの人と一緒に居たいとい …

奪われ得るもの。その認識が明日を決めるかもしれない。

奪われるものが多いほど失うことに恐怖心が無くなる。 私は多く奪われてきたし、自ら投げ捨てて来たこともある。 ただ、他人にだけは正直で居よう。 その人の希望を叶えよう。叶えられないのならNoと言おう。 …

時間と情報管理

一記事約1,000名の方に見ていただいています。 ありがたいと思います。 前々回の記事URL?では少しスタンスが違ったのは、ある人の依頼で記事を書いたからだ。 いわゆる実験記事である。 いかにコンバー …

大学院生って仮想社畜生活では?

大学院生の生活に興味ある方、こちらを御覧ください。 あまり参考にならないかもしれませんが、どうぞ\(^o^)/ (2chに毒されている気もしますが気にしない) ・現状  時間:9時30分~大体23時( …

仕事でのポジショニングで楽しよう

真面目に働いていればいい、そんな時代はとっくに終わりました。 あなたは何ができますか?と常に問われます。 特に、スキルが求められる業界はその傾向が強いです。 でも、楽したいよねーという気持ちは僕もあり …