Rの考え方

Rの個人研究・考察を行うブログ。最近は因果推論とアナリティクス(機械学習、統計はお休み中)、認知論にお熱。

ブログ

【特許実務ツール】Autodetectの紹介

投稿日:

データ分析(統計学、人工知能関連)業界に居る以上、知財および特許と業務は切っても切れない関係にあります。

今回は、特許実務を楽にするためのツールを作成しましたので紹介します。
技術の内容として下記を採用し、プログラミング言語Pythonをベースに、CLIツールにしています。
・Webスクレイピング(Selenium)
・エクセル加工(OpenExcel)
・自然言語処理(レーベンシュタイン距離、ルールベース)

なお、Webツールにするかどうかは検討中です。

作成にあたって

今回作成のメインとなったのはA-z.さんです。下記ブログでAutodetectを紹介していただきました。
【特許実務ツール】Autodetectのご紹介(特許実務の集約を目指す from A to Z for IP)

具体的には、業務の言語化 → 問題設定 → 要件定義 → アウトプットイメージ作成等、重要なことにはほぼすべて携わってもらっています。
特許事務所所属の弁理士さんで特許実務を分かっていて、言語処理能力が高く、明快な方なので非常にやりやすかった。
むしろ実務で一緒にやってほしいレベル・・・なかなか居ないです。

課題感としても、データ分析業界にも通用する専門家としての価値はどこにあるかに真剣に向き合っている方です。
ブログ(特許実務の集約を目指す from A to Z for IP)も面白いのでぜひご覧ください。

僕自身、専門家の価値を考えることは多いですし、よくいるモデリングの専門のデータサイエンティストはそろそろ不要じゃないかなと思います。
モデリング自体はAutoMLでだいたいどうにかなるなということは実務で証明しているので、僕のスキルとして技術を理解した要件定義や営業部分を強化しています。技術は利用にあたって前提が多くあるので、ビジネスの要件に合わせて技術を選定しなければならないんですが・・・なかなか難しいです。
○○が達成されたら不要になる専門家ってただの作業者では?とも。

僕の役割のメインはコーディングでした。
コードは下記に存在します。
Github: AutoDetectOdp_by_Selenium
特許実務をヒアリングしつつ、特許情報プラットフォームであるPatent ScopeやJ-platpatのWebサイトをスクレイピングするために、色々と工夫をしていました。

特に、難しかったのは、読み取り品質を保ったままのシステム運用でした。
・Webサイトの随所に更新が頻繁にある
・サイト内の構文が一致しない。変わる、ズレる。
・サイト内で部分的な読み取りができないところが多い。
・メンテナンスが多い。(夜はほとんど使えない)

データ分析業界においても、データ収集のためのWebスクレイピングの需要は少なからずあります。
ただ、実務では専門の業者さんに依頼して実行してもらうことが多いです。

実際やってみるとわかりました。
スキル要件は高いわりにこれは虚無い…

具体的には、何が正しくて何が間違っているかが分かりにくいけど変更が多いことが難しかったですね。
・HTML、CSS、JavaScript(その他フレームワーク)などWeb制作の知識が必要なわりに、サイト内に1つでも変更があると動かない。
・1週間に1変更は必ずある。どこが変更されるかわからない。
・読み込み不良なのか、システムの変更なのかがわからない。
・ダウンロードできるはずの資料がなぜか存在しないので、ダウンロードしようとしたAutodetectがフリーズする。

僕は偶然、Webサイトの制作を昔からしているので簡単に対応できましたが、よくいるPython専門のDSさんだと、Web制作系の言語の学習コストがかなり高そうな印象でした。HTML・CSS・JavaScriptが組み合わさると構文理解がさらに難しくなりますし。
読み込み先のシステムが不安定なので、いつ読み込み不良が起きるかも分かりませんでした。

結果的に、そういったところも加味して作業を勧めつつ、Autodetectの読み込み部分は完成できたので良かったと思います。
技術的にも、ある程度Webスクレイピングの基礎を理解できましたし、応用先(WebサービスのUI自動テスト)もありますし良かったかなと思います。

今後について

データの取得は自動で気にできるようになったので、構文解析をしようと思っています。
構文解析にも、A-z.さんの中で多くの課題があるようなのでまずはその理解から始めます。

Pytorch LightningでカンタンにBERTを使えるようですし、BERTは実務においても文書のグルーピングや正しそうな文書探しができることはわかっています。
また続報があれば書きますので、乞うご期待。

-ブログ

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

データ分析コンサルティング企業で学んだプロジェクトマネージャーの方法論(2)

昨今注目されているデータ分析。 データサイエンティストはすげー給与良いやんと言われ、なんだかなあと思っているれいです。意外とそんなことはない。 データ分析企業では今日も何もなくプロジェクトを進めていま …

コロナの今、孤独との付き合い方

コロナ禍でリモートワークが続き、めったに誰かと会うことができない状況が続いています。 私は独身であり、かつ一人暮らしでもあるので、孤独だなと思うことが多々あります。 *実家暮らしであっても、会う人がい …

おすすめ商品とは一体。彼らに本当に有益だろうか?

「あなたに合ったモノ」を選べるのは人間しかいない。 なぜなら、彼らのAIはまだあなたを理解していないからだ。 性格や信条、今置かれている状況をだ。 アマゾンのよく一緒に購入されている商品や、おすすめ記 …

効果検証はだいたい間違っている

データ分析を仕事にして1年半、世の分析という言葉に違和感を覚えてきた。 その一つが効果検証である。 ひとつ言っておく、効果検証は簡単ではない。 なんとなく正しそうな効果検証はだいたい間違っている。 詳 …

休め・・休め・・!

どのようにすれば疲れは取れるのか?・・・色々試した結果をお伝えします 最近、4週間ぶりに1日まるごと休みを取りました 自分が思った以上に疲れは溜まっていました。。 昼寝、夕食後寝ても、夜12時になれば …