Rの考え方

Rの個人研究・考察を行うブログ。最近は因果推論とアナリティクス(機械学習、統計はお休み中)、認知論にお熱。

ブログ

【特許実務ツール】Autodetectの紹介

投稿日:

データ分析(統計学、人工知能関連)業界に居る以上、知財および特許と業務は切っても切れない関係にあります。

今回は、特許実務を楽にするためのツールを作成しましたので紹介します。
技術の内容として下記を採用し、プログラミング言語Pythonをベースに、CLIツールにしています。
・Webスクレイピング(Selenium)
・エクセル加工(OpenExcel)
・自然言語処理(レーベンシュタイン距離、ルールベース)

なお、Webツールにするかどうかは検討中です。

作成にあたって

今回作成のメインとなったのはA-z.さんです。下記ブログでAutodetectを紹介していただきました。
【特許実務ツール】Autodetectのご紹介(特許実務の集約を目指す from A to Z for IP)

具体的には、業務の言語化 → 問題設定 → 要件定義 → アウトプットイメージ作成等、重要なことにはほぼすべて携わってもらっています。
特許事務所所属の弁理士さんで特許実務を分かっていて、言語処理能力が高く、明快な方なので非常にやりやすかった。
むしろ実務で一緒にやってほしいレベル・・・なかなか居ないです。

課題感としても、データ分析業界にも通用する専門家としての価値はどこにあるかに真剣に向き合っている方です。
ブログ(特許実務の集約を目指す from A to Z for IP)も面白いのでぜひご覧ください。

僕自身、専門家の価値を考えることは多いですし、よくいるモデリングの専門のデータサイエンティストはそろそろ不要じゃないかなと思います。
モデリング自体はAutoMLでだいたいどうにかなるなということは実務で証明しているので、僕のスキルとして技術を理解した要件定義や営業部分を強化しています。技術は利用にあたって前提が多くあるので、ビジネスの要件に合わせて技術を選定しなければならないんですが・・・なかなか難しいです。
○○が達成されたら不要になる専門家ってただの作業者では?とも。

僕の役割のメインはコーディングでした。
コードは下記に存在します。
Github: AutoDetectOdp_by_Selenium
特許実務をヒアリングしつつ、特許情報プラットフォームであるPatent ScopeやJ-platpatのWebサイトをスクレイピングするために、色々と工夫をしていました。

特に、難しかったのは、読み取り品質を保ったままのシステム運用でした。
・Webサイトの随所に更新が頻繁にある
・サイト内の構文が一致しない。変わる、ズレる。
・サイト内で部分的な読み取りができないところが多い。
・メンテナンスが多い。(夜はほとんど使えない)

データ分析業界においても、データ収集のためのWebスクレイピングの需要は少なからずあります。
ただ、実務では専門の業者さんに依頼して実行してもらうことが多いです。

実際やってみるとわかりました。
スキル要件は高いわりにこれは虚無い…

具体的には、何が正しくて何が間違っているかが分かりにくいけど変更が多いことが難しかったですね。
・HTML、CSS、JavaScript(その他フレームワーク)などWeb制作の知識が必要なわりに、サイト内に1つでも変更があると動かない。
・1週間に1変更は必ずある。どこが変更されるかわからない。
・読み込み不良なのか、システムの変更なのかがわからない。
・ダウンロードできるはずの資料がなぜか存在しないので、ダウンロードしようとしたAutodetectがフリーズする。

僕は偶然、Webサイトの制作を昔からしているので簡単に対応できましたが、よくいるPython専門のDSさんだと、Web制作系の言語の学習コストがかなり高そうな印象でした。HTML・CSS・JavaScriptが組み合わさると構文理解がさらに難しくなりますし。
読み込み先のシステムが不安定なので、いつ読み込み不良が起きるかも分かりませんでした。

結果的に、そういったところも加味して作業を勧めつつ、Autodetectの読み込み部分は完成できたので良かったと思います。
技術的にも、ある程度Webスクレイピングの基礎を理解できましたし、応用先(WebサービスのUI自動テスト)もありますし良かったかなと思います。

今後について

データの取得は自動で気にできるようになったので、構文解析をしようと思っています。
構文解析にも、A-z.さんの中で多くの課題があるようなのでまずはその理解から始めます。

Pytorch LightningでカンタンにBERTを使えるようですし、BERTは実務においても文書のグルーピングや正しそうな文書探しができることはわかっています。
また続報があれば書きますので、乞うご期待。

-ブログ

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

できないことから逃げたらいい

先週は仕事でこんなことがありました。 部下アナリスト「金曜日は案件の納期ですが、仕事が全然終わってません!(その時木曜日)」 仕事の流れをみていて、「まあ、仕方ないよね」というスタンスがあったので、対 …

Google検索があるから勉強しなくていいとは「言えない」理由

検索技術が進歩し、知らないことはググって解決が多くなってきました。 日常生活は便利になりましたが、技術や学問を学ぶ際にはそれは正しいのでしょうか。 結論から言うと、間違っています。 理由としては、未知 …

「続けてもらう」が一番難しい – 改善提案をするのは簡単だけれど

誰かに「続けてもらう」 それはとても難しいことだ。 必死に社内で調整して、キーパーソンに承認を得るためだけの膨大な書類作業をこなし、 改善内容を理解してもらって、改善を1つ始めるとしよう。 そこまでで …

新卒1社目(外資系製薬企業)を退職しました

唐突ですが、転職します。 理由は、「データ分析で企業を強くする業務をメインにしたいから」です。 元々それが希望ではあったのですが、下記3つの理由から転職することにしました。 1・現状できそうもない(設 …

no image

箱根駅伝の裏方を撮影

第90回箱根駅伝は東洋大学が圧倒的な力を見せつけて優勝しました。 私もはじめて見に行ったので写真を撮りました。 素晴らしいデッドヒート! これ以外ランナーがまともに撮れていません\(^o^)/ ぶれて …