Rの考え方

Rの個人研究・考察を行うブログ。最近は因果推論とアナリティクス(機械学習、統計はお休み中)、認知論にお熱。

ブログ

【特許実務ツール】Autodetectの紹介

投稿日:

データ分析(統計学、人工知能関連)業界に居る以上、知財および特許と業務は切っても切れない関係にあります。

今回は、特許実務を楽にするためのツールを作成しましたので紹介します。
技術の内容として下記を採用し、プログラミング言語Pythonをベースに、CLIツールにしています。
・Webスクレイピング(Selenium)
・エクセル加工(OpenExcel)
・自然言語処理(レーベンシュタイン距離、ルールベース)

なお、Webツールにするかどうかは検討中です。

作成にあたって

今回作成のメインとなったのはA-z.さんです。下記ブログでAutodetectを紹介していただきました。
【特許実務ツール】Autodetectのご紹介(特許実務の集約を目指す from A to Z for IP)

具体的には、業務の言語化 → 問題設定 → 要件定義 → アウトプットイメージ作成等、重要なことにはほぼすべて携わってもらっています。
特許事務所所属の弁理士さんで特許実務を分かっていて、言語処理能力が高く、明快な方なので非常にやりやすかった。
むしろ実務で一緒にやってほしいレベル・・・なかなか居ないです。

課題感としても、データ分析業界にも通用する専門家としての価値はどこにあるかに真剣に向き合っている方です。
ブログ(特許実務の集約を目指す from A to Z for IP)も面白いのでぜひご覧ください。

僕自身、専門家の価値を考えることは多いですし、よくいるモデリングの専門のデータサイエンティストはそろそろ不要じゃないかなと思います。
モデリング自体はAutoMLでだいたいどうにかなるなということは実務で証明しているので、僕のスキルとして技術を理解した要件定義や営業部分を強化しています。技術は利用にあたって前提が多くあるので、ビジネスの要件に合わせて技術を選定しなければならないんですが・・・なかなか難しいです。
○○が達成されたら不要になる専門家ってただの作業者では?とも。

僕の役割のメインはコーディングでした。
コードは下記に存在します。
Github: AutoDetectOdp_by_Selenium
特許実務をヒアリングしつつ、特許情報プラットフォームであるPatent ScopeやJ-platpatのWebサイトをスクレイピングするために、色々と工夫をしていました。

特に、難しかったのは、読み取り品質を保ったままのシステム運用でした。
・Webサイトの随所に更新が頻繁にある
・サイト内の構文が一致しない。変わる、ズレる。
・サイト内で部分的な読み取りができないところが多い。
・メンテナンスが多い。(夜はほとんど使えない)

データ分析業界においても、データ収集のためのWebスクレイピングの需要は少なからずあります。
ただ、実務では専門の業者さんに依頼して実行してもらうことが多いです。

実際やってみるとわかりました。
スキル要件は高いわりにこれは虚無い…

具体的には、何が正しくて何が間違っているかが分かりにくいけど変更が多いことが難しかったですね。
・HTML、CSS、JavaScript(その他フレームワーク)などWeb制作の知識が必要なわりに、サイト内に1つでも変更があると動かない。
・1週間に1変更は必ずある。どこが変更されるかわからない。
・読み込み不良なのか、システムの変更なのかがわからない。
・ダウンロードできるはずの資料がなぜか存在しないので、ダウンロードしようとしたAutodetectがフリーズする。

僕は偶然、Webサイトの制作を昔からしているので簡単に対応できましたが、よくいるPython専門のDSさんだと、Web制作系の言語の学習コストがかなり高そうな印象でした。HTML・CSS・JavaScriptが組み合わさると構文理解がさらに難しくなりますし。
読み込み先のシステムが不安定なので、いつ読み込み不良が起きるかも分かりませんでした。

結果的に、そういったところも加味して作業を勧めつつ、Autodetectの読み込み部分は完成できたので良かったと思います。
技術的にも、ある程度Webスクレイピングの基礎を理解できましたし、応用先(WebサービスのUI自動テスト)もありますし良かったかなと思います。

今後について

データの取得は自動で気にできるようになったので、構文解析をしようと思っています。
構文解析にも、A-z.さんの中で多くの課題があるようなのでまずはその理解から始めます。

Pytorch LightningでカンタンにBERTを使えるようですし、BERTは実務においても文書のグルーピングや正しそうな文書探しができることはわかっています。
また続報があれば書きますので、乞うご期待。

-ブログ

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

感情が多くを占める国、ニッポン

「頑張ればどうにかなる。」 この言葉に違和感しかありません。 世の中には多くの仕事が溢れています。 今や機械が介在しない仕事も少なくなってきました。 毎回しないで済むように、システム(仕事の仕方)を作 …

仕事の実力とは何なのか

はじめに 自分自身の仕事の実力を測りかねる人が多いかと思います。 Twitterでは、売上で全国で1位だ、MVPだ何だという自己紹介が散見されます。めっちゃ胡散臭い・・・。 そこにまじめに突っ込みを入 …

お金について考える:ゲームでの仮想通貨発行からの着想

これまであなたは、お金について考えることはありましたか? 食費、家賃、飲み会代、趣味の出費・・・意外と多いわね。 お金について考えると凄く漠然とした内容です。 まずは対象を絞ってみましょう。 例えば、 …

「仕事ができない」を分解する

「○○さんは仕事ができない」 よく言われる言葉ですよね。 今回この題材で書こうと思った理由は、 私の部下が「仕事ができない」部類に入っているように観測され、それを改善するにはどうすれば良いか考えたから …

就職活動 自己否定に陥る考え方にならないために

「面接に落ちた」 「エントリーシートでもお祈り*1続きだ」 それも結構だと思います。 就活サイトの利用者数が多すぎて、人気企業であるとエントリー数が5000を超えていることがざらにあります。 記念出願 …