Rの考え方

Rの個人研究・考察を行うブログ。最近は因果推論とアナリティクス(機械学習、統計はお休み中)、認知論にお熱。

ブログ

【特許実務ツール】Autodetectの紹介

投稿日:

データ分析(統計学、人工知能関連)業界に居る以上、知財および特許と業務は切っても切れない関係にあります。

今回は、特許実務を楽にするためのツールを作成しましたので紹介します。
技術の内容として下記を採用し、プログラミング言語Pythonをベースに、CLIツールにしています。
・Webスクレイピング(Selenium)
・エクセル加工(OpenExcel)
・自然言語処理(レーベンシュタイン距離、ルールベース)

なお、Webツールにするかどうかは検討中です。

作成にあたって

今回作成のメインとなったのはA-z.さんです。下記ブログでAutodetectを紹介していただきました。
【特許実務ツール】Autodetectのご紹介(特許実務の集約を目指す from A to Z for IP)

具体的には、業務の言語化 → 問題設定 → 要件定義 → アウトプットイメージ作成等、重要なことにはほぼすべて携わってもらっています。
特許事務所所属の弁理士さんで特許実務を分かっていて、言語処理能力が高く、明快な方なので非常にやりやすかった。
むしろ実務で一緒にやってほしいレベル・・・なかなか居ないです。

課題感としても、データ分析業界にも通用する専門家としての価値はどこにあるかに真剣に向き合っている方です。
ブログ(特許実務の集約を目指す from A to Z for IP)も面白いのでぜひご覧ください。

僕自身、専門家の価値を考えることは多いですし、よくいるモデリングの専門のデータサイエンティストはそろそろ不要じゃないかなと思います。
モデリング自体はAutoMLでだいたいどうにかなるなということは実務で証明しているので、僕のスキルとして技術を理解した要件定義や営業部分を強化しています。技術は利用にあたって前提が多くあるので、ビジネスの要件に合わせて技術を選定しなければならないんですが・・・なかなか難しいです。
○○が達成されたら不要になる専門家ってただの作業者では?とも。

僕の役割のメインはコーディングでした。
コードは下記に存在します。
Github: AutoDetectOdp_by_Selenium
特許実務をヒアリングしつつ、特許情報プラットフォームであるPatent ScopeやJ-platpatのWebサイトをスクレイピングするために、色々と工夫をしていました。

特に、難しかったのは、読み取り品質を保ったままのシステム運用でした。
・Webサイトの随所に更新が頻繁にある
・サイト内の構文が一致しない。変わる、ズレる。
・サイト内で部分的な読み取りができないところが多い。
・メンテナンスが多い。(夜はほとんど使えない)

データ分析業界においても、データ収集のためのWebスクレイピングの需要は少なからずあります。
ただ、実務では専門の業者さんに依頼して実行してもらうことが多いです。

実際やってみるとわかりました。
スキル要件は高いわりにこれは虚無い…

具体的には、何が正しくて何が間違っているかが分かりにくいけど変更が多いことが難しかったですね。
・HTML、CSS、JavaScript(その他フレームワーク)などWeb制作の知識が必要なわりに、サイト内に1つでも変更があると動かない。
・1週間に1変更は必ずある。どこが変更されるかわからない。
・読み込み不良なのか、システムの変更なのかがわからない。
・ダウンロードできるはずの資料がなぜか存在しないので、ダウンロードしようとしたAutodetectがフリーズする。

僕は偶然、Webサイトの制作を昔からしているので簡単に対応できましたが、よくいるPython専門のDSさんだと、Web制作系の言語の学習コストがかなり高そうな印象でした。HTML・CSS・JavaScriptが組み合わさると構文理解がさらに難しくなりますし。
読み込み先のシステムが不安定なので、いつ読み込み不良が起きるかも分かりませんでした。

結果的に、そういったところも加味して作業を勧めつつ、Autodetectの読み込み部分は完成できたので良かったと思います。
技術的にも、ある程度Webスクレイピングの基礎を理解できましたし、応用先(WebサービスのUI自動テスト)もありますし良かったかなと思います。

今後について

データの取得は自動で気にできるようになったので、構文解析をしようと思っています。
構文解析にも、A-z.さんの中で多くの課題があるようなのでまずはその理解から始めます。

Pytorch LightningでカンタンにBERTを使えるようですし、BERTは実務においても文書のグルーピングや正しそうな文書探しができることはわかっています。
また続報があれば書きますので、乞うご期待。

-ブログ

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

お金について考える:ゲームでの仮想通貨発行からの着想

これまであなたは、お金について考えることはありましたか? 食費、家賃、飲み会代、趣味の出費・・・意外と多いわね。 お金について考えると凄く漠然とした内容です。 まずは対象を絞ってみましょう。 例えば、 …

就職活動 面接官、あなたと私は違うんです

就職活動開始の時期ですね。 今日は気になった記事「志望動機「IT業界に入れば成長させてくれると思った」がNGなワケ」について。 会社とは、何のために存在するのでしょうか? 「社会貢献」? 「自己実現」 …

豆腐の角から逃げるゲーム(Escape From the Tofu’s Corner)

「( ^o^)を操作して20秒生き残るゲーム」を作っていました。 Meisyo用に作ったのですが、意外と楽しかったので上げておきます。 Escape From the Tofu’s Cor …

感情が多くを占める国、ニッポン

「頑張ればどうにかなる。」 この言葉に違和感しかありません。 世の中には多くの仕事が溢れています。 今や機械が介在しない仕事も少なくなってきました。 毎回しないで済むように、システム(仕事の仕方)を作 …

AIを身近に。あなたと共に。

最近では、「AI(人工知能)で〇〇ができた」というニュースが数多く報道されるようになりました。 私が推察するに、あなたはAIに対して不安を持っていませんか? 何でもできるように報道されることが増えれば …