
今日の特許出願では、1件に何万もの生物学的配列が含まれていることがあり、その多くは簡単に検索しただけでは見つけられません。このようないわゆる「メガ特許」が、生物学的配列データの抽出、解釈、そしてそれに基づく意思決定でのリスクを増大させています。
特許分野の専門家や研究者は、電子形式の配列表だけに頼ると情報を見落とし、大きなコストを被ることになりかねません。だからこそGENESEQが提供しているような、キュレーションされ、コンテキストが豊富なデータは、今や余裕があれば取り入れるべきものではなく、必要不可欠なものとなっています。
このブログでは、配列表の自動作成における限界が、メガ特許によってどのように明らかになるのか、また正確なFTO(Freedom-to-Operate)評価、競合分析、IP戦略の立案のために、人間がキュレーションを行うというGENESEQのアプローチが不可欠である理由を説明します。
GENESEQによってお客様のIP戦略がどのように強化されるかについては、当社のファクトシートをご覧ください。
メガ特許とは何か?
2000年代半ばまで、生物学的配列が含まれる特許出願では、明細書に配列データが埋め込まれているのが一般的でした。GENESEQの編集チームは手作業でそれらの配列データを抽出し、アノテーションを付与し、その正確性と完全性を確保していました。正式な配列表が特許明細書の一部として構成されていたため、GENESEQのデータキャプチャーアナリスト陣は手作業でそのような配列データを収集していたのです。
その頃、世界知的所有権機関(WIPO)が電子形式による配列表の公開を開始し、それ以降、この形式は徐々に他の特許庁でも採用されるようになりました。本来、電子配列表には、請求項、実施例、発明の開示にかかわらず、特許出願書類内で言及されるすべての配列を列挙すべきです。しかし実際には、すべての配列が列挙されていなかったり、そもそも配列表が作られていなかったりするケースが少なくありません。そのため、配列の内容を完全かつ正確に表すためには、やはり手作業によるキュレーションを行う必要があります。
この課題は、いわゆるメガ特許、つまり1件で膨大な数の遺伝子配列を開示している特許出願の出現によって深刻化しています。一般的に、メガ特許には以下の特徴があります。
- 構造または機能が類似したDNAまたはRNA配列の多くの変異体も請求範囲に含まれる。
- 配列同一性のパーセント閾値(例:80%、90%、95%の類似性)を使用することで、特許出願に明記されていない配列にも特許請求の範囲を広げている。
- 多くの場合、配列の完全な機能または有用性が判明する前の、発見プロセスの早い段階で特許出願される。
- 特定の遺伝子ドメインに対して広く制御しようとしており、他者による広範囲にわたる関連配列の使用を阻害する可能性がある。
この慣行は、科学者や法律専門家の間で懸念されるようになっています。特にメガ特許の基礎データが不完全であったり、適切にアノテーションが付けられていなかったりすれば、法的不確実性が生まれ、イノベーションが阻害され、基本的な遺伝子情報へのアクセスが制限される可能性があるからです。
メガ特許とGENESEQ:なぜ手作業が重要なのか
1つの特許出願から「膨大な数」の配列が開示されると述べましたが、実際にその通りのことが起きています。たとえばWO2025059390A2は、34,000件以上の配列を開示しています。しかし、正式な配列表にはわずか2,757件しか列挙されていません。表から漏れていた配列については、GENESEQの編集チームが手作業で収集し、該当するすべての配列をDerwent SequenceBaseで確実に検索できるようにしました。アルゴリズムを使ったのではなく、実際の専門家が手作業で行ったのです。
DNA、RNA、タンパク質の配列をデジタル符号化した電子配列データはバイオインフォマティクスにおいて重要な役割を果たしますが、特許を正確に分析するためには不可欠な法的および科学的なコンテキストが欠けていることが少なくありません。これは、メガ特許を扱う場合には特に問題となります。電子形式の配列表だけに頼ると、以下のような重大なリスクが生じます。
- 法的な範囲を誤って解釈する
通常、電子形式の配列データには、未加工のヌクレオチド配列またはアミノ酸配列のみ含まれます。しかし、特許の請求項では、以下のように法的保護の範囲が定義されます。
- 配列同一性のパーセント閾値を含める(例:参照配列との同一性が90%以上の配列)。
- 特定の用途、生物、または構造的背景に限定される。
- 配列データからはわからない例外や免責などの条件が適用される。
特許全文を読まなければ、保護の対象か対象外かを簡単に見誤る可能性があります。
- 機能的または構造的な制限を見落とす
特許明細書には、配列表には記載されていない、配列に関する重要な情報が記載されていることもありますが、必ずしもそうとは限りません。
多くのメガ特許は、特定の機能(例:治療用タンパク質のエンコード)や構造的特徴(例:モチーフやドメイン)と組み合わせて、配列に保護を請求しています。通常これらの詳細は、配列表ではなく特許明細書に記載されるものです。そのような情報を無視すれば、侵害やFTOについて誤った想定をすることになりかねません。
- 正確なFTO評価を行えない
配列表では保護が請求されていないように見える配列でも、特許ではその配列も含め、配列表よりも広範な配列が保護の対象となっているかもしれません。反対に、保護対象の配列のように見えても、特許請求の範囲はそれよりも限定されていたり、特許が失効、あるいは無効になっている場合もあるかもしれません。完全なコンテキストがなければ、FTO評価に重大な欠陥が生じる可能性があります。
- コンテキストメタデータが欠如する。
WIPO ST.26などのフォーマットには基本的なメタデータ(例:生物、機能)の記入欄が含まれていますが、特許全文を読まなければ法的および科学的なコンテキストを十分に把握することはできません。特許を正確に解釈し、戦略的に意思決定を下すためには、そのレベルのコンテキストが不可欠です。
他の配列検索ツールによるメガ特許の取扱い
大多数の配列検索ツールは電子形式の配列表しか利用していません。これは自動的に作成されるデータであり、特にメガ特許においては、重要なコンテキストが割愛されていることが多いものです。これでは、正確で包括的な配列インテリジェンスに基づきIP戦略を策定している組織が重大な情報を見落とすことになります。
一方GENESEQは、手作業で配列を収集することに加え、専門家がアノテーションを付与することで、図、表、あるいは非構造化テキストに埋もれている配列も、確実に検索できるようにしています。さらに、Derwent SequenceBaseから提供される優れた検索機能により、電子配列表のデータしか確認しないことに伴うリスクを最小限に抑え、より確かな意思決定の基盤を提供します。
抽出の違い手作業と電子配列
方法 | 電子配列から抽出 | 手作業による抽出 |
データソース | 自動抽出(OCRなど) | 人間によるキュレーション |
正確性 | ニュアンスを正しく捉えられない、あるいは正しく解釈できない可能性がある | 極めて高く、詳細なニュアンスも捉えられる |
コンテキスト | メタデータのみ | 請求の範囲も含め、非常に豊富な情報が含まれる |
法的な解釈 | 極めて限定的 | 詳細かつ包括的 |
人間の専門知識 | なし | 専門家による分析 |
まとめ:メガ特許時代には正確さが力になる
生物学的配列データの量と煩雑性が増すとともに、電子形式の配列表だけに依存することのリスクは無視できないものになっています。メガ特許によって配列表の自動作成における限界が露呈し、確かな意思決定を支えられる、キュレーション済みでコンテキストが豊富なデータの必要性が浮き彫りになっています。
GENESEQを利用すれば、配列を検索できるだけでなく、法的および科学的な情報も完全に把握できるようになります。専門家によってキュレーションされた、Derwent SequenceBaseに統合済みのGENESEQが、ゲノム知財戦略をを明確かつ確実に進めるられるよう、IP専門家、研究者、法務部門を支援します。
GENESEQの違いにご興味をお持ちでしょうか。ぜひ製品の詳細をご覧になるか、当社チームまでお問い合わせください。