컨텐츠 바로가기

12.18 (수)

[BLT칼럼] 인공지능 부리기 2편 - 대규모 특허분석 프로젝트에서 모수 한계 극복하기

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
플래텀

<이미지를 클릭하시면 크게 보실 수 있습니다>


비엘티랩스의 성과

우리 BLT의 사내에는 '비엘팅' 이라는 사내 모임이 있다. 다양한 목적을 가지고 있는 소모임 제도인데, 그 중에 2021년부터 시작되었던 비코더라고 하는 소규모 프로그래밍 스터디 모임이 있었다. 변리사들과 연구원들이 중심이 되어 파이썬 등 프로그래밍 언어를 배워보자는 모임으로 시작했고, 스터디 모임은 중단되었지만 비코더의 연장선에서 파생된 비엘티랩스(BLT Labs) 라는 조직이 생겨났다. 비엘티랩스는 BLT의 다양한 업무효율화에 필요한 연구개발을 목적으로 하는 조직인데, 최근 진행하고 있는 대규모 특허분석과제에 대한 내부 연구개발 내용을 일부 소개하고자 한다.

특허문헌에 담긴 의미를 찾아서

특허는 기술 발전과 혁신의 방향성을 보여주는 정보를 담고 있다. 공개된 등록 또는 공개문헌을 분석하면 단순히 기술적 내용뿐만 아니라 이론적으로는 R&D 경향, 산업의 니즈, 경쟁사의 전략까지도 파악할 수 있다고 알려져 있다. 이론적이라는 표현을 쓴 이유는 실전 상황에서는 원하는 만큼 성과를 못 만드는 경우도 많기 때문인데, 이에 대해서는 다음 챕터에서 다시 이야기하고자 한다. 특허 문헌은 기술적 세부 사항뿐만 아니라 그 기술이 지향하는 목적과 사용되는 방법론을 탐구할 수 있는 중요한 자료를 제공한다. 이러한 분석을 통해 기업은 경쟁 우위를 확보할 수 있는 전략을 수립하거나, 새로운 기술 개발 방향성을 설정할 수 있다.

특허 문헌을 분석하는 과정에서는 다양한 방식으로 정보를 도출할 수 있는데, 잘 알려진 대표적인 방법으로는 청구항 분석, 기술 분류 체계 활용 등이 있는데, 청구항 분석은 특허 문헌의 중심적인 내용인 권리 범위를 이해하고 자사의 위협이 될만한 위험특허를 선별하고 대응전략을 사전에 수립하는데 유용하다. 다만, 분쟁이 임박한 기업이 아니라면 분석과정의 긴박성은 다소 떨어질 수 밖에 없다. 기술 분류 체계는 특정 기술 분야에서의 경쟁 상황을 구조적으로 파악하는 데 일정 정도 도움을 받을 수 있다.

이러한 분석 방법들은 IP-R&D와 IP나래와 같은 기존 특허 분석 프로그램의 지원을 통해 더 효율적으로 수행될 수 있다. IP-R&D는 특허 정보를 활용하여 연구개발 전략을 수립하는 데 초점을 맞춘 지원프로그램으로 특허청 산하 기관에서 파견된 프로젝트 매니저(PM) 역할을 수행하는 전문위원과 특허법인이 협업하여 수행하게 된다. 국내 중소중견 기업이 안정적으로 연구개발에 전념할 수 있도록 지재권(IP)과 연구개발(R&D)을 연계한 맞춤형·밀착형 전략(IP-R&D)을 제공하여 핵심·원천 특허를 선점하고, 강한 특허로 무장한 글로벌 기업으로 육성하기 위한 사업목적을 가지고 있다. 특허청 산하 지역지식재산센터에서 지원하는 IP나래 사업도 방향은 크게 다르지 않다. 기술적 경쟁력을 강화하고 기술 보호 전략을 수립하는 데 도움을 얻을 수 있다.

이러한 과제들은 일반적으로 3개월 내지 5개월 기간 동안에 수행되며, 이러한 수행과정 동안 분석할 수 있는 특허문헌의 최대치에서 의미 있는 정보를 추출하고, 이를 통해 유의미한 인사이트를 도출하는 것을 목표로 수행된다. 과제 수행인력의 전문 지식과 경험이 필수적이며, 수천건의 특허 문헌을 대상으로 과제가 수행되기 때문에 작업분량이 방대할 뿐만 아니라 기술적 세부 사항이 복잡하게 얽혀 있는 경우가 많아, 효과적인 분석을 위해서는 체계적인 접근법과 전략이 필요한 경우도 있다.

기존 분석과제의 어려움

전술한대로 결국 문제는 시간과의 싸움이다. 제한된 시간 내에 얼마나 많은 특허문헌을 대상으로 분석업무를 수행할지에 대한 과제범위를 정하는 것이 그 동안 초기 분석과제의 주요 의사결정 사항이었다. 특허 문헌 분석에는 물리적, 기술적 한계가 존재하기 때문에, 제한된 시간 안에 방대한 특허를 면밀히 검토하고 분석하기 위해서 목표를 명확히 수립하는 것이 중요하다. 특허 문헌 분석은 하나 하나의 특허문헌을 조사분석 담당자가 일일이 확인하고 관련성을 판단하고 유의미한 정보를 추출하는 인력집약적인 업무였기 때문에, 시간이 많이 소요되어 왔다. 그리고 대부분의 과제가 우리 사업 수행 과정에서 위험한 특허로 작용할 것인지에 대한 판단을 내리기 위해 대체로 청구항 분석에 집중하는 경우가 많았다.

가끔 이런 분석과제를 수행하면서 정기적으로 갖게 되는 주간회의에서 고객사들에게 이 특허에 이러이러한 내용이 포함되어 있나요? 라고 물어보는 경우가 있는데, 사실 이런 질문을 대응하기 위해서는 특허문헌 하나하나를 면밀히 분석하고 내용을 전체적으로 숙지하고 있어야 가능한데, 수백건의 특허의 내용을 숙지하고 있는 것은 쉬운일은 아니다. 보통은 특허의 목적과 청구항 기재내용 정도만 이해하는 것도 많은 시간이 투입되기 때문에 이러한 질문을 받을 때마다 머릿속에는 여러가지 생각이 교차하곤 한다.

분명히 청구항 분석은 중요하고 특허의 권리 범위를 이해하고 위험여부를 판단하는데 절대적으로 중요한 비중을 차지하지만, 과제의 목표나 성격이 기술동향을 분석하고 지금 보고있는 이 특허의 문헌에 어떤 기술내용이 담겨있는지 확인하고자 하는 것이라면, 더더욱 기존 과제 수행방식이나 가용 리소스만으로는 특허 전체 문헌의 맥락이나 세부 기술적 내용을 이해하기에는 한계가 있다.

이러한 문제들은 프로젝트의 규모가 커지거나 다루는 기술 분야가 복잡할수록 더욱 어려워진다. 다양한 기술 분야를 아우르는 대규모 프로젝트에서는 특허 데이터의 정밀한 분석이 필요하며, 사업비와 투입인력 사이에서 특허법인들은 현실적인 고민을 하게 된다. 뿐만 아니라, 제한된 시간 내에 특허문헌의 분석결과를 도출해야 하는 경우, 분석을 담당하는 연구원은 단기적인 효율성에 집중하게 되며, 이는 장기적인 분석 품질과 깊이를 희생하는 결과로 이어질 우려도 있다. 이런 현실적 제약을 해결하려면, 분석 프로세스의 자동화와 정보 접근성을 강화할 수 있는 새로운 방법론과 도구가 필요할 것으로 보인다. 이는 단순히 프로젝트 단가 대비 투입 가능한 인력의 단가 효율성 문제를 떠나서, 고객사의 높은 요구수준이나 기대를 부합시킬 수 있는 분석 결과의 정확성과 활용가능성 있는 분석보고서를 제공하는데 있어서도 중요할 수 밖에 없다.

원천데이터(RAWDATA)의 모수 문제를 극복해야

전술한대로 특허분석을 위한 과제에서는 그 동안 RAWDATA의 적정한 범위 설정이 중요하게 다루어져왔다. 과제 기간 동안 전체 특허범위를 몇 건에서부터 출발할것인가 하는 점인데, 수행 인력이 검토할 수 있는 Rawdata의 양은 제한적이기 때문에, 기존에는 적절한 검색식인지 여부를 판단함에 있어서 모수가 적절히 나오는지도 중요한 기준 중에 하나로 작용해왔다.

특허 문헌은 기본적으로 독점권을 부여하는 대신 특허문헌에 담긴 모든 정보를 공개함으로써 산업발전에 이바지하는 것을 제도의 취지로 선언하고 있다. 그러나, 이전 글에서 언급했던 바와 같이, 대체로 출원인들은 자신들의 기술개발 결과물에 대한 최소한의 정보만 공개하려는 경향이 있다. 종종 특허문헌의 명칭이나 해결하고자 하는 문제점은 거창하게 시작하지만, 용두사미와 같은 문헌이 많은 이유가 여기에 있다. 특허 문헌 자체만으로 기술적 세부사항을 충분히 파악할 수 있도록 특허명세서를 작성해야 한다고 특허법과 시행령이 규정하고 있지만, 그러지 못한 경우도 현실적으로는 공공연하게 존재하고 있다. 고객사가 관심을 가지는 세부분야의 세부적인 기술내용에 대한 정보를 최대한 많이 수집하려면, 필연적으로 그리고 통계적으로 더 많은 특허를 대상으로 분석하는 방법 외에는 뾰족한 수가 없어 보인다. 이렇게 되면 분석을 담당하는 변리사나 연구원은 제한된 시간 내에 방대한 데이터를 다루며 추가적인 패턴과 인사이트를 도출하기 위한 더 많은 노력이 필요하게 된다.

사실 이 원천데이터의 모수 문제만 극복할 수 있다면, 모수를 3,000개나 5,000개 수준에서 접근하는 것에 더많은 특허데이터를 제대로 살펴볼 수만 있다면 검색식에서 누락된 특허데이터를 최소화함으로써 여러 가지 이점을 얻을 수 있음은 자명하다. 더 많은 특허데이터를 기반으로 더 많은 기술적 목적과 해결 수단 사례를 추출하거나, 놓칠 수도 있었던 위험특허를 하나라도 더 발굴한다던지 산업계가 현재 주목하고 있는 문제와 이를 해결하기 위한 기술적 접근법을 좀 더 정확도 높게 정리할 수 있다. 더 많은 특허데이터를 활용할수록 더 강력한 효과를 발휘할 수 있는 대표적인 특허분석 유형을 몇 가지 간략하게 소개하면 아래와 같다.

(1) OS매트릭스 구축

특허문헌은 기존 기술을 소개하고, 기존 기술의 한계나 문제점을 지적하면서 이를 극복하거나 해결하기 위한 방법을 제시하는 정반합 식의 접근법을 취하고 있다. 그렇기 때문에, 각각의 특허문헌은 극복 또는 개선 대상이 되는 기술이나 상황을 소개하고, 이에 대한 문제인식을 기반으로 출발하게 된다. 스타트업의 모든 창업 과정과 마찬가지로 어떤 문제에 집중하고 있는지가 중요한 사안이다. 문제점을 잘못 인식하거나 범위를 잘못 설정하게 되면 잘못된 해결방안이 도출될 수 밖에 없기 때문에, 특허권의 성패는 문제인식을 제대로 갖고 있는지 판단하는 것이 매우 중요하다.

OS매트릭스의 활용은 기술 전략 수립을 위한 실질적인 자료를 제공할 수 있다. 예를 들어, 특정 기술 문제를 해결하기 위해 출원된 특허들 간의 공통된 목표와 해결 방안을 비교 분석함으로써 업계 전반의 방향성을 파악할 수 있고, 이를 통해 기업은 자신들의 R&D 프로젝트를 효과적으로 설계하고, 필요에 따라 특허의 세부적 내용에 따라 협력 또는 경쟁 전략을 수립할 수 있다. 특허의 목적 및 수단 분포를 시각적으로 표현하여, 특정 기술군 내에서 발생할 수 있는 공백 영역을 식별하는 데도 유용하게 활용될 수 있다.

따라서, 다수의 특허문헌을 대상으로 특정 문제를 해결하기 위한 기술적 목적을 분석하고, 이에 따른 해결 방안을 체계적으로 정리함으로써 특정 기술분야의 문제인식 동향이나 분포를 이해할 수 있는 출발점이 된다. 이와 같은 목적으로 특허문헌을 분석하여 해당 특허문헌이 목표로 삼고 있는 문제점과 이에 대한 해결방안을 체계적으로 정리한 데이터와 분석기법을 우리 업계에서는 일반적으로 OS매트릭스(Objectives-Solution Matrix)라고 부르고 있다. 글로벌 IP의 주 무대라고 할 수 있는 미국에서는 사실 잘 사용하지 않는 기법이긴 하지만 특허데이터를 통해 정보를 발굴하는데 있어서 나름 효율적인 기법으로 볼 수 있다. 특히, 업계의 R&D 방향성이나 트렌드를 이해하기 위한 목적으로 특허를 분석한다면 꼭 필요한 도구라고 생각한다. 다만, 현재의 IP-R&D 사업에서도 OS 매트릭스는 선택적으로 작성하고 있는데, 문제는 너무나 많이 투입되어야 하는 필요리소스 때문에 현실적으로 과제 수행범위 내에서 완성도 높게 만들기 어렵기 때문이다. 투입시간에 따른 비용 과다 문제만 해결할 수 있다면, 특허문헌 분석을 통해 가장 퀄리티 높은 인사이트를 추출할 수 있을 것이다.

(2) 특허 정보 사전 구축

그야말로 기업의 관심사항에 따라 어떤 특허에 어떤 내용이 언급되었는지 인덱싱하고 체계화하여 과제 끝나고서라도 필요한 때 쉽게 찾아볼 수 있도록 하는 특허정보 사전(dictionary)을 제공하는 과업도 생각해볼 수 있다. 얼마전에 수행했던 과제에서 수혜기업 한 곳이 오직 특허문헌을 분석하는 이유로 자신들이 찾는 정보가 해당 문헌에 있는지 유무라고 밝힌 경우가 있었다. 수천건의 특허에 기업이 원하는 복수의 정보가 포함되어 있는지 찾아서 데이터베이스화 하는 것이 과제의 수행방향이었다.

특허 문헌에 포함된 기술적 내용을 체계적으로 정리하여 특정 정보를 빠르게 찾아볼 수 있는 특허 정보 사전을 구축하게 되면, 단순히 데이터를 저장하는 도구를 넘어, 특허 분석 및 활용 과정에서 반복적으로 참조할 수 있는 체계적 데이터베이스로 기능할 수 있다.

예를 들어, 정보 사전을 구축하면 특정 기술 키워드 또는 기술적 구성요소가 포함된 특허를 쉽게 식별할 수 있고, 이를 기반으로, 다양한 기술의 발전 단계, 시장에서의 응용 가능성, 그리고 해당 기술과 관련된 선도적인 기업 및 연구 기관을 빠르게 파악할 수 있다. 예를 들어, 인공지능 기술이 STT에 쓰였는지, TTS에 쓰였는지 관련 단락은 몇 번인지, 관련 청구항은 몇 항인지 DB화 해두고 나중에 참조하는 식이다. 이는 R&D 투자 전략을 수립하거나, 잠재적 협력 대상 또는 경쟁 상대를 평가하는 데 있어 중요한 자료로 활용될 수 있다.

이러한 확장된 분석 전략은 단순한 데이터 요약을 넘어 다차원적 인사이트를 제공할 수 있다. 다만, 수 천건의 원천데이터 모수로 과업을 시작하더라도 노이즈를 제거하면 수백건의 유효한 특허로 범위가 줄어들고 수백건의 특허를 대상으로 특허를 분석하기에는 다소 대상범위가 적고 정확한 인사이트를 추출하기 어렵다. 더욱이, 매년 미국에서는 60만건 이상, 중국에서는 150만건 이상의 특허가 쏟아지고 있는 상황에서 아무리 검색식을 정교하게 수립하더라도 원천데이터의 모수를 제한적으로 적용한다면 원하는 특허문헌이 상당수 누락될 우려가 있고, 데이터나 분석결과의 신뢰도를 갖기 어렵다. 예를 들어, 퀄리티를 유지하고 원천데이터의 모수를 10배, 20배 이상 늘릴 수 있는 방법이 있다면, 더 정확한 데이터와 흐름 분석이 가능할 것이다. 그렇다면 남은 문제는 하나다.

실현 가능한 일인가?

현실적으로 단기간에 많은 특허 문헌을 상세히 분석하는 것은 어려운 일이다. 대규모 사업비 지원과 많은 인력을 투입하면 가능할 수 있으나, 이는 현실적으로 지속 가능하지 않다. 인력만으로는 대응이 어렵다는 의미다. 필자의 이전 칼럼에서 인공지능을 어떻게 다룰 수 있는지 살펴본 바 있다. 인공지능은 특허 문헌 분석에서 요약, 내용 구조화, 그리고 패턴 분석에 탁월한 성능을 발휘한다. 이를 통해 단기간에 방대한 문헌을 분석하고, 기존에 놓쳤던 특허문헌에서 세부적인 정보를 포착할 수 있다. 또한, 인공지능의 분석 결과를 바탕으로 작업자는 좀 더 창의적이고 전략적인 작업에 집중할 수 있다.

제한된 시간과 자원 속에서 특허를 효율적으로 분석하려면, 체계적인 프로세스와 도구가 필요합니다. 기존 방법론으로는 한계가 있지만, 기술의 발전과 분석 방식의 진화로 이러한 문제를 점진적으로 해결할 수 있는 가능성이 현실화되고 있고 자연어 기반의 인공지능 모델의 비약적인 발전으로 인해 길이 열리고 있다.

서두에 소개한 비엘티랩스(BLT Labs)에서는 이러한 인공지능 모델을 활용하여 대규모 특허 분석 작업의 업무범위와 현 기술 수준에서 가능한 업무의 심도(depth)를 다양한 각도에서 검증하고 상용화 가능성을 확인한 바 있다. 수 만 개의 특허문헌을 분석하여 원하는 다양한 관점의 기반 정보를 추출하는데 불과 며칠 이내에 신뢰도 높은 수준으로 정보를 추출할 수 있다는 점을 여러 차례 실전 사례에서 검증한 바 있다.

이런 점을 고려할 때, 이제는 특허분석의 방향이나 방법론을 새롭게 정의할 시점으로 보인다. 기존에 반복적으로 수행해왔던 특허분석과제의 정형화된 틀과 과업범위 내에서 뻔한 결과만을 제공하던 방식에서 벗어나 진정으로 기업에게 도움이 되는 IP 기반의 정보를 제공할 수 있는 방법에 대해 치열한 고민이 필요한 때다.

원문 : 인공지능 부리기 제 2편 - 대규모 특허분석 프로젝트에서 모수(rawdata)의 한계를 극복하기

글 : 유철현 BLT 변리사 / 유 변리사는 스타트업을 발굴하고 직접 투자하는 ‘엑셀러레이터형’ BLT 특허법률사무소를 시작으로, IT와 BM분야의 전문성을 살려 다양한 기술 기반 기업의 지식재산 및 사업 전략 컨설팅을 수행하고 있다. 현재 중소벤처기업진흥공단 심의위원과 한국엔젤투자협회 팁스(TIPs)프로그램 사업 심사를 담당하고 있다.


글 : 외부기고(contribution@platum.com)
ⓒ '스타트업 전문 미디어 & 중화권 전문 네트워크' 플래텀, 조건부 전재 및 재배포 허용

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.