banner
뉴스 센터
우수한 입력, 엄격한 품질 보증.

LLM을 위한 기업 데이터 준비 도구를 제공하는 Unstructured는 2,500만 달러를 모금했습니다.

Sep 27, 2023

OpenAI의 GPT-4와 같은 대규모 언어 모델(LLM)은 점점 더 많은 AI 애플리케이션을 위한 구성 요소입니다. 그러나 일부 기업에서는 자사 및 독점 데이터에 액세스할 수 없기 때문에 도입을 꺼려했습니다.

당연히 해결하기 쉬운 문제는 아닙니다. 이러한 종류의 데이터는 방화벽 뒤에 있는 경향이 있고 LLM에서 접근할 수 없는 형식으로 제공된다는 점을 고려하면 말이죠. 그러나 상대적으로 새로운 스타트업인 Unstructured.io는 LLM이 이해하고 활용할 수 있는 방식으로 기업 데이터를 추출하고 준비하는 플랫폼을 통해 장애물을 제거하려고 노력하고 있습니다.

Brian Raymond, Matt Robinson 및 Crag Wolfe는 비즈니스 고객을 위한 자연어 처리(NLP) 솔루션 구축 및 배포에 중점을 둔 Primer AI에서 함께 작업한 후 2022년 Unstructured를 공동 창립했습니다.

“Primer에 있는 동안 우리는 NLP 데이터(예: PDF, 이메일, PPTX, XML 등)가 포함된 원시 고객 파일을 수집 및 전처리하고 이를 깨끗하고 선별된 파일로 변환하는 병목 현상에 여러 번 직면했습니다. Unstructured의 CEO인 Raymond는 이메일 인터뷰에서 TechCrunch에 말했습니다. "데이터 통합이나 지능형 문서 처리 회사 중 어느 누구도 이 문제를 해결하는 데 도움을 주지 않았기 때문에 우리는 회사를 설립하고 정면으로 해결하기로 결정했습니다."

실제로 데이터 처리 및 준비는 모든 AI 개발 워크플로에서 시간이 많이 걸리는 단계인 경향이 있습니다. 한 설문 조사에 따르면 데이터 과학자는 분석을 위해 데이터를 준비하고 관리하는 데 거의 80%의 시간을 소비합니다. 결과적으로, 또 다른 설문 조사에 따르면 회사에서 생산하는 대부분의 데이터(약 2/3)는 사용되지 않습니다.

“조직에서는 매일 방대한 양의 구조화되지 않은 데이터가 생성되는데, 이를 LLM과 결합하면 생산성이 극대화될 수 있습니다. 문제는 이 데이터가 흩어져 있다는 것입니다.”라고 Raymond는 계속 말했습니다. “NLP 커뮤니티의 더러운 비밀은 오늘날의 데이터 과학자들이 여전히 장인의 일회성 데이터 커넥터와 전처리 파이프라인을 완전히 수동으로 구축해야 한다는 것입니다. Unstructured는 LLM을 위한 자연어 데이터를 연결, 변환 및 준비하기 위한 포괄적인 솔루션을 [제공]합니다.”

Unstructured는 웹 페이지에서 광고 및 기타 원치 않는 개체를 제거하고, 텍스트를 연결하고, 스캔한 페이지에서 광학 문자 인식을 수행하는 등의 도구를 포함하여 LLM 수집을 위해 기업 데이터를 정리하고 변환하는 데 도움이 되는 다양한 도구를 제공합니다. 이 회사는 특정 유형의 PDF에 대한 처리 파이프라인을 개발합니다. SEC 제출을 포함한 HTML 및 Word 문서, 그리고 — 무엇보다도 — 미 육군 장교 평가 보고서.

문서를 처리하기 위해 Unstructured는 자체 "파일 변환" NLP 모델을 처음부터 교육하고 다른 모델 컬렉션을 조합하여 원시 파일에서 텍스트와 약 20개의 개별 요소(예: 제목, 머리글 및 바닥글)를 추출했습니다. 총 15개 정도의 다양한 커넥터가 고객 관계 관리 소프트웨어와 같은 기존 데이터 소스에서 문서를 가져옵니다.

Raymond는 “그 뒤에서 우리는 복잡성을 추상화하기 위해 다양한 기술을 사용하고 있습니다.”라고 말했습니다. “예를 들어, 오래된 PDF와 이미지의 경우 컴퓨터 비전 모델을 사용하고 있습니다. 그리고 다른 파일 형식의 경우 NLP 모델, Python 스크립트 및 정규 표현식을 영리하게 조합하여 사용하고 있습니다."

Downstream, Unstructured는 LLM 앱 생성을 위한 프레임워크인 LangChain과 같은 제공업체와 Weaviate 및 MongoDB의 Atlas Vector Search와 같은 벡터 데이터베이스를 통합합니다.

이전에 Unstructured의 유일한 제품은 이러한 데이터 처리 도구의 오픈 소스 제품군이었습니다. Raymond는 이 앱이 약 700,000회 다운로드되었으며 100개 이상의 회사에서 사용되었다고 주장합니다. 그러나 개발 비용을 충당하고 투자자를 달래기 위해 회사는 PowerPoint 및 JPG를 포함한 25가지 파일 형식으로 데이터를 변환하는 상용 API를 출시했습니다.

“우리는 정부 기관과 협력해 왔으며 매우 짧은 기간에 수백만 달러의 수익을 올렸습니다. . . . 우리의 초점은 AI에 있기 때문에 우리는 광범위한 경제 침체의 영향을 받지 않는 시장 부문에 초점을 맞추고 있습니다.”라고 Raymond는 말했습니다.