POMA AI 實現同類最佳的 RAG 分塊與文件擷取,相較於傳統模型減少 77% 權杖使用量

(SeaPRwire) –   智慧分層分塊是向量資料庫嵌入的最佳資料準備方式

柏林,BERLIN,2026年3月16日 — POMA AI,一家總部位於柏林的文檔智慧公司,今日發布了 POMA-OfficeQA,一個開源基準測試,證明其結構感知文檔分塊與傳統的文本分割和 Unstructured.io 的元素提取方法相比,可將 RAG 檢索成本降低 77%。

POMA AI Achieves Best-in-Class RAG Chunking and Document Ingestion With 77% Token Reduction vs. Conventional Models

開箱即用,POMA PrimeCut 比傳統模型少使用 77% 的 token。在客製化配置中使用時,此數字上升到 83%。

POMA AI 的創始人兼執行長 Dr. Alexander Kihm 表示:「今天生產中的每個 RAG 系統在模型看到資訊之前就會丟失資訊。業界一直在優化嵌入、重排器和提示工程,但攝取層才是大多數檢索失敗的真正來源。這個基準測試量化了實踐者直觀感受到的東西:結構感知分塊是讓下游一切正常工作的基礎。」

該基準測試的完整內容可在 GitHub 上取得,該測試使用相同的嵌入、相同的檢索邏輯和 20 個表格查找問題,跨越 14 份美國財政部公報(約 2,150 頁)測試了三種用於檢索增強生成 (RAG) 的文檔分塊策略。測試衡量每種方法檢索正確回答事實問題所需所有證據的能力,其中指標(上下文召回率)指定了檢索系統保證所有證據都存在於檢索上下文中的最低 token 預算。

結果顯示,POMA 的分層分塊——它保留了文檔結構,包括表格標題、章節層級以及內容元素之間的語義關係——在實現 100% 上下文召回率的情況下,所需的 token 減少了 77%:

  • 基準(500 token,100 重疊的樸素分塊):145 萬
  • Unstructured.io(元素提取:148 萬
  • POMA AI(結構感知):340k

所有方法都使用了 OpenAI 的 text-embedding-3-large 模型進行嵌入,並使用餘弦相似度進行檢索排名。地面真實性是通過與原始文檔核對的確切分塊索引建立的——消除了偶然數字匹配造成的假陽性。僅包含所有三種方法都能回答的問題,以確保公平比較。任何方法出現提取失敗(OCR 錯誤、缺失值)的問題均被排除。

POMA AI 的投資者和顧問 AdBlock 聯合創始人 Till Faida 表示:「POMA 讓我們信服的是其工程嚴謹性背後一個看似簡單的洞察。他們著手解決攝取層,這是管道中每個人都認為已經解決的問題。這個基準測試表明事實並非如此。77% 的 token 削減改變了企業規模運行 RAG 的經濟效益。這正是我們尋求的結構性優勢。」

關於 POMA AI:POMA AI 是一家總部位於柏林的文檔智慧公司,為企業 RAG 系統構建基礎設施。其核心技術將複雜文檔轉換為語義連貫的塊,準備好進行向量搜索和 LLM 消費。POMA 的 API 可在單次調用中處理文檔,並輸出與任何嵌入模型和向量存儲兼容的細粒度塊和分組塊集。免費演示可在 POMA AI 的網站上取得。有關 POMA AI 的更多資訊可在 LinkedIn 或 X (Twitter) 上找到。

POMA AI Achieves Best-in-Class RAG Chunking and Document Ingestion With 77% Token Reduction vs. Conventional Models

POMA PrimeCut 的結構感知嵌入比僅上下文嵌入顯示出 119 倍的改進。

媒體諮詢

Florian Athens
fa [at] poma-ai.com
https://poma-ai.com

本文由第三方廠商內容提供者提供。SeaPRwire (https://www.seaprwire.com/)對此不作任何保證或陳述。

分類: 頭條新聞,日常新聞

SeaPRwire為公司和機構提供全球新聞稿發佈,覆蓋超過6,500個媒體庫、86,000名編輯和記者,以及350萬以上終端桌面和手機App。SeaPRwire支持英、日、德、韓、法、俄、印尼、馬來、越南、中文等多種語言新聞稿發佈。