GATE 標記與處理平台

General Architecture for Text Engineering

簡介

  • 始於 1995 年由英國的 Sheffield 大學開發,迄今歷經了 20 年的發展。

  • 以 Java 語言開發的免費開源軟件。

  • 支持多種語言編碼,支持的檔案類型包括 XML、RTF、Email、HTML、以及純文字文件。

  • 年紀大但是跟得很好。支援知識本體 (ontologies)、機器學習,與現有的各種自然語言處理工具,如 Wordnet,Stanford Parser等等。

  • 此外,GATE 還能使用眾包 (crowd sourcing) 來標註語料庫,完全跟上最近的思維。

設計架構

作為一個一般性的文本工程框架,希望能為文本處理提供有組織的開發環境,以及可以引入自然語言處理的管線 (pipeline) 流程處理與嵌入各種應用。以 8.1 版為例,介面上可以看到

  • 語言資源(Language Resources: data used for annotating)

  • 處理資源(Processing Resources: process that annotated data)

  • 應用程式(Applications: run processes on data)

  • 資料儲存庫(Datastores: repositories for larger data)

中文支援

Last updated