4 分钟阅读

UIE——通用信息抽取

jpg

Text2Structure - Structure Extraction Language

(
    (Spot Name: Info Span
        (Asso Name: Info Span)
        (Asso Name: Info Span)
    )
)
# Structure extrating language (SEL) for Universal IE
  • Spot Name 表示源文本中存在一段特定的信息,其类型为该 spot name。
  • Asso Name 表示源文本中存在一段特定的信息,它与结构中上一层 spot 出的信息之间存在该 AssoName 关联。
  • Info Span 表示源文本中与该 spotting 或 associating 信息片段相对应的文本片段。

下面是一个例子:

(
    (person: Steve
        (work for: Apple)
    )
    (start-position: became
        (employee: Steve)
        (employer: Apple)
        (title: CEO)
        (time: 1997)
    )
    (orgnization: Apple)
    (time: 1997)
)
# The SEL representation for "Steve became CEO of Apple in 1997."

Prompt paradigm

feature engineering -> neural network architechure engineering -> fine tuning -> prompt engineering

How to choose prompt

不同的 prompt 具有不同的 zero-shot 或 few-shot 能力。例如,抽取人名的 prompt 可以是:

  1. Which people are contained in the original text?
  2. Who are in the text?
  3. What are the names?

UIE 对 Prompt 的统一:UIE 通过大量数据训练固定了 Prompt 的构造方式,就是 条件+抽取标签,省去了传统 Prompt 选择太多的问题。

Prompt 和原文越相似,效果越好。

Conclusion

UIE 可以统一建模不同信息抽取任务,按需自适应地生成目标抽取结构,并从不同的知识来源统一学习通用信息抽取能力。

References

  1. Yaojie Lu, etc, from CAS, Baidu and BAAI. Unified Structure Generation for Universal Information Extraction., ACL 2022.
  2. PaddleNLP - UIE. 通用信息抽取 UIE(Universal Information Extraction)
  3. 通用信息抽取技术与产业应用实战, 2022.5.21
  4. 《UIE:基于统一结构生成的通用信息抽取》-韩先培, 2022.7.22
  5. https://github.com/universal-ie/UIE