Knowledge extraction from web pages

数据源
- 某搜索引擎网页库
- Common Crawl Corpus
根据号码在网页中出现的位置采用相应的方法
- meta标签、microdata：结构化数据抽取
- 网页头尾：基于规则的抽取系统
- 网页正文：
  - 人工总结号码信息特征（HTML标签结构特征，文本特征等）
  - 机器学习进行信息抽取和分类

Information Extraction