Knowledge extraction from web pages

  • 数据源
  • 根据号码在网页中出现的位置采用相应的方法
    • meta标签、microdata:结构化数据抽取
    • 网页头尾:基于规则的抽取系统
    • 网页正文
      • 人工总结号码信息特征(HTML标签结构特征,文本特征等)
      • 机器学习进行信息抽取和分类