Knowledge extraction from web pages 数据源 某搜索引擎网页库 Common Crawl Corpus 根据号码在网页中出现的位置采用相应的方法 meta标签、microdata:结构化数据抽取 网页头尾:基于规则的抽取系统 网页正文: 人工总结号码信息特征(HTML标签结构特征,文本特征等) 机器学习进行信息抽取和分类 Information Extraction