Knowledge Graph
需求分析
基于搜索引擎的商业数据分析:
- 行业分析: 整体市场趋势, 细分市场趋势
- 品牌分析: 品牌市场份额, 品牌粘性, 品牌游离度
- 车系分析: 车系市场份额, 车系粘性, 车系游离度
- 车型分析: 车型市场份额, 车型粘性, 车型游离度
- 话题分析: 热点排行, 话题排行
- 用户画像: 自然属性分析, 兴趣属性分析
项目架构设计
数据优先级:
非结构化数据 < 半结构化数据 < 结构化数据
关键技术
- 爬虫 - Scrapy
- 图数据库 - neo4j
- 数据可视化 - echarts
模型设计方法
模型设计方法论:
参照法 - 统一医学语言系统(Unified Medical Language System,UMLS)语义网络:
归纳法 - 产品生命周期模型
拆解销售部分
设计流程
语义类型设计
UMLS语义类型
汽车语义类型
实体
事件 (来自投诉网站)
中医药一体化语言系统(TCMLS)
“中医药学语言系统的语义网络框架”的局部示意图
语义关系设计
UMLS语义关系
TCMLS语义关系
汽车
- 遍历实体, 判断其关系
- 事件相关
数据获取
https://car.autohome.com.cn/price/brand-33-0-0-2.html
汽车品牌
动态页面内容爬取
汽车车系
汽车数据导入图数据库
(节点/关系创建)
品牌
车系
关系建立
创建索引提升检索速度
基于车系, 获取车型
汽车配置数据获取
知识图谱设计
前端框架设计
Django交互流程
实体识别设计
通用领域的NER
- 概念定义:
- 命名实体识别是信息提取,问答系统, 句法分析,机器翻译,面向semantic web的元数据标注等应用领域的重要基础工具, 在NLP走向实用化的过程占有重要地位
- 类型划分
- 命名实体就是识别出待处理文本在三大类(实体类, 时间类, 数字类), 七小类(人名, 机构名, 地名, 时间, 日期, 货币和百分比)命名实体
开源框架 CoreNLP, CRF
汽车(垂直)领域NER
NER词典
模板层
模型层
视图层
实体查询设计
neo4j-driver
py2neo开发框架
关系查询设计
数据可视化设计
推荐系统
模型策略
知识图谱和推荐系统的结合
基于KGE开源框架的推荐