Knowledge Graph

views 122 words

需求分析

基于搜索引擎的商业数据分析:

  • 行业分析: 整体市场趋势, 细分市场趋势
  • 品牌分析: 品牌市场份额, 品牌粘性, 品牌游离度
  • 车系分析: 车系市场份额, 车系粘性, 车系游离度
  • 车型分析: 车型市场份额, 车型粘性, 车型游离度
  • 话题分析: 热点排行, 话题排行
  • 用户画像: 自然属性分析, 兴趣属性分析

项目架构设计

-w996

数据优先级:

非结构化数据 < 半结构化数据 < 结构化数据

关键技术

  • 爬虫 - Scrapy
  • 图数据库 - neo4j
  • 数据可视化 - echarts

模型设计方法

模型设计方法论:

-w1210

参照法 - 统一医学语言系统(Unified Medical Language System,UMLS)语义网络:

-w1038

归纳法 - 产品生命周期模型

-w1077

拆解销售部分

-w939

设计流程

-w926

语义类型设计

UMLS语义类型

-w1170

汽车语义类型

-w1094

实体

-w1250

事件 (来自投诉网站)

-w1046

中医药一体化语言系统(TCMLS)

“中医药学语言系统的语义网络框架”的局部示意图

-w808

语义关系设计

UMLS语义关系

-w1183

TCMLS语义关系

汽车 -w1235

  • 遍历实体, 判断其关系
  • 事件相关

数据获取

https://car.autohome.com.cn/price/brand-33-0-0-2.html

汽车品牌

-w553

动态页面内容爬取

汽车车系

-w610

汽车数据导入图数据库

(节点/关系创建)

品牌 -w790

车系 -w863

关系建立 -w1243 -w1127

创建索引提升检索速度 -w1063

基于车系, 获取车型 -w606

汽车配置数据获取 -w855

知识图谱设计

前端框架设计

Django交互流程 -w1525

实体识别设计

通用领域的NER

  • 概念定义:
    • 命名实体识别是信息提取,问答系统, 句法分析,机器翻译,面向semantic web的元数据标注等应用领域的重要基础工具, 在NLP走向实用化的过程占有重要地位
  • 类型划分
    • 命名实体就是识别出待处理文本在三大类(实体类, 时间类, 数字类), 七小类(人名, 机构名, 地名, 时间, 日期, 货币和百分比)命名实体

-w575

开源框架 CoreNLP, CRF -w1363

汽车(垂直)领域NER -w1628

NER词典 -w458

模板层 -w1265

模型层 -w883

视图层 -w811

实体查询设计

neo4j-driver

py2neo开发框架 -w754 -w1462

关系查询设计

-w1065 -w1483

数据可视化设计

-w746 -w761

推荐系统

-w905

模型策略 -w1424

知识图谱和推荐系统的结合

-w844

-w1466

基于KGE开源框架的推荐

-w1244

-w1198 -w1560 -w1568

RippleNet

https://www.jianshu.com/p/c5ffaf7ed449

论文:https://arxiv.org/abs/1803.03467