Social Information Graph

研究内容解读

  • 面向多源、异构和跨模态复杂社会信息,研究语义融合、网络表征和动态演化的理论框架;
    • 多源:多数据源爬取,
    • 异构:不同数据结构,不同结构的结构化数据,结构化数据与文本数据
    • 跨模态:模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的。
    • 网络表征: 相比图片等简单的网格结构,图结构是更泛化的数据结构,比如一般的社交网络、互联网等,都是由图这种数据结构表示的,图的节点表示单个用户,图的边表示用户之间的互联关系。针对网络结构,用向量的数据形式表示网络结构、节点属性的机器学习方法就是网络表征学习。
    • 动态演化:能够根据不同的业务和数据输入的变化不断调节满足新的分析需求。
  • 提出面向多维度、多尺度社会信息网络的风险感知、智能分析和群体决策的社会计算范式,研究和构建融合全球多语种、跨模态大数据驱动的社会风险机理和分析模型与方法;
    • 社会信息网络:庞大的社会信息构成的知识网络
    • 群体决策:传统的群体决策是为充分发挥集体的智慧,由多人共同参与决策分析并制定决策的整体过程。其中,参与决策的人组成了决策群体。集体智慧学习主要指根据群体的行为、偏好、意见挖掘出新奇的观点,偏数据挖掘概念。
  • 研究信息网络的实体及关联知识联合提取方法,构建支撑风险评估与智能决策的时序知识图谱,研究复杂社会网络图表征学习框架,提出领域知识与大数据驱动的超大群体智能决策方法,支持智能决策的自主评价与推演;
    • 时序知识图谱:时序图谱可以被看作具有多个相互关系的序列;实体间的多个相互关系可能发生在同一时刻;时序邻居关系之间存在强依赖;多关系情况下,当前邻居可以帮助预测未来(实体之间的)相互关系。
  • 构建面向重大需求的风险预警、智能分析、群体决策的软硬件一体化大数据计算平台。

指标分解

  • 20个语种:NLP多语言融合:争取NLP机器翻译融合
  • 10W个信息源:分布式大规模爬虫平台:pyspider
  • 千万级节点、亿级边的知识图谱
    • 图数据存储:
      • 分布式图数据库:技术查询,比如dgraph
      • 分布式存储:存储简便,伸缩简便,可以直接供分布式计算框架使用
    • 图计算:分布式图计算框架,比如SparkGraphX
  • 100种社会风险感知与智能决策模型
    • 算法维度
        • 图表征学习方法
          1. 网络嵌入:比浅层图嵌入或图自动编码器,聚焦于学习关系结构的无监督表征
          • 正则化神经网络:利用图强化神经网络的损失,为了半监督学习的正则化。
          • 图神经网络,旨在学习任意结构下离散拓扑的可微函数。
    • 应用维度
    • 两个维度的组合
  • 百亿条边的分析决策能力
    • 目前分布式图计算框架应该就能Hold
  • 千万级节点的分钟级响应能力
    • 在目前分布式计算框架上算法实现调优
  • 不少于两个应用方向验证
    • 疫情
    • 舆情

Social Information Graph

  • 阿里云GraphCompute

Social Information Graph