数据表征学习与特征工程

活动信息

  • 开始时间:2020-10-20 15:00:00
  • 活动地点:腾讯会议线上
  • 主讲人:寇纲

活动简介

近年来金融、电子商务和互联网行业大数据表现出的新的特点,如大规模、高维度、稀疏性、模式迁移等,这些特点对传统的分类等判别模型构成重大挑战。很多国际数据挖掘竞赛(如:Kaggle)的获胜者,认为取胜的关键在于:用更好方法表现数据,即更好地呈现数据的特征。笔者的基本观点是:数据的表征学习和特征工程在大数据应用中扮演着非常重要的角色。本文以恶意电子商务检测为例,提出了一系列的空间变换方法,以提高传统分类器的分类检测效果。本文整合了数个线性、非线性以及综合空间变换方法(即:奇异值分解法、距离度量学习、Nystrom法、综合方法),以提高基本分类器处理大规模URL数据集的效率与效果。本研究还开发了一个专门的系统,收集了331622条网址,并提取了相关的62个特征。在该数据集上的实验表明,本研究提出的表征学习和特征工程方法解决了网址数据中存在的典型问题,并显著提高了传统分类器识别恶意网址的能力。

主讲人介绍

寇纲教授现为西南财经大学工商管理学院执行院长,博士生导师,民主建国会四川省委常务委员兼西南财经大学支部主任委员。担任6个SCI期刊主编或编委,曾获教育部自然科学一等奖、国家杰出青年基金、首届国家优秀青年基金、全球高被引科学家、中国管理学青年奖、四川省有突出贡献的优秀专家等多项荣誉与奖励;发表SCI论文70余篇,SSCI论文30余篇,其中10篇论文被美国基本科学指标ESI列为领域学科前百分之一的高引用论文。个人入选Web of Science基本科学指标的全球高被引科学家,和入选爱思唯尔中国高被引学者“商业,管理和会计”学科榜单。