近年来金融、电子商务和互联网行业大数据表现出的新的特点,如大规模、高维度、稀疏性、模式迁移等,这些特点对传统的分类等判别模型构成重大挑战。很多国际数据挖掘竞赛(如:Kaggle)的获胜者,认为取胜的关键在于:用更好方法表现数据,即更好地呈现数据的特征。笔者的基本观点是:数据的表征学习和特征工程在大数据应用中扮演着非常重要的角色。本文以恶意电子商务检测为例,提出了一系列的空间变换方法,以提高传统分类器的分类检测效果。本文整合了数个线性、非线性以及综合空间变换方法(即:奇异值分解法、距离度量学习、Nystrom法、综合方法),以提高基本分类器处理大规模URL数据集的效率与效果。本研究还开发了一个专门的系统,收集了331622条网址,并提取了相关的62个特征。在该数据集上的实验表明,本研究提出的表征学习和特征工程方法解决了网址数据中存在的典型问题,并显著提高了传统分类器识别恶意网址的能力。