搜索
确认
取消
RESEARCH
/
/
/
小样本学习的突破将深远影响AI格局

小样本学习的突破将深远影响AI格局

小样本学习的突破将深远影响AI格局

(Summary description)

 

深度学习在数据密集型应用中取得了很大成功,但在面临小数据集的情况下往往捉襟见肘。

更大量的数据,更深层的神经网络,更爆炸的算力,总是能带来更好的效果。但在实际的工业落地过程中,开发者往往面临着无法获得足够数据的困境。而数据又是机器学习领域的重要资源,在数据缺少的情况下如何训练模型呢?小样本学习是其中一个解决方案。

众所周知,深度学习是机器学习发展中一个非常重要的里程碑,在很多任务上深度学习都取得了巨大的成功。然而,由于深度模型包含的参数很多,通常需要大量的有标签的数据(人工标注过的数据)才能进行模型训练,这点严重地限制了它的应用。因为在很多场景下,收集大量的有标签的数据是非常昂贵、困难、甚至不可能的,比如医疗数据、军工领域和航天领域。

是否能仅利用少量带标签的数据来训练就得到一个好的模型?这已经成为机器学习的发展中一个十分重要的课题,不论是学术界还是工业界都高度关注。因为小样本学习的突破性进展,很可能会打破目前学界和工业界的主流趋势,以及工业界的产业格局,让巨头公司的算力和资源优势,变得相对而言不再是很多创业公司的“叹息之墙”。



有一类小样本学习的思路是元学习 (meta-learning) 方法。元学习的大致想法是利用大量跟目标任务相似的任务、或历史任务来训练一个元学习器,然后再把学习器用到目标任务上,获得一个可以接受的模型初值,从而能够仅利用少量目标任务数据就对模型进行快速适配。

元学习中有一类分支是基于度量学习的小样本学习。度量学习的大致想法是训练一个具有良好迁移能力的特征提取器,来直接应用到目标任务上。这样,通过一个少参数或者无参数的分类器就可以做小样本分类任务了。 



训练过程中,每次训练都会采样得到不同元任务(meta-task),所以总体来看,训练包含了不同的类别组合,这种机制使得模型学会不同元任务中的共性部分,比如如何提取重要特征及比较样本相似性,同时忘掉元任务中非共性的部分。通过这种学习机制训练好的模型,在面对新的未见过的任务时,也能较好地进行分类,完成被分配到的任务。

这类模型的分类和识别过程,也将更接近人类的思维能力,比如利用少数肝脏病灶的图片训练模型,就能快速识别有相似性的肠胃病变,而不需要费时费力的获取大量医学影像图片,再由人工标注数据给模型训练。

但是从现阶段看,现有方法都有各自的优缺点,提出一个新的更好的元学习方法是目前的主流研究方向,且实验结果还有很大的提升空间。

学界目前大多在重点考虑以下几个方向:




小样本物体检测:目前的小样本学习大多集中在视觉方向上的图片分类任务上,物体检测任务才刚刚开始起步。相比于图片分类,物体检测在实际应用中更重要、更实用。




无监督小样本学习:小样本学习的传统设定是从大量的有标签的基类数据迁移知识到小样本的新类任务上。在实际很多场景中,大量有标签的基类数据也是难以获得的,能否利用大量无标签的基类数据(或者少量有标签的基类数据+大量无标签的基类数据)来做小样本学习?




联邦学习:当一个用户本地的数据非常少时,如何利用其它用户的数据,在保证隐私的情况下来帮助训练模型?或者当某个用户的数据分布式存储在多个设备上且每个设备的数据都很少的情况下,如何用最小的通信代价将分布式的数据进行联合训练?




总而言之,AI的发展只是实现了阶段性的成果,还远远没有展示出这条科技巨龙的身体和全貌,认知层面的AI能力一旦觉醒,将更深远的影响和变革人类社会。给它时间,给它机会,让AI帮助人类成为更好的人类。

上一个: 无

Information
 
深度学习在数据密集型应用中取得了很大成功,但在面临小数据集的情况下往往捉襟见肘。
更大量的数据,更深层的神经网络,更爆炸的算力,总是能带来更好的效果。但在实际的工业落地过程中,开发者往往面临着无法获得足够数据的困境。而数据又是机器学习领域的重要资源,在数据缺少的情况下如何训练模型呢?小样本学习是其中一个解决方案。
众所周知,深度学习是机器学习发展中一个非常重要的里程碑,在很多任务上深度学习都取得了巨大的成功。然而,由于深度模型包含的参数很多,通常需要大量的有标签的数据(人工标注过的数据)才能进行模型训练,这点严重地限制了它的应用。因为在很多场景下,收集大量的有标签的数据是非常昂贵、困难、甚至不可能的,比如医疗数据、军工领域和航天领域。
是否能仅利用少量带标签的数据来训练就得到一个好的模型?这已经成为机器学习的发展中一个十分重要的课题,不论是学术界还是工业界都高度关注。因为小样本学习的突破性进展,很可能会打破目前学界和工业界的主流趋势,以及工业界的产业格局,让巨头公司的算力和资源优势,变得相对而言不再是很多创业公司的“叹息之墙”。

有一类小样本学习的思路是元学习 (meta-learning) 方法。元学习的大致想法是利用大量跟目标任务相似的任务、或历史任务来训练一个元学习器,然后再把学习器用到目标任务上,获得一个可以接受的模型初值,从而能够仅利用少量目标任务数据就对模型进行快速适配。
元学习中有一类分支是基于度量学习的小样本学习。度量学习的大致想法是训练一个具有良好迁移能力的特征提取器,来直接应用到目标任务上。这样,通过一个少参数或者无参数的分类器就可以做小样本分类任务了。 
训练过程中,每次训练都会采样得到不同元任务(meta-task),所以总体来看,训练包含了不同的类别组合,这种机制使得模型学会不同元任务中的共性部分,比如如何提取重要特征及比较样本相似性,同时忘掉元任务中非共性的部分。通过这种学习机制训练好的模型,在面对新的未见过的任务时,也能较好地进行分类,完成被分配到的任务。
这类模型的分类和识别过程,也将更接近人类的思维能力,比如利用少数肝脏病灶的图片训练模型,就能快速识别有相似性的肠胃病变,而不需要费时费力的获取大量医学影像图片,再由人工标注数据给模型训练。
但是从现阶段看,现有方法都有各自的优缺点,提出一个新的更好的元学习方法是目前的主流研究方向,且实验结果还有很大的提升空间。
学界目前大多在重点考虑以下几个方向:
  • 小样本物体检测:目前的小样本学习大多集中在视觉方向上的图片分类任务上,物体检测任务才刚刚开始起步。相比于图片分类,物体检测在实际应用中更重要、更实用。

  • 无监督小样本学习:小样本学习的传统设定是从大量的有标签的基类数据迁移知识到小样本的新类任务上。在实际很多场景中,大量有标签的基类数据也是难以获得的,能否利用大量无标签的基类数据(或者少量有标签的基类数据+大量无标签的基类数据)来做小样本学习?

  • 联邦学习:当一个用户本地的数据非常少时,如何利用其它用户的数据,在保证隐私的情况下来帮助训练模型?或者当某个用户的数据分布式存储在多个设备上且每个设备的数据都很少的情况下,如何用最小的通信代价将分布式的数据进行联合训练?

总而言之,AI的发展只是实现了阶段性的成果,还远远没有展示出这条科技巨龙的身体和全貌,认知层面的AI能力一旦觉醒,将更深远的影响和变革人类社会。给它时间,给它机会,让AI帮助人类成为更好的人类。

上一个: 无

Scan the QR code to read on your phone

在线搜索

搜索
Search

凯联资本   专业成就信任

CONTACT

 

Add:39th Floor,T3,Wangjing SOHO,Chaoyang Dustrict,Beijing,China 100102

Email:kefu@capitallink.cn

官方公众号

CAPITALLINK