Kyon Huang 的博客

【paper reading】2021 小样本分割论文选读

发表于 2021-12-14 更新于 2022-01-25 分类于论文阅读笔记

根据手头想法的需要，读一读 2021 年顶会顶刊的小样本分割相关论文并做笔记于此。有开源代码的论文优先，持续更新。

Prior Guided Feature Enrichment Network for Few-Shot Segmentation (TPAMI 2020)
Few-Shot Segmentation Via Cycle-Consistent Transformer (NeurIPS 2021)
Simpler is Better: Few-shot Semantic Segmentation with Classifier Weight Transformer (ICCV 2021)
Few-Shot Segmentation Without Meta-Learning: A Good Transductive Inference Is All You Need? (CVPR 2021)
Self-Guided and Cross-Guided Learning for Few-Shot Segmentation (CVPR 2021)
Adaptive Prototype Learning and Allocation for Few-Shot Segmentation (CVPR 2021)
Mining Latent Classes for Few-shot Segmentation (ICCV 2021)
Few-Shot 3D Point Cloud Semantic Segmentation (CVPR 2021)

【paper reading】ICLR 2021 论文选读

发表于 2021-07-16 更新于 2021-10-13 分类于论文阅读笔记

这篇博文简单记录一下我快速阅读 ICLR 2021 其中一些我感兴趣的论文时的笔记和感想等。由于论文数量比较多，因此可能后续还会更新。接收列表见 Paper Digest: ICLR 2021 Highlights。

我比较关注的 topic 包括 transfer learning 下的 few-shot learning、domain adaptation、domain generalization 等，以及包括 VQA、visual grounding 在内的一些多模态学习的任务。我用 “#topic” 来标明这篇论文所属的 topic，这样既不用生硬地将属于多个 topic 的论文强行归类到单一 topic 下，也方便各位读者在页面内用 CTRL+F 来搜索自己感兴趣的 topic。

阅读全文 »

IJCAI2020 教训总结

发表于 2020-04-23 分类于翻滚吧博士生

很久没有写博客了，恰逢 IJCAI2020 前两天公布了录取结果。去年的我还在时间序列分析上捣鼓着我的毕业设计，今年的我在小样本学习上谋求一个落脚点，变的是年纪、是阅历、是心态，不变的是来自 IJCAI 的 reject。相比于去年，也许是因为 IJCAI 的审稿质量有了显著提升（也许也归功于他们在 desk reject 时大手一挥斩掉了将近一半的论文），也许是因为我自己在方法、实验设计和论文写作方面的进步使得评审能够更好地理解论文，总之这次的论文得以收获更加一针见血的点评，对我改进这份工作以及思考未来前进的方向有着不小的帮助。因此，我也想简单地总结一下评审们给出的意见，也是和博客的读者朋友们讨论一下（虽然可能这种讨论是单向的）身为科研菜鸟如何能够完善每一份工作。考虑到这篇论文还要修改后再投，这里把一些论文内容的相关信息模糊，只宏观地分析一下存在的问题。

这次的四名评审给我的论文的评分是 1 个 accept，1 个 weak accept，2 个 reject。给 accept 的那一位评审简单地写了两行夸赞之词，并表示对于如何改进这份工作没有任何建议。在感谢这位评审的认同后，从另外三位评审的评语（为了方便，后文中称为 review）以及 SPC（在这四位评审之上决定是否录用的人）的评语（后文中称为 meta-review）中，我感觉体现了以下问题：

文献调研不够充分。在做相关工作的文献调研时，我漏掉了一些论文，使得我在论文中错误地评估了这份工作对领域的贡献。这也是 SPC 给出的两条拒稿的主要理由之一。这给我的教训是在做文献调研的工作时，第一是不能仅用关键字的方式去搜查相关工作（当然这是主要方法之一），还应该顺着那些最相关的工作的引用和被引链条上下溯源，来找到那些在题目和摘要中不易看出但实际非常相关的工作；第二是要及时地去“扫荡”正好处于你实验和写作过程中发布的论文，尤其是被认为是正式发表的会议论文。这次我就吃了亏，有一篇论文在我投稿前不久刚刚发表，逃过了我的搜查。之后要及时快速阅读新出的会议论文，并做好归类工作；第三是要培养自己在看论文时的专注力，以及能够在短时间内评估论文贡献、和手头工作是否密切相关、以及对自己是否有进一步阅读价值的能力。另外，在平时不着急赶论文时，也要多读论文多思考，从广度和深度两个角度加深自己对领域的理解，这样在写论文的相关工作时才能更有的放矢。
故事讲得不够好。尽管人工智能领域仍然发展迅速，每周都会有开创性的工作面世，但绝大多数会议收录的工作都建立在已有工作的基础上，做了一定程度的改进。而信息的传播是有噪音的，这意味着不是所有人都能够正确地理解你的工作以及评估你的创新与贡献。论文是研究工作最主要的载体，想要让自己的改进在所有评审的眼里都能够达到会议要求的标准线，就需要在论文中对工作的每个细节有更加清晰、连贯的表述。这次有几位评审都对模型中的同一个细节提出了疑问，这是因为我在表述时没能够考虑到这里虽然是引用了已有的模型，但仍可能会有理解上的门槛。另外，也有评审对我的方法的实验设置有一些质疑，认为其不公平、没有实际应用价值。这样负面且充满误解的评审意见其实是能够在写作的过程中通过更详细的举例等说明来消除的。因此，在之后的写作过程中，一是要把自己的视角放的更低来审视自己的表述，二是要邀请实验室的一些同学来严格地审阅自己写好的论文，请他们从自己的角度积极地提出意见。
选择合适的会议，或者根据不同的会议来调整自己的表述。投稿经验丰富的研究者在自己心中对于经常打交道的会议期刊应该都有这方面的经验了，但我是第一次看到有评审在评审意见中提出 IJCAI 不应该过多接收纯计算机视觉的论文，因此综合考虑决定给出 reject。尽管我不认为我是做纯计算机视觉的，但我后来发现我在投稿时因为没找到最合适的 topic，因此 primary subject area 选的是 computer vision 下的子 topic 了…为自己的工作选择最合适的会议，既是增加一份被接收的希望，也让更多同领域的研究者有机会看到自己的工作，增加自己被引用和声名大振的概率。

如果每一份工作都是一面镜子，清晰地反映着你的不足，那这次 IJCAI 的经历无疑是最好的清洁剂，让这面镜子更加明亮。尽管一年来我收获了很多，但是以成果论的话，进步的速度还远远不够。除开重新投递这份工作，目前我手头还有其他的工作也将要投交。希望自己能够吸取教训，在把握宏观前进方向的同时也做好每一个细节，来更快地到达目的地。

【paper reading】Prototypical Networks for Few-shot Learning

发表于 2019-11-26 更新于 2019-11-27 分类于论文阅读笔记

一直没有完整看过这篇论文。这两天在复现 Prototypical Networks 时发现自己对 metric-based few-shot learning 的认知上存在一些问题，于是决定把这篇经典论文拿出来好好读一遍。

一句话总结

本文提出了原型网络（Prototypical Networks），通过将每个类别的样本求均值得到每个类的原型表示（prototypical representation），简化了 n-shot 分类时 n > 1 的情况，并可以将最近邻分类器成功应用在小样本分类问题上。基于度量学习的小样本学习方法因为这篇经典论文的出世从此自成一派。

论文信息

作者：Jake Snell, Kevin Swersky, Richard S. Zemel
出处：NIPS 2017
机构：Twitter; University of Toronto
关键词：few-shot learning, metric learning
论文链接
开源代码：
- jakesnell/prototypical-networks
- orobix/Prototypical-Networks-for-Few-shot-Learning-PyTorch
其他资料：
- Semantic Scholar

阅读全文 »

【paper reading】A Closer Look at Few-shot Classification

发表于 2019-09-26 分类于论文阅读笔记

一句话总结

本文研究了骨干网络的能力、数据集领域差异对现有小样本学习方法性能的影响，并强调了现有小样本学习方法的领域自适应能力普遍较差，需要多加注意。

论文信息

作者：Wei-Yu Chen, Yen-Cheng Liu, Zsolt Kira, Yu-Chiang Frank Wang, Jia-Bin Huang
出处：ICLR 2019
机构：CMU; Georgia Tech; National Taiwan University; Virginia Tech
关键词：few-shot learning, domain shift, domain adaptation
论文链接
开源代码：wyharveychen/CloserLookFewShot
其他资料：

阅读全文 »

【paper reading】Adaptive Cross-Modal Few-Shot Learning

发表于 2019-09-13 分类于论文阅读笔记

一句话总结

本文提出了一种自适应模态混合机制，可以根据要学习的新图像类别自适应地组合来自视觉和语言两种模态的信息，比模态对齐方法更适用于小样本学习。

论文信息

作者：Chen Xing, Negar Rostamzadeh, Boris N. Oreshkin, Pedro H. O. Pinheiro
出处：NeurIPS 2019
机构：Element AI, Montreal, Canada; Nankai University
关键词：few-shot learning, metric learning, multimodal
论文链接
开源代码：ElementAI/am3
其他资料：
- Semantic Scholar

阅读全文 »

【paper reading】Composing Text and Image for Image Retrieval - An Empirical Odyssey

发表于 2019-09-06 更新于 2019-11-27 分类于论文阅读笔记

一句话总结

作为第一篇研究用于图像检索的图像与文本特征组合问题的论文，本文提出一种采用门控机制和残差连接的特征组合方式，确保修改后的特征处于目标图像特征处在相同空间中，并通过度量学习的方式达到 SOTA。

论文信息

作者：Nam S. Vo, Lu Jiang, Chen Sun, Kevin Murphy, Li-Jia Li, Li Fei-Fei, James Hays
出处：CVPR 2019
机构：Google AI, Stanford
关键词：Image retrieval, multimodal, metric learning, feature composition
论文链接
开源代码：https://github.com/google/tirg
其他资料：
- Semantic Scholar

阅读全文 »

写在博士生开始前

发表于 2019-08-19 分类于翻滚吧博士生

这周末就是博士生开学典礼了，对自己的近况进行一个简单的介绍与总结。

近况

这一学年的显式收获是一篇 CIKM 2019 的 short paper。在经过 IJCAI 以一个大概 borderline 的分数被拒、拆出一部分当作本科毕设后，这份工作终于可以准备收尾了。同时，我也要去寻找一个能够支撑我整个博士生研究的新方向了。

为什么不再做当前的时间序列分析方向了？简单来说，单纯的时间序列所包含的信息量较少，简单而更具有可解释性的一系列传统方法已经有很好的表现。在这种情况下，使用深度学习来进行预测或者分类不一定能够表现更好，同时还会有解释性差、计算量大等问题。另外一点是，时间序列分析目前确实不是学术界研究热点，它可能更适合有大量可用数据的工业界研究人员进行挖掘来真正创造经济效益，而不适合作为一个只能用着开源数据集、还需要在一个研究领域耕耘至少五年的博士生的选题。

能中论文，当然会陷入短暂的兴奋中。但是收到邮件没过半天，我又回到沮丧的常态中。首先邮件中的评审意见里对这篇论文列举了很多问题，大多数都是我早已心知肚明的：没有在更多更大的公共数据集上进行实验、没有用实验证明我们的方法到底适用于有什么特点的数据、没有展现参数的设置如何影响模型的总体表现，等等。总而言之，没有对论文中提出的每个结论设计缜密的实验来证明。

更为深层的原因是，在这个月里，我渐渐发现这一年我好像并没有什么什么实质的进步。我仍然效率低下、没有做好时间管理、经常废弃既定的学习计划，作息紊乱、无法集中注意力、迷失在杂乱的信息流中，得过且过、不求甚解。看似阅读了很多论文，了解了一个领域，研究出一种方法，发表了一篇会议。实际上每次随便找了两篇论文浅浅看过就开始拿别人的东西堆叠想模型，对整个领域/方向/任务没有将顶会论文全部搜查一遍，对共性问题没有深入思考，甚至连 evaluation metrics 该采用哪些为什么都没有总结和思考过。最终的结果就是，成长速度奇慢。

博一的主要目标

最主要的目标当然是把所有课程顺利修完。
对未来的研究方向进行考察。考虑因素包括（在五年后）有较好的发展前景、对外部条件要求不高、出成果不是非常困难、符合自己兴趣。考察过程中要全面地了解领域现有任务、问题、方法、领军学者/机构。
夯实理论基础。每次选定书/课学习就坚持下来，控制在一个月内学习完成。回想一下，本科阶段最大的提升之一就在于坚持修完了吴恩达深度学习课程。
通过论文复现练习和数据竞赛来提高编程、调参等水平。数据竞赛方面的最终目标在 Kaggle 能在一场比赛中持续参加并获得银牌以上。
能够及时将感兴趣的论文/blog 消化到能和别人随口讲清楚的程度。每周尽量读一篇和当前研究方向不太相关的、近期顶会的 best paper 或者引起广泛讨论的 paper，来理解并吸收其他领域的思路。
发表一篇自己较为满意、对领域有贡献的论文。

最后，我在考虑把博客翻修一下。

自动编码器一览（二）

发表于 2019-07-07 更新于 2019-07-10 分类于深度学习笔记

这是“自动编码器一览”系列的第二篇博文。在本文中，我会介绍一些最近看过并且比较感兴趣的自动编码器的变形，说是介绍，可能更像是论文笔记合集。比起第一篇提到过那些更为通用的经典变形，这些相对而言比较新颖的自动编码器在结构上进行修改，使得它们更符合所对应的特定任务的需求。如果我之后又看到一些有意思的自动编码器，也可能在这篇博文中继续更新。

本文中包含以下内容：

递归自动编码器（Recursive Autoencoder）
Additional Stacked Denoising Autoencoder（aSDAE）

“自动编码器一览”系列：

阅读全文 »

自动编码器一览（一）

发表于 2019-06-15 更新于 2019-07-10 分类于深度学习笔记

最近在研究用自动编码器（Autoencoder, AE）做表征学习（Representation Learning），看了一些资料和论文，自己也有一些想法，现在准备开始写 related work，值此机会想要先整理一下。题图来自 THU 唐杰老师的微博，清晰地展现了自动编码器的发展历程。

本系列预计会写三篇博文，第一篇包含自动编码器的总体框架和思想，之后介绍为实现各种目标而产生的一些经典变体，会涵盖题图中提到的大部分自动编码器；第二篇包含一些我个人比较感兴趣、最近看过的一些变形，它们更适用于各自的任务；第三篇可能会拖得稍微久一点，我想把最近非常火热的变分自动编码器以及它的一些变形弄通。

本文中包含以下内容：

表征学习简介（Representation Learning Intro）
自动编码器框架（Autoencoder Framework）
堆叠自动编码器（Stacked Autoencoder）
去噪自动编码器（Denoising Autoencoder, DAE）
收缩自动编码器（Contractive AutoEncoder, CAE）
稀疏自动编码器（Sparse Autoencoder）
LSTM 自动编码器（LSTM Autoencoder）
卷积自动编码器（Convolutional Autoencoder）

“自动编码器一览”系列：

阅读全文 »