论文总结（2020年人工智能论文总结）

口口导航网文章阅读 2021-11-21 13:38:39 179 0

论文总结（2020年人工智能论文总结）-第1张图片

论文总结（2020年人工智能论文总结）尽管今年世界上发生了这么多事情，我们还是有机会看到很多惊人的研究成果。特别是在人工智能领域。此外，今年还强调了许多重要的方面，比如伦理方面、重要的偏见等等。人工智能以及我们对人类大脑及其与人工智能的联系的理解在不断发展，在不久的将来显示出有前途的应用。

以下是本年度最有趣的研究论文，如果你错过了其中的任何一篇的话。简而言之，它基本上是一个根据发布日期列出的人工智能和数据科学最新突破的列表，配有清晰的视频解释、更深入的文章链接和代码(如果适用的话)。

本文最后列出了每篇论文的完整参考文献。

YOLOv4: Optimal Speed and Accuracy of Object Detection [1]

这第4个版本由Alexey Bochkovsky等人于2020年4月在论文"YOLOv4: Optimal Speed and Accuracy of Object Detection"中介绍。该算法的主要目标是在精度方面做出一个高质量的超高速目标检测器。

DeepFaceDrawing: Deep Generation of Face Images from Sketches [2]

您现在可以使用这种新的图像到图像转换技术，从粗糙甚至不完整的草图生成高质量的人脸图像，无需绘图技巧!如果你的画技和我一样差，你甚至可以调整眼睛、嘴巴和鼻子对最终图像的影响。让我们看看它是否真的有效，以及他们是如何做到的。

Learning to Simulate Dynamic Environments with GameGAN [3]

这项研究由英伟达多伦多AI实验室和日本游戏大厂万代南梦宫 *BANDAI NAMCO) 一同开发，技术来自前者，数据来自后者。

简单来说，仅对简单的游戏录像和玩家输入进行学习，GameGAN 就能够模拟出接近真实游戏的环境，还不需要游戏引擎和底层代码。它的底层是在 AI 领域很有名的生成对抗网络 (GAN)。

PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models [4]

它可以把超低分辨率的16x16图像转换成1080p高清晰度的人脸!你不相信我?然后你就可以像我一样，在不到一分钟的时间里自己试穿一下!

Unsupervised Translation of Programming Languages [5]

这种新模型在没有任何监督的情况下将代码从一种编程语言转换成另一种编程语言!它可以接受一个Python函数并将其转换成c++函数，反之亦然，不需要任何先前的例子!它理解每种语言的语法，因此可以推广到任何编程语言!我们来看看他们是怎么做到的。

PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization [6]

这个人工智能从2D图像生成3D高分辨率的人的重建!它只需要一个单一的图像你生成一个3D头像，看起来就像你，甚至从背后!

High-Resolution Neural Face Swapping for Visual Effects [7]

迪士尼的研究人员在论文中开发了一种新的高分辨率视觉效果人脸交换算法。它能够以百万像素的分辨率渲染照片真实的结果。。它们的目标是在保持actor的性能的同时，从源actor交换目标actor的外观。这是非常具有挑战性的，在很多情况下都是有用的，比如改变角色的年龄，当演员不在的时候，甚至当它涉及到一个对主要演员来说太危险的特技场景。目前的方法需要大量的逐帧动画和专业人员的后期处理。

Swapping Autoencoder for Deep Image Manipulation [8]

这种新技术可以改变任何图片的纹理，同时使用完全无监督的训练保持现实!结果看起来甚至比GANs能实现的还要好，而且速度更快!它甚至可以用来制作深度赝品!

GPT-3: Language Models are Few-Shot Learners [9]

当前最先进的NLP系统很难推广到不同的任务上。他们需要在成千上万个示例的数据集上进行微调，而人类只需要查看几个示例即可执行新的语言任务。这是GPT-3的目标，目的是改善语言模型的任务不可知特性。

Learning Joint Spatial-Temporal Transformations for Video Inpainting [10]

与当前的最新技术相比，该AI可以填充移动的物体后面的缺失像素，并以更高的准确性和更少的模糊度重建整个视频！

Image GPT — Generative Pretraining from Pixels [11]

一个好的人工智能，比如Gmail中使用的那个，可以生成连贯的文本并完成你的短语。这是使用相同的原理来完成图像处理！全部在无监督的训练中完成，根本不需要标签！

Learning to Cartoonize Using White-box Cartoon Representations [12]

该AI可以将您想要的任何图片或视频进行卡通化！

Neural Re-Rendering of Humans from a Single Image [14]

该算法将身体的姿势和形状表示为参数网格，可以从单个图像进行重构并轻松放置。给定一个人的图像，他们便能够以不同的姿势或从另一个输入图像获得的不同衣服来创建该人的合成图像。

I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human Pose and Mesh Estimation from a Single RGB Image [15]

目标是提出一种从单个RGB图像进行3D人体姿势和网格估计的新技术。他们称其为I2L百思特网-MeshNet。 I2L代表"图像到像素"。就像体素，体积+像素，是三维空间中的量化单元格一样，他们将lixel，线和像素定义为一维空间中的量化单元格。他们的方法优于以前的方法，并且代码是公开可用的！

Beyond the Nav-Graph: Vision-and-Language Navigation in Continuous Environments [16]

语言导航是一个被广泛研究的领域，也是一个非常复杂的领域。对于一个人来说，走过一所房子来拿掉您放在床头柜上的咖啡就很简单了。但这对于AI代理来说是另外一回事了，它是一个使用深度学习执行任务的自主AI驱动的系统。

RAFT: Recurrent All-Pairs Field Transforms for Optical Flow [17]

ECCV 2020最佳论文奖授予普林斯顿大学团队。他们为光流开发了一种新的端到端可训练模型。他们的方法超越了跨多个数据集的最新架构的准确性，并且效率更高。

Crowdsampling the Plenoptic Function [18]

利用从互联网上获得的公开照片，他们能够重构旅游场景的多个视点，从而保留逼真的阴影和照明！这是用于真实感场景渲染的最先进技术的巨大进步，其结果简直令人赞叹。

Old Photo Restoration via Deep Latent Space Translation [19]

想象一下，当您祖母18岁时，她的老照片，折叠甚至撕裂的照片都清晰无瑕，清晰度很高。这就是所谓的旧照片恢复，本文只是使用深度学习方法开辟了一条全新的途径来解决这一问题。

Neural circuit policies enabling auditable autonomy [20]

来自IST Austria和MIT的研究人员已经成功地使用一种新的人工智能系统训练了自动驾驶汽车，该系统基于细小动物（如线虫）的大脑。他们实现了这一点，与流行的深度神经网络（如Inceptions，Resnets或VGG）所需的数百万个神经元相比，只有少数神经元能够控制自动驾驶汽车。他们的网络仅使用75,000个参数（由19个控制神经元而不是数百万个参数）就可以完全控制汽车！

Lifespan Age Transformation Synthesis [21]

来自Adobe Research的一组研究人员仅根据该人的一张照片开发了一种用于年龄转换合成的新技术。它可以从您发送的任何图片中生成不同年龄的图片。

DeOldify [22]

DeOldify是一种使旧的黑白图像甚至胶片画面着色和还原的技术。它是由Jason Antic开发的，并且仍在更新中。现在，这是对黑白图像进行着色的最新技术，并且所有内容都是开源的，但是稍后我们将再次讨论。

COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning [23]

顾名思义，它使用Transformer将视频及其一般描述作为输入来为视频的每个序列生成准确的文本描述。

Stylized Neural Painting [24]

这种图像到绘画的翻译方法，该使用一种新颖的方法模拟多种样式的真实画家，并且该方法不涉及任何GAN架构，这与所有当前的最新方法不同！

Is a Green Screen Really Necessary for Real-Time Portrait Matting? [25]

人脸消光是一项非常有趣的任务，目标是在图片中找到任何人并从中删除背景。由于任务的复杂性，必须找到具有完美轮廓的一个或多个人，这确实很难实现。在本文中，我将回顾这些年来使用的最佳技术以及一种将于2020年11月29日发布的新颖方法。许多技术都在使用基本的计算机视觉算法来完成此任务，例如GrabCut算法，该算法非常快，但不是非常精确

ADA: Training Generative Adversarial Networks with Limited Data [26]

借助NVIDIA开发的这种新的训练方法，您可以使用十分之一的图像训练强大的生成模型！使许多无法访问太多图像的应用程序成为可能！

Improving D百思特网ata‐Driven Global Weather Prediction Using Deep Convolutional Neural Networks on a Cubed Sphere [27]

当前的传统天气预报方法使用了我们所谓的"数值天气预报"模型。它使用大气和海洋的数学模型根据当前条件预测天气。它于1920年代首次引入，并在1950年代使用计算机模拟产生了逼真的结果。这些数学模型可用于预测短期和长期预测。但是它的计算量很大，无法将其预测基于像深度神经网络一样多的数据。这就是为什么它如此有前途的部分原因。这些当前的数值天气预报模型已经使用机器学习来改进预报作为后处理工具。天气预报越来越受到机器学习研究人员的关注，已经产生了很好的效果。

NeRV: Neural Reflectance and Visibility Fields for Relighting and View Synthesis [28]

这种新方法能够生成完整的3维场景，并具有确定场景照明的能力。与以前的方法相比，所有这些都具有非常有限的计算成本和惊人的结果。

如您所见，这是人工智能领域非常有见地的一年，我很高兴看到2021年会发生什么！我一定会覆盖最激动人心和有趣的论文，

作者：Louis Bouchard

原文地址
https://github.com/louisfb01/BestAIpaper_2020

最后所有的论文列表在这里：

[1] A. Bochkovskiy, C.-Y. Wang, and H.-Y. M. Liao, Yolov4: Optimal speed and accuracy of object detection, 2020. arXiv:2004.10934 [cs.CV].

[2] S.-Y. Chen, W. Su, L. Gao, S. Xia, and H. Fu, "DeepFaceDrawing: Deep generation of face images from sketches," ACM Transactions on Graphics (Proceedings of ACM SIGGRAPH2020), vol. 39, no. 4, 72:1–72:16, 2020.

[3] S. W. Kim, Y. Zhou, J. Philion, A. Torralba, and S. Fidler, "Learning to Simulate DynamicEnvironments with GameGAN," in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun. 2020.

[4] S. Menon, A. Damian, S. Hu, N. Ravi, and C. Rudin, Pulse: Self-supervised photo upsampling via latent space exploration of generative models, 2020. arXiv:2003.03808 [cs.CV].

[5] M.-A. Lachaux, B. Roziere, L. Chanussot, and G. Lample, Unsupervised translation of programming languages, 2020. arXiv:2006.03511 [cs.CL].

[6] S. Saito, T. Simon, J. Saragih, and H. Joo, Pifuhd: Multi-level pixel-aligned implicit function for high-resolution 3d human digitization, 2020. arXiv:2004.00452 [cs.CV].

[7] J. Naruniec, L. Helminger, C. Schroers, and R. Weber, "High-resolution neural face-swapping for visual effects," Computer Graphics Forum, vol. 39, pp. 173–184, Jul. 2020.doi:10.1111/cgf.14062.

[8] T. Park, J.-Y. Zhu, O. Wang, J. Lu, E. Shechtman, A. A. Efros, and R. Zhang,Swappingautoencoder for deep image manipulation, 2020. arXiv:2007.00653 [cs.CV].

[9] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P.Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S.Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei,"Language models are few-shot learners," 2020. arXiv:2005.14165 [cs.CL].

[10] Y. Zeng, J. Fu, and H. Chao, Learning joint spatial-temporal transformations for video in-painting, 2020. arXiv:2007.10247 [cs.CV].

[11] M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan, and I. Sutskever, "Generative pretraining from pixels," in Proceedings of the 37th International Conference on Machine Learning, H. D. III and A. Singh, Eds., ser. Proceedings of Machine Learning Research, vol. 119, Virtual: PMLR, 13–18 Jul 2020, pp. 1691–1703. [Online]. Available:http://proceedings.mlr.press/v119/chen20s.html.

[12] Xinrui Wang and Jinze Yu, "Learning to Cartoonize Using White-box Cartoon Representations.", IEEE Conference on Computer Vision and Pattern Recognition, June 2020.

[13] S. Mo, M. Cho, and J. Shin, Freeze the discriminator: A simple baseline for fine-tuning gans,2020. arXiv:2002.10964 [cs.CV].

[14] K. Sarkar, D. Mehta, W. Xu, V. Golyanik, and C. Theobalt, "Neural re-rendering of humans from a single image," in European Conference on Computer Vision (ECCV), 2020.

[15] G. Moon and K. M. Lee, "I2l-meshnet: Image-to-lixel prediction network for accurate 3d human pose and mesh estimation from a single rgb image," in European Conference on ComputerVision (ECCV), 2020

[16] J. Krantz, E. Wijmans, A. Majumdar, D. Batra, and S. Lee, "Beyond the nav-graph: Vision-and-language navigation in continuous environments," 2020. arXiv:2004.02857 [cs.CV].

[17] Z. Teed and J. Deng, Raft: Recurrent all-pairs field transforms for optical flow, 2020. arXiv:2003.12039 [cs.CV].

[18] Z. Li, W. Xian, A. Davis, and N. Snavely, "Crowdsampling the plenoptic function," inProc.European Conference on Computer Vision (ECCV), 2020.

[19] Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao, and F. Wen, Old photo restoration via deep latent space translation, 2020. arXiv:2009.07047 [cs.CV].

[20] Lechner, M., Hasani, R., Amini, A. et al. Neural circuit policies enabling auditable autonomy. Nat Mach Intell 2, 642–652 (2020). https://doi.org/10.1038/s42256-020-00237-3

[21] R. Or-El, S. Sengupta, O. Fried, E. Shechtman, and I. Kemelmacher-Shlizerman, "Lifespanage transformation synthesis," in Proceedings of the European Conference on Computer Vision(ECCV), 2020.

[22] Jason Antic, Creator of DeOldify, https://github.com/jantic/DeOldify

[23] S. Ging, M. Zolfaghari, H. Pirsiavash, and T. Brox, "Coot: Cooperative hierarchical trans-former for video-text representation learning," in Conference on Neural Information ProcessingSystems, 2020.

[24] Z. Zou, T. Shi, S. Qiu, Y. Yuan, and Z. Shi, Stylized neural painting, 2020. arXiv:2011.08114[cs.CV].

[25] Z.百思特网 Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan, and R. W. Lau, "Is a green screen really necessary for real-time portrait matting?" ArXiv, vol. abs/2011.11961, 2020.

[26] T. Karras, M. Aittala, J. Hellsten, S. Laine, J. Lehtinen, and T. Aila, Training generative adversarial networks with limited data, 2020. arXiv:2006.06676 [cs.CV].

[27] J. A. Weyn, D. R. Durran, and R. Caruana, "Improving data-driven global weather prediction using deep convolutional neural networks on a cubed sphere", Journal of Advances in Modeling Earth Systems, vol. 12, no. 9, Sep. 2020, issn: 1942–2466.doi:10.1029/2020ms002109

[28] P. P. Srinivasan, B. Deng, X. Zhang, M. Tancik, B. Mildenhall, and J. T. Barron, "Nerv: Neural reflectance and visibility fields for relighting and view synthesis," in arXiv, 2020.