人工智能

Image GPT 解析

Blog：https://openai.com/blog/image-gpt/ Paper：https://cdn.openai.com/papers/GenerativePretrainingfromPixelsV2.pdf 前言此篇文章是OpenAI GPT方案用于图像领域 »

Learning Spatio-Temporal Transformer for Visual Tracking 论文地址：https://arxiv.org/abs/2103.17154 1、参考初衷近来由于Transformer在NLP领域实现的强大功能和持续进展，在CV »

1、摘要随着NLP技术的发展，越来越多的新的预训练架构不断刷榜，包括自回归模型(例如GPT)、自动编码模型(例如 BERT)和编码器-解码器模型(例如 T5)。自然语言处理任务在本质可以分为分类、无条件生成和条件生成。但是，目前没有一个预训练框架能够很好 »

1、摘要 Transformer对于序列建模是非常强大的。几乎所有最先进的语言模型和预先训练的语言模型都基于 Transformer 体系结构。然而，它仅仅使用标记位置索引区分顺序标记。论文中作者提出一个假设：更好的上下文表示是不是可以从Transform »

1、摘要 Transformer不适合处理长文件输入，因为，随着文本长度的增加，消耗的内存和时间是N2的指数级增加。也有很多学者，通过截断一个长文档或应用稀疏注意机制，在一定程度上可以解决上下文碎片问题，但起到的作用有限。在这篇文章中，作者提出了一个预训练 »

1 Frp介绍 frp 是一个开源、简洁易用、高性能的内网穿透和反向代理软件，支持 tcp, udp, http, https等协议。frp 项目官网是 https://github.com/fatedier/frp， frp工作原理服务端运行，监听一个主端口，等待客户端的 »

1、摘要这篇论文主要研究了数据集上如何有效地使用 BERT finetune问题，首先，论文提到在BERTADAM 优化器中遗漏了梯度偏差校正，不利于模型的finetune，尤其是在小数据集上，训练初期，模型会持续震荡，进而会降低整个训练过程的效率，减慢 »

Paper 背景采用神经网络进行天气预报，我们从2014年便开始尝试，不同于传统的基于物理模型的模式推演，神经网络更多的是基于数据冲刷的自主模型学习和预测。从最开始的普通CNN（卷积神经网络）、RNN（递归神经网络）、LSTM（长短时记忆网络），到现在更复杂的Resnet（ »

1、摘要基于 transformer 的模型的巨大成功得益于强大的多头自我注意机制，该机制从输入中学习token依赖并编码语境信息。先前的工作主要致力于针对具有不同显著性度量的单个输入特性的贡献模型决策，但是他们没有解释这些输入特性如何相互作用以达到预测 »

by 方祖亮 1 引言神经网络的本质是连接，通过加深网络层数，能逐渐扩大信息捕获范围(感受野)，最终实现全局信息的有效整合和加工。 1.1 卷积的两个问题 1.1.1 感受野不够在Attention机制提出来之前，主流的扩大感受野的方法是卷积Conv和池化Pool操作(本质上 »