Segment-Aware Transformer

1、摘要   Transformer对于序列建模是非常强大的。几乎所有最先进的语言模型和预先训练的语言模型都基于 Transformer 体系结构。然而,它仅仅使用标记位置索引区分顺序标记。论文中作者提出一个假设:更好的上下文表示是不是可以从Transform »

ERNIE-DOC: 超长文本Transformer

1、摘要   Transformer不适合处理长文件输入,因为,随着文本长度的增加,消耗的内存和时间是N2的指数级增加。也有很多学者,通过截断一个长文档或应用稀疏注意机制,在一定程度上可以解决上下文碎片问题,但起到的作用有限。在这篇文章中,作者提出了一个预训练 »

使用frp配置内网穿透

1 Frp介绍 frp 是一个开源、简洁易用、高性能的内网穿透和反向代理软件,支持 tcp, udp, http, https等协议。frp 项目官网是 https://github.com/fatedier/frp, frp工作原理 服务端运行,监听一个主端口,等待客户端的 »

小数据集如何利用Bert进行Finetune

1、摘要   这篇论文主要研究了数据集上如何有效地使用 BERT finetune问题,首先,论文提到在BERTADAM 优化器中遗漏了梯度偏差校正,不利于模型的finetune,尤其是在小数据集上,训练初期,模型会持续震荡,进而会降低整个训练过程的效率,减慢 »

MetNet 神经网络预测天气解读

Paper 背景 采用神经网络进行天气预报,我们从2014年便开始尝试,不同于传统的基于物理模型的模式推演,神经网络更多的是基于数据冲刷的自主模型学习和预测。从最开始的普通CNN(卷积神经网络)、RNN(递归神经网络)、LSTM(长短时记忆网络),到现在更复杂的Resnet( »

ATTATTR:transformer自注意力特征归因算法

1、摘要   基于 transformer 的模型的巨大成功得益于强大的多头自我注意机制,该机制从输入中学习token依赖并编码语境信息。先前的工作主要致力于针对具有不同显著性度量的单个输入特性的贡献模型决策,但是他们没有解释这些输入特性如何相互作用以达到预测 »

视觉Attention概述:拥抱Attention

by 方祖亮 1 引言 神经网络的本质是连接,通过加深网络层数,能逐渐扩大信息捕获范围(感受野),最终实现全局信息的有效整合和加工。 1.1 卷积的两个问题 1.1.1 感受野不够 在Attention机制提出来之前,主流的扩大感受野的方法是卷积Conv和池化Pool操作(本质上 »