产品广告视频制作做排名优化

张小明 2026/1/3 15:10:29
产品广告视频制作,做排名优化,建设银行征信中心个人信用查询官方网站,网页翻译功能为什么需要用transformer?在没有transformer的时候#xff0c;我们都是用什么来完成这系列的任务的呢#xff1f;其实在之前我们使用的是RNN#xff08;或者是其的单向或者双向变种LSTM/GRU等#xff09; 来作为编解码器。RNN模块每次只能够吃进一个输入token和前一次的隐…为什么需要用transformer?在没有transformer的时候我们都是用什么来完成这系列的任务的呢其实在之前我们使用的是RNN或者是其的单向或者双向变种LSTM/GRU等 来作为编解码器。RNN模块每次只能够吃进一个输入token和前一次的隐藏状态然后得到输出。它的时序结构使得这个模型能够得到长距离的依赖关系但是这也使得它不能够并行计算模型效率十分低。transformer模型2017年google的机器翻译团队在NIPS上发表了Attention is all you need的文章开创性地提出了在序列转录领域完全抛弃 CNN和RNN只依赖Attention-注意力结构的简单的网络架构名为Transformer论文实现的任务是机器翻译。Transformer进行机器翻译的结构仍然是编码器-解码器结构但是在编码器和解码器内部采用了Self-Attention机制。这个想法是在语言的翻译过程中不只有从目标语言到源语言的联系目标语言和源语言内部同样存在联系可以认为语法也包括在内因此可以通过一个自注意力机制来捕捉这种联系Transformer的结构如图左侧即为编码器右侧为解码器 编码器由N个block堆叠而成每个block有两层第一层是论文提出的Multi-Head Attention模型的Self-Attention就是由这个模块学习的之后经过残差连接和LayerNorm输入下层第二层是一个前向网络同样经过残差连接和LayerNorm输入下个Block如此反复第N个Block的输出会输入到解码器的各层中。解码器同样由N个Block堆叠而成但是每个Block分为三层第一层是和编码器一样的Self-Attention第二层是接收编码器输出的Multi-Head Attention这一层是目标语言对源语言的Co-Attention第三层是和编码器第二层一样的前向层。基本结构Transformer 结构可一句话概括由输入、6 层堆叠的编码器块、6 层堆叠的解码器块以及经线性层和 Softmax 的输出组成 实现序列到序列的转换。输入模块输入模块要解决两个关键问题词的语义怎么表示 以及 词的顺序怎么体现 对应到模块里就是词向量化词 Embedding 位置 Embedding 的组合。以“我有一只猫”为例此句一共有4个词比如句子 “我 有 一只 猫”每个词token都要转换成向量。具体的转换过程灰色方格这些字经过词 Embedding会变成一组浮点数浅蓝色方格语言光有语义还不够顺序也很重要所以得给每个词的位置加编码。右侧的公式就是就是用正弦、余弦函数给位置做标记区分一句话里词的先后顺序。 蓝色方格最后词 Embedding 和位置 Embedding 相加得到每个词的最终输入向量 最后形成的输入行数是词的数量列数是词向量维度。每个方格的浮点数就是融合了语义 位置的编码结果模型后续的注意力机制、前馈网络都基于这些向量 “理解” 句子enconder blockenconder block是6个堆叠在一起组成的。每一个小的encoder有包括自注意力、前馈神经网络以及他们的中间链接部分。 下面将详细介绍 一个编码器接收向量列表作为输入接着将向量列表中的向量传递到自注意力层进行处理然后传递到前馈神经网络层中将输出结果传递到下一个编码器中在每个编码器中的每个子层自注意力、前馈网络的周围都有一个残差连接并且都跟随着一个“层-归一化”步骤。Decoder block同encoder一样Decoder解码器Transformer的解码器由6个相同的层组成每层包含三个子层掩蔽自注意力层、Encoder-Decoder注意力层和逐位置的前馈神经网络。每个子层后都有残差连接和层归一化操作简称AddNorm。这样的结构确保解码器在生成序列时能够考虑到之前的输出并避免未来信息的影响。Encoder-Decoder 工作过程编码器输出编码器处理完输入序列后会生成一组上下文向量。这些向量被分解成 键向量 K 和 值向量 V Encoder-Decoder 解码器在生成每个词时会基于当前的隐藏状态生成 查询向量 Q。计算方式与自注意力类似只不过这时Q 来自解码器本身K,V 来自编码器的输出。这样解码器就能“对齐”输入序列决定应该关注输入的哪些部分。 逐步生成解码器利用跨注意力层得到的上下文信息结合已生成的部分预测下一个词。 每生成一个新词就把它作为输入反馈给解码器直到生成终止符号。输出层解码组件最后会输出一个实数向量。我们如何把浮点数变成一个单词这便是线性变换层要做的工作它之后就是Softmax层。线性变换层是一个简单的全连接神经网络它可以把解码组件产生的向量投射到一个比它大得多的、被称作对数几率logits的向量里。此页的图片是从底部以解码器组件产生的输出向量开始。之后它会转化出一个输出单词。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

企业网站功能介绍用服务器建立网站吗

如何在 VSCode 插件中集成 Stable Diffusion 3.5 FP8?完整配置教程你有没有过这样的经历:正在写一份产品文档,突然灵光一闪——“如果能在这里直接生成一张配图该多好”?但现实是,你得切换到浏览器、打开 WebUI 工具、…

张小明 2026/1/2 14:27:25 网站建设

做网站要那些设备软文推广有哪些

Hyper-V 虚拟机配置与管理全解析 1. NUMA 配置 在进行 NUMA 配置时,可按以下步骤操作: 1. 打开设置对话框中的 NUMA 配置页面。 2. 在 NUMA 拓扑框中,设置以下参数: - 最大处理器数量 - 最大内存量(MB) - 每个插槽允许的最大 NUMA 节点数 3. 点击“确定”。 2. …

张小明 2026/1/3 14:40:59 网站建设

临沂在线上网站建设win7搭建wordpress

Linly-Talker在企业年报可视化解读中的高级应用 在上市公司披露季,投资者常常面对动辄上百页的年报文档:密密麻麻的财务数据、晦涩的专业术语、冗长的管理层讨论……即便是机构分析师也需要花费数小时才能提炼出核心信息。而对于广大散户和普通公众而言&…

张小明 2026/1/2 14:27:27 网站建设

如何免费推广自己的网站荣耀手机商城官方网站

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个多语言代码展示面板,并列呈现:Python的join()、JavaScript的join()、Java的String.join()、Go的strings.Join()、PHP的implode()、Ruby的join()、C#…

张小明 2026/1/2 14:27:26 网站建设

建立网站需要什么硬件台州网站建设哪家公司好

Conda环境克隆与PyTorch-CUDA开发环境的高效构建 在深度学习项目中,最让人头疼的往往不是模型调参或数据清洗,而是“为什么代码在我机器上能跑,在你那里就报错?”——这种经典的“环境地狱”问题几乎困扰过每一位AI开发者。尤其当…

张小明 2026/1/2 14:27:26 网站建设

网站维护费用一年多少百度网页版入口页

FaceFusion镜像资源占用监控:GPU显存使用情况在如今生成式AI应用快速落地的背景下,人脸替换技术已从实验室走向影视、社交、电商等多个实际场景。FaceFusion 作为一款功能强大且开源的人脸融合工具,凭借其高质量的换脸效果和灵活的部署方式&a…

张小明 2026/1/2 14:27:28 网站建设