IT资讯音视频技术开发周刊：AV2 开发进程回顾；语音识别未来十年还能做什么？

jan · 2021-09-06 14:30:06 · 热度: 148

音视频技术开发周刊：AV2 开发进程回顾；语音识别未来十年还能做什么？

在检测到无论是真是假的丢包后，拥塞控制算法能做的事情非常少，即使拥塞控制算法断定这是一次与拥塞无关的丢包甚至根本就没有丢包，拥塞状态机依然要拿回控制权，拥塞控制算法只能等待undo。

音视频技术开发周刊：AV2 开发进程回顾；语音识别未来十年还能做什么？

网络架构之争：三大主流架构对决，谁是王者？深入思考CNN、Transformer与MLP

本文是中科大&MSRA在DNN的CNN、Transformer以及MLP三大流派纷争方面的一点深入思考。为分析不同架构的特性，作者首先构建了一个统一架构SPACH将Mixing做成可配置型，以此为基础上CNN、Transformer以及MLP进行挖掘得出：多阶段优于单阶段、局部建模非常重要以及CNN与Transformer的互补性。基于所挖掘特性构建了一种CNN与Transformer混合模型，所得模型仅需63M参数量即可在ImageNet数据集上取得83.9%的top1精度，优于Swin-B、CaiT-S36。

音视频技术开发周刊：AV2 开发进程回顾；语音识别未来十年还能做什么？

AV1，实时编码READY

一款编码器的成功，不仅需要大量的金钱，还需要耐心。AV1定稿三年后，是时候为它庆祝了。

AV2 开发进程回顾

AV1 的部署正在进行中，但对后继编码器 AV2 的探索已经开始，本文是 ViCue 对 AV2 research branch 的介绍与性能对比测试。

基于决策树的 VVC 快速算法

本文来自 PCS 2021 SS1 的第六场演讲，主要介绍了 Kulupana 等人提出的一种基于决策树的 VVC 快速算法。

ICASSP2021：端到端的图像编码方法

基于深度学习的计算机视觉在图像领域应用越来越广泛，每天产生的图像数量爆发式增长，传统的图片编码器是面向人眼视觉而不是机器处理。本文提出基于神经网络（NN）的端到端学习的面向机器的图像编码器（Image Coding for Machines，ICM）。

传统编码新突破-适配复杂优化准则的自动编码优化框架

在智能分析应用场景中，对于多媒体数据压缩的度量准则不仅需要考虑人眼感知评价准则，也同时要考虑智能分析任务下的感知评价准则，因此相应的编码率失真优化策略也相应发生变化。然而，传统编码框架无法适配复杂优化准则进行自动的率失真优化比特分配，通常只能采用启发式的方法实现次优的结果。为解决这一根本挑战，我们突破性地通过强化学习技术解决传统编码框架无法支持梯度回传进行端到端优化的问题，构建统一的基于分级强化学习的比特分配框架（RSC-Reinforcement learning based Semantic Coding），分别自动进行帧级码率分配优化和编码块(CU)级的码率优化分配决策，进而决定最终的编码器优化参数选择策略，以适用于不同智能应用下的混合失真度量准则。我们将此方案在H.265标准参考编码软件上进行验证，实验表明，我们的方案可以在相同的任务精确度下，节省34.39% 到 52.62%的编码码率。

音视频技术开发周刊：AV2 开发进程回顾；语音识别未来十年还能做什么？

网易云信今年发布的WE-CAN有哪些亮点？

今年，网易云信发布了自研新一代大规模分布式传输网络WE-CAN(Communications Acceleration Network)。根据网易云信发布的信息，WE-CAN不仅可以大大提高端到端的通信质量，降低通信成本，并且能够适用于多种应用场景。LiveVideoStack近期采访了网易云信服务端首席架构师吉奇，和他一起讨论了WE-CAN的产生背景、优势和研发过程中遇到的挑战以及音视频的未来发展趋势等问题。

对话MPEG创始人Leonardo Chiariglione: MPEG精神将在MPAI中延续

作为MPEG的创始人，Leonardo Chiariglione曾将MP3、DVD和数字电视带进了千家万户。他近期出版了第一本书：The history of MPEG and how it made digital media happen，这本书讲述了MPEG 32年的辉煌历史，以及它如何通过标准化方法改变了通信的本质。在领导MPEG 32年之后，Leonardo Chiariglione去年宣布关闭MPEG，并创立了一个新的组织——MPAI（Moving Picture, Audio and Data Coding by Artificial Intelligence）。据他介绍，MPEG 的精神会在 MPAI 中得以延续。最近Leonardo Chiariglione接受了LiveVideoStack的邮件采访，在采访中，我们和他一起讨论了新书、MPEG 和 MPAI。下面是整理的采访稿。

音视频技术开发周刊：AV2 开发进程回顾；语音识别未来十年还能做什么？

从350ms到80ms，打造新零售场景下 iOS 短视频的极致丝滑体验

内容作为 App 产品新的促活点，受到了越来越多的重视与投入，短视频则是增加用户粘性、增加用户停留时长的一把利器。短视频的内容与体验直接关系到用户是否愿意长时停留，盒马也提出全链路内容视频化的规划，以实现商品力表达的提升。

拒绝卡顿，揭秘盒马鲜生 APP Android 短视频秒播优化方案

短视频作为内容重要的承载方式，是吸引用户的重点，短视频的内容与体验直接关系到用户是否愿意长时停留。因此，体验的优化就显得尤为重要。上一篇我们分享了 iOS 短视频秒播优化，这篇我们来聊聊 Android 端的优化。

揭秘版权保护下的视频隐形水印算法（下篇）

本文将介绍一些在变换域上操作的隐形水印算法，它们能够更好地应对各类攻击。

ffmpeg sws_scale 极致性能

经常用到 ffmpeg中的sws_scale来进行图像缩放和格式转换，该函数可以使用各种不同算法来对图像进行处理。忙里偷闲，对ffmpeg的这一组函数进行了一下封装，顺便测试了一下各种算法。

如何解决手机嗡嗡的噪声？| MLCC噪声解决方案

随着跨所有平台的系统速度继续升级，预计5G智能手机的总电容量将比4G的多30%以上——这与整个行业的其他应用正在发生的增长类似。因此，多层陶瓷电容器（MLCCs）也越来越受欢迎。但随着MLCC使用的增加，MLCC的噪声问题越来越突出。特别是对于笔记本电脑和手机等消费设备，通常用在安静的环境中，这些产品的MLCC噪声给人产品质量差的印象，因此很多终端用户无法接受。本文将提出实际的设计策略来规避这种影响，并介绍一些商业上可用的声学MLCC解决方案。

语音识别未来十年还能做什么？

从2010年到2020年的十年间，自动语音识别取得了显着进步。许多人现在每天都在使用语音识别，例如执行语音搜索查询、发送短信以及与语音助手进行交互。在2010年之前，大多数人很少使用语音识别。鉴于过去十年语音识别状态的显着变化，我们在未来十年可以期待什么？Zoom杰出科学家，曾任职于Facebook和百度硅谷的Awni Hannun最近写了一篇论文预测未来十年语音识别技术的发展（论文链接：https://arxiv.org/pdf/2108.00084.pdf）。在这篇论文中，作者首先回顾了过去十年（2010-2020）中，语音识别技术发展的时间线，接着给出了如何做预测的相关经验，最后预测了语音识别技术未来十年的研究热点和应用热点。

音视频技术开发周刊：AV2 开发进程回顾；语音识别未来十年还能做什么？

矩阵乘法无需相乘，速度提升100倍：MIT大佬的新研究引发热议

在一篇被 ICML 2021 接收的论文中，MIT 的一位计算机科学博士生及其业界大佬导师为矩阵乘法引入了一种基于学习的算法，该算法具有一个有趣的特性——需要的乘加运算为零。在来自不同领域的数百个矩阵的实验中，这种学习算法的运行速度是精确矩阵乘积的 100 倍，是当前近似方法的 10 倍。

动态多尺度卷积网络结构，清华、快手联合提出语种识别新方法

快手研究团队 MMU（Multimedia understanding）联合清华大学研究人员提出了一种基于音频信号的语种识别新方法。该方法自研一种动态多尺度卷积的新型网络结构，通过动态卷积核、局部多尺度学习和全局多尺度池化技术来捕获全局和局部上下文的语种 / 方言信息。目前该论文已经被国际顶级语音会议 Interspeech2021 所接收。

音视频技术开发周刊：AV2 开发进程回顾；语音识别未来十年还能做什么？

Seg3DOD: 基于目标分割与3D GIoU和L1联合损失的3D目标检测方法

中科院自动化所深度强化学习团队在IEEE Transactions on Neural Networks and Learning Systems上发表论文——“Seg3DOD：基于目标分割与3D GIoU和L1联合损失的3D目标检测方法”（ Boost 3-D Object Detection via Point Clouds Segmentation and Fused 3-D GIoU-L₁ Loss）。相比于2D目标检测，3D目标检测的信息维度高、难度大、速度慢。本论文将2D的GIoU损失引入到3D目标检测中，提出了3D的GIoU损失，并与L1损失联合，提升了3D检测精度。同时引入了点云分割方法减少anchors个数，提升了3D检测速度。

ICCV 2021 | 字节跳动提出面向GAN压缩的在线多粒度蒸馏算法，算力降至1/46

字节跳动 - 智能创作团队提出了一种用于学习轻量级 GAN 的在线多粒度蒸馏算法 OMGD。该算法能够把 GAN 模型的计算量减少到最低 1/46、参数量减少到最低 1/82 的程度，并保持原来的图像生成质量。

TCSVT | 基于因果上下文预测的图像压缩算法

基于神经网络的图像压缩算法发展迅速，主流的算法通常类似于自编码器，将输入图像变换到隐层变量并量化得到离散的隐层变量。为了利用离散隐层变量空域维度上的冗余，之前的工作利用超先验模型和上下文模型建立更高效的熵模块，可以得到更加有效的码率估计。但是之前工作中的熵模块其实有很大的拓展空间。一方面是隐变量全局的空域冗余没有被利用完全，另一方面，这种熵模型很难有效利用隐变量通道间的冗余。在我们的工作中，我们提出了分开熵编码的概念，利用时序性更强的熵解码过程，来实现基于因果上下文的隐变量预测。我们首先提出了因果上下文模块来利用通道间冗余，作为之前上下文模型的改进；我们然后提出了因果全局预测模块可以利用全局的相关性，实现不需要额外码流传输的全局预测。我们还采用了一种新的分组注意力层来改进变换网络的能力。实验证明，我们的方法在Kodak数据集上比VVC可以节省5.1%的码率（在PSNR指标衡量下）。

音视频技术开发周刊：AV2 开发进程回顾；语音识别未来十年还能做什么？

3D 人体姿态估计简述

3D Human Pose Estimation（以下简称 3D HPE ）的目标是在三维空间中估计人体关键点的位置。3D HPE 的应用非常广泛，包括人机交互、运动分析、康复训练等，它也可以为其他计算机视觉任务（例如行为识别）提供 skeleton 等方面的信息。

Facebook：Avatar VR头像系统已经可以模拟全身

两年前，Facebook Reality Labs公布了一款超逼真的虚拟头像系统Codec Avatar，该系统基于容积摄影等3D动捕技术，可在AR/VR中动态渲染高度还原的面部表情和特征，与真人样貌十分接近。而且五官、眉毛、胡子、肤色等特征看起来足够细节、自然。

音视频技术开发周刊：AV2 开发进程回顾；语音识别未来十年还能做什么？

激光雷达和相机联合标定之开源代码和软件汇总（2004-2021）

LiDAR Camera Calibration (LCC)系列，主要介绍激光雷达相机外参标定相关内容。本文主要介绍相关的开源代码和软件，主要包括target-based和targetless两类方法，每个方法对应标题后说明了方法的提出年份和开源代码的语言（c : c++, p: python, m: matlab）。

基于Range Image的自主车辆激光雷达定位（ICRA 2021）

在本文中，我们不使用从三维激光雷达传感器获得的原始点云或从点云中生成或学习的特征，而是研究基于三维激光雷达的Range Image自主车辆的定位。我们将点云投影到Range Image中，并通过用三角形网格表示的地图的渲染视图来实现自主移动系统的定位。使用Range Image表示和用网格表示的地图有几个原因：圆柱形的Range Image是机械式三维激光雷达自然且轻量级的表示，而网格地图比大型点云更紧凑。这些特性使我们的方法能够在大规模环境中实现全局定位。此外，网状地图的范围图像的渲染可以使用计算机图形技术有效地进行。因此，Range Image和网状地图是实现基于LiDAR的全局定位的完美搭配。

0 个赞 0 收藏

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。

IT资讯 音视频技术开发周刊：AV2 开发进程回顾；语音识别未来十年还能做什么？

IT资讯音视频技术开发周刊：AV2 开发进程回顾；语音识别未来十年还能做什么？