“计算机于中英文处理技术”重大社会性“低碳减排”技术践行之“声音、声征、声纹”篇

 寰球关注Climate Change及人类智能问题的华夏子孙们:


    美国“增智健体”活动经过多年的技术准备,在去年公布了一组彼此存在密切关联的社会性“低碳减排”重大举措,它们的核心内容均为“计算机于中英文处理”技术践行。目前欢迎各界民众积极了解并酌情参与的内容有:高校学生可在暑期⁰积极参与的本科阶段重大“低碳减排”技术践行、上海地区“按小时计租纯电力车辆租赁服务”经济实体¹创建活动、“从《上海史》到新旧《上海通史》及相关语料”研读活动等几种“计算机于中文处理”技术践行。

    现在已经是2024年末了,本活动继续公布一篇科普性质的短文,其目的是为同期发表的“2024年度‘计算机于中文处理’重大技术推介之二【年度重大‘低碳减排’技术践行】”文稿提供必要的技术说明²。多年前,本活动就已经指出,“计算机于中英文处理”技术的理论基础之一是给出文字性质的表达,且该文字内容完全符合爱因斯坦的著名论断³所指示的规范。该论断是As simple as possible, but never simpler,我们的中文翻译为:简单明了——恰如其‘份’。

    现在简单解释一下标题中的“声音、声征、声纹”等三个名词并概要说明技术内容。

    首先,由“2024年度…重大技术推介之二…”文章中邀请专业人士入场探讨的场内正式技术文稿的标题是:“让语音通讯真正为普通民众跨山越海——‘计算机于中文处理技术’之声音、声征、声纹篇”。

    声音⁴是典型的“现代汉语”单词,在上世纪初期的“新文化运动”之前,中文‘声’作名词的主要意思就是“现代汉语”中的“声音”一词,所以它不是一个技术术语。

    声纹(又称声学指纹)是“计算机于图像处理技术”发展到一定阶段,处理“人类指纹”图像的技术应用已经相当成熟之后,在信息技术领域开始流行起来的一个术语。它的英文表达可概述如下(参见WIKI条目)

    An acoustic fingerprint is a condensed digital summary, a digital fingerprint, deterministically generated from an audio signal, that can be used to identify an audio sample or quickly locate similar items in a music database.

   本活动所指声纹: 某个成年人在其语音的声学特征基本稳定之后,表征了该人士在语音交流时所有声波频谱信息(即个人声学特征)的数据集(Data Set⁵)。

   以通过手机传送的语音通讯为例子,如果人士A和人士B进行交谈,且双方的智能手机上均完全拥有对方的声纹及智能处理软件,那么一种假想的最低通信带宽“语音通讯”可通过如下方式实现,A&B之间的语音通讯是一种Speech-to-Text + pure-text-data-transfer + Text-to-Speech混合体。

   智能处理软件能够做到瞬时完美识别(即完成从语音到文字的工作,文字信息还需包括刻画每个单字的声强、音调等细节)及高保真度的重放(接受方根据完整的文字信息,从第一个字开始,高保真地复原由该完整的文字信息所对应的一段语音)。

   如果假定A&B之间快速对答⁶,A方完成一段语义完整语音信息之后,必须等待对方完全听取该信息后及回应,A还须听取以同样方式传回的语音信息后才能继续“对答”过程。因为与语音信息(完全由声频信号组成)相对应的“纯文本”文字信息在数据量上存在远超数量级的差别,大致可以假定“近乎完美”的“即时”pure-text-data-transfer可以“瞬时”完成,那么所叙述的“假想的最低通信带宽‘语音通讯’”的主要弊端是时长变为“实时语音通信”的两倍,但益处为,两端(A的手机及B的手机)在A端进行Speech-to-Text时,网络端仍然要求保持连接,但A&B之间实际传输数据量近似零;之后B端进行Text-to-Speech高保真度重放时,情况亦类似,也就是说,A的语音没有实时传输到B端,而A的语音所对应的pure-text-data因数据量极小,可以几乎瞬时完成传输,但A必须等待一段时间(该时长几乎等于A刚才说话的时间)让已经传输到B端的pure-text-data以高保真度的方式在B端手机重放一遍。这就是所谓的两倍时长。从B到A的通讯也是这样。

   敬请注意,上述最低通讯带宽的技术前提是A&B的声纹信息已经在自己和对方的手机上存在,且智能软件能够完美完成Speech-to-Text及Text-to-Speech操作。

   在讲述了“假想的”且基于“声纹”的“最低通讯带宽”快速对答Scenario之后,我们将“声征”⁷定义为“介于”声音(并非具备特定人类个体特征的声学声频Raw Data)和声纹(参见上面“所指声纹”段落)之间的一种数据类别,它具备以下两个更接近于声纹的特性:

Ⓐ不同个人的“声征”是“截然不同”的;

Ⓑ一个成年人的“声征”对于其非常熟练的语言(尤指语种)是相当稳定的。

   作为“2024年度…重大技术推介之二…”一文中技术基础部分的“声征”,在上述A&B之间通过智能手机所完成的快速对答应用中,A和B的智能手机也同时拥有两人的“声征”(Raw Data Set);与假想的最低通信带宽“语音通讯”不同的是,从实时语音通信开始的几乎同时,A端手机上的应用软件就开始以比语音信号至少低一个数量级的带宽向B发送由A“声征”所决定的指标数(或指标值)数据流⁸,B端手机上的应用软件在接收到指标数数据流的同时,在“恰当”⁹的时刻开始重放高保真度的、由A“声征”按指标数数据所合成的语音声频信号。以上是A向B说话的情形,B向A说话的情形正好相反。

   以下从社会性“低碳减排”技术践行的角度对比一下“语音通信”、假想的最低通信带宽“语音通讯”及基于“声征”的“语音通信”。

   以A、B之间5分钟快速对答为例,“语音通信”所涉及的声频信号总数据量估计为5M(百万字节),假想的最低通信带宽“语音通讯”中必须通过无线网络传输的pure-text-data至多不超过1K(千字节),这里的网络通讯数据量的数量级差别是5000:1。本活动为“2024年度…重大技术推介之二…”一文中所指基础编程员所规定的“声征”合格技术特征是“指标数数据流”的平均带宽至少比“声频信号”低一个数量级以上。

   最后,作为本短文的结束,我们在这里罗列一些与社会性“低碳减排”关系重大的数字及常识:

➀中国智能手机用户数约9亿(2020年数据),位居世界第一;

➁联合国能源署就“低碳减排”而言,根据《巴黎气候协定》(PA2015)为世界各主要工业国(包括中国)所设定的“碳中和”路线图的具体数值是: 化石燃料的逐年降幅为6%;

➂手机的基本功用是语音通信,智能手机比普通手机多出来的其它丰富功能主要依赖彩屏(视觉)实现,这在上述基于“声征”的“语音通信”时应完全关闭(彻底节能)

➃和传统手机不同,智能手机所配置的喇叭不仅仅为语音通讯所设计,因而功耗可观,同时智能手机高频天线的发射功耗也是“语音通信”时的主要能量消耗,且对人体(尤其是脑部)存在潜在危害。智能手机所支持的带话麦(或针对语音频率的防噪声拾音器)耳机¹⁰在大幅度减少天线发射电磁辐射对人产生危害的同时,也将扬声部分的功耗降到最低¹¹。

➄理解智能手机在实现基于“声征”的“语音通信”时的“低碳减排”效率,须认识清楚6%逐年降幅要持续多少年才能从现实水平降低一半,及何谓数量级的差别(尤其当所指是同等语音信息传输量条件下的无线网络基站间之通信器件能耗)。


⁰重点高校理工农三大类本科生可在每一学年的暑期参与;其它高校本科生如果在进入毕业季(大四)时所有基础课成绩均基本优良,可在最后一个暑期按三个技术方向参与该项非常有益于提升(参与者个人)中文语言能力的技术践行。

¹该经济实体的创建将基于“一组合约”且该合约的制订过程将得到本活动的全力技术支持。该经济实体的创建及初期运营将带动上海地区两个极其适宜小型民企创业的行业按照合理顺序展开,总体而言,“按小时计租纯电力车辆租赁服务”经济实体及其两个相关行业的建设会帮助上海地区在燃油方面产生极其明显的“社会性‘低碳减排’”效果,同时“速降”上海地区的大气污染本底。

²这些文字既是说明,同时也能看作技术内容的梗概。

³有关科学哲理方面的著名论述,其英文表达充分体现了最通用拼写文字(英语)的特性。

⁴指Voice,不是Sound。

⁵因为Data一词对专业编程工作者的普遍性,所以更明确的表达是Raw Data Set。

⁶这是技术上最富有挑战性的Scenario,因为如果不是快速对答的话,A方某段完整语音所对应的完整文字信息发送后,A方手机上的智能软件可以展开下一段语音的处理工作。这种假想的最低通信带宽“语音通讯”的弊端(即不实用性)就不那么明显。

⁷‘征’的繁体字是:徵,作名词讲时,有两种基本字义符合本文中“声征”概念,❶征验,指令人信服的证据;❷证验。指实际的效验。

⁸由于本活动专注于各种“高精尖”的“计算机于中英文处理”技术践行,“指标数”在语义上等同于“指标值”,技术内情及“数据流”的诸多参数详情将是“2024年度…重大技术推介之二…”一文中所讨论技术内容的基础性细节。

⁹敬请注意,此时“恰当”和“当下”词义接近。

¹⁰从降低能耗角度讲,最好选择有连线的迷你型设备。

¹¹高灵敏度话麦不是功耗器件,无需外来能源,仅靠正常声强的语音振动能即可较完美地转变成声频电信号。


谢谢您的阅读    

Comments

Popular posts from this blog

2024年十二轮基础性视频语料相关活动年度更新

上海地区理工农三大类高校生本科阶段重大“低碳减排”践行范例

从《上海史》到新旧《上海通史》及相关语料研读活动的进一步说明