每個科技時代,都有每個時代的“入口”和“推手”。
在PC時代,瀏覽器和搜索引擎是主要入口,用戶通過鍵盤和鼠標進行交互。移動互聯時代,APP和應用商店成為典型入口,用戶用手指和觸摸屏進入互聯網世界。而在眼下的AI時代,業內已經把語音交互當做重要入口,它提供了一種更為豐富、自然和便捷的交互體驗。
縱觀歷史,每一個抓住入口、推動時代發展的企業,反過來也能掌握競爭主動權,獲得長期發展動力。比如,PC時代的谷歌,移動互聯時代的蘋果等等。
因此,如今很多大廠都在圍繞語音交互展開深度布局,力圖搶占AI時代的戰略要地。其中,就國外和國內而言,OpenAI和科大訊飛成為最受關注的兩家企業。
今年5月,OpenAI 發布GPT-4o,展現出更為強勁的語音交互能力。比如,更快的響應速度、更自然的語音等等。但遺憾的是,GPT-4o目前還沒有向國內用戶開放,大部分人無法親自感受各種體驗。
很多人不知道的是,國內的科大訊飛不僅做到了對標GPT-4o的語音交互體驗,而且還能讓人搶先體驗。
今年8月19日,科大訊飛發布了星火極速超擬人交互技術,在響應和打斷速度、情緒感知情感共鳴、語音可控表達、人設扮演四個方面實現巨大突破。這項技術將于今年8月底在訊飛星火App上全民開放使用,普通用戶也能親自感知。
在最近的科大訊飛2024年上半年業績說明會上,《一點財經》觀察到科大訊飛董秘江濤親自演示星火極速超擬人交互技術,由此更直觀地看到了這項技術的操作體驗。
不得不說,科大訊飛雖然在研發上大力投入,但在宣傳上的力度著實不夠。其實,這項技術能對行業變革產生深度影響。與此同時,科大訊也在積攢技術勢能,未來預計會釋放出強勁的發展動能。
語音交互的“理想”與“現實”
2014年,一部講述人類與AI愛情的電影《Her》收獲了超高人氣,還獲得了奧斯卡最佳原創劇本獎。
電影中,男主角西奧多的工作是給不善表達感情的人代寫情書。他有語音操控的隨身設備,能夠直接用語音輸入信件內容、進行打印等等。日常生活中,他還能通過語音收聽歌曲、接收郵件和新聞。
讓很多觀眾浮想聯翩的是,西奧多遇到了一個AI機器人“薩曼莎”,她擁有溫情的聲線,不僅非常體貼還很懂西奧多。在跟“薩曼莎”的長期語音交流中,西奧多墜入愛河,開始了一段“人機戀”。
十年以來,這部電影里的科幻場景不斷照進現實,各種語音交互產品和技術持續迭代,豐富著用戶的語音交互體驗。
不過,很多用戶還是感覺跟想象中的體驗有落差。因為市面上語音交互技術普遍存在痛點,包括響應遲鈍、難以共情、個性化不足、端點檢測困難等問題。
簡而言之,現在許多語音交互技術機器的味道還是太重,擬人的感覺不足,沒能提供足夠的情緒價值。這一方面導致用戶體驗不佳,另一方面阻礙了行業發展,需要有企業來破除痛點,充當行業發展的推手。
目前來看,科大訊飛就是一個重要的推手。其推出的星火極速超擬人交互技術在四個方面極大提升了用戶體驗——“響應和打斷速度、情緒感知情感共鳴、語音可控表達、人設扮演”,總結下來就是:
不僅在響應上有速度,而且在情感上有溫度,能夠提供更多的情緒價值。
1、響應上的速度
用戶進行語音交互的過程中,都想獲得更快的響應,達到“召之即來”的效果。并且在中途頻繁打斷的情況下,希望能夠迅速重新響應。
然而,目前主流的語音交互應用中,從用戶提出問題到應用響應大多需要2-2.5秒,會明顯感覺到停頓,中途打斷后響應的時間更長,這就會影響用戶的交互節奏和智能體驗。
而星火極速超擬人交互技術帶給人的首個感受就是“快”,其讓響應時間縮短到了0.9秒,幾乎感覺不到停頓。另外,用戶還可以隨時打斷、插話,它依然能做到迅速響應。
這意味著,通過星火極速超擬人交互技術,用戶可以獲得更加貼近日常對話的現實體驗。
2、情感上的溫度
在語音交互過程中,如果能夠及時響應,但回應的卻是冷冰冰的話語,用戶的交互欲望和熱情必然會降低,因為沒有人愿意面對一個沒有溫度的機器。
傳統指令型語音技術,只能通過對某些特定發音的識別給出響應,情緒感知能力不足,而星火極速超擬人交互技術進行了明顯的提升。其不僅能夠根據語音判斷用戶情緒,包括高興、悲傷、生氣、害怕等等,還能識別咳嗽、寵物叫聲等非語言信號,跟用戶之間產生更深層次的情感共鳴。
如果只能分別情緒,不能情緒化地回應,用戶的感知度也不會很明顯。星火極速超擬人交互技術在表達方式上更加靈活,可以根據用戶的指令控制數十種情感、風格、方言,甚至自動調節語速、語氣和情緒,讓對話更有溫度從而直入人心。
另外,星火極速超擬人交互還有一個優勢就是能夠“選角色”,其支持多種人設的任意切換,用戶可以與孫悟空、蠟筆小新、小豬佩奇等角色進行互動,感受到跟不同角色對話的樂趣。
可以說,以往的語音交互技術體驗起來更像機器,而星火極速超擬人交互更像人類,大大提升了用戶體驗。這種進化背后,在于科大訊飛進行了長期的技術研發和積累。
語音交互進化史:技術才是硬道理
語音交互進化史,就是一部技術迭代史。
最早的語音交互技術,可以追溯到上世紀60年代。當時的語音交互技術主要基于規則,也就是將語音按照語法等規則進行分析和生成,然后根據設定好的語句進行回應。
這種方法的智能度和靈活度都很低,只能進行某些特定任務,比如查詢天氣、訂票等,稍微復雜一些的指令就無法操作。
上世紀90年代,語音交互技術進入新的階段,也就是基于統計模型。這種方法不再依賴于固定規則,而是利用概率論建立交互模型,根據上下文生成最合適的回應。這種方法相對可以處理更多指令,也能適應不同的場景需求。
2006年,隨著深度學習技術興起,語音交互技術有了質的飛躍,可以自動學習語音信號的復雜特征,從而進入DNN(深度神經網絡)時代。比如,RNN(循環神經網絡)是一種能夠處理序列數據的神經網絡。它具有長期記憶能力,可以用于處理連續的語音特征,從而提高識別準確率。
此后,語音交互技術在持續進化,比如CNN(卷積神經網絡)、DFCNN(深度全序列卷積神經網絡)等等,用戶體驗也在持續升級。在技術進化浪潮中,科大訊飛一直站在潮頭浪尖。
早在2012年,科大訊飛就將BN-feature和NDD-HMM兩套深度學習方案上線了訊飛輸入法和語音開放平臺,由此成為國內首個上線深度學習語音識別商業系統的機構,將實際場景中語音識別的準確率從60%提升到了88%左右。
到現在,星火極速超擬人交互采用的是統一神經網絡,直接實現語音到語音端到端建模,這是一種被驗證為能力更強的技術方案。
因為傳統的語音識別系統一般由多個模塊組成,包括聲學模型、語言模型和發音詞典等。而端到端建模將這些模塊合并為一個整體,實現了原始語音信號到最終文本的直接映射,這就給語音交互帶來了許多提升。
首先,端到端建模簡化了傳統語音識別系統的復雜度、減少了模塊之間的集成難度。其次,它可以更好地外理語音信號中的噪聲和變異,提高了系統的魯棒性,即抵御外界干擾和保持穩定的能力。此外,它還具有更快的訓練和推理速度,適用于實時場景。
星火極速超擬人交互的技術優勢背后,在于科大訊飛持續進行研發投入和積累。
根據科大訊飛最新發布的2024年上半年財報,報告期內其營收93.25億元,比上年同期增長18.91%。值得注意的是,公司研發投入21.9億元,同比增長32.23%,占營收比重達23.5%。
在企業發展因子中,營銷、宣傳等淺層次的是“快變量”。短期內,它們能夠發揮一時的成效,但也會呈現不穩定和低門檻的特征。
深層次則是“慢變量”,比如技術、研發等等。它們前期需要大量的投入,就像推動一個靜止的輪子,投入到一定程度后輪子會越轉越快,從而迸發出“飛輪效應”,最終轉化為出色的技術和產品以及堅固的護城河。此次,科大訊飛推出星火極速超擬人交互技術就是一個典型。有時候,“慢”反而意味著“快”。
其實,星火極速超擬人交互技術背后的大模型能力,同樣具備龐大的想象空間。
眺望未來:大模型重塑語音產業
如今,“大模型+”就像當年的“互聯網+”給與市場無限想象力。
在大模型的熱風之下,許多產業都值得被重塑一遍,其中就包括汽車、機器人、消費電子、家電等領域。在大模型落地方面,科大訊飛通過星火大模型云邊端一體化、軟硬件一體化的全場景布局,這讓其能夠滿足多個復雜場景對大模型的需求,進而摘取多元的產業紅利。
先說汽車領域。今年上半年,中國汽車產銷量分別達1389.1萬輛和1404.7萬輛,依然保持全球第一。出口總量達348萬輛,同比增長25%,火熱態勢依舊。目前,中國汽車出海十強企業中,有8家企業和科大訊飛合作。未來,汽車的趨勢必然是智能化。而大模型的賦能,可以提升智能座艙、智能駕駛等多個方面的用戶體驗,助力中國汽車產業的增長。
比如,自2011年科大訊飛率先完成汽車語音國產化,車載語音已經成為中國汽車市場的標配,但在海外仍受制于單一語種的制約。今年星火語音大模型發布72個語種/方言免切換對話,并通過云邊端及軟硬一體化解決方案可以大大提升智能座艙體驗。另外,科大訊飛還研發出基于星火大模型的用車助手,能夠實時監測理解車輛狀況,精準解答用戶對用車的問題。
科大訊飛方面透露,公司汽車智能化產品合作已覆蓋90%以上的中國主流自主品牌和合資品牌車廠。最新財報顯示,科大訊飛汽車業務也延續了強勁的增長勢頭,上半年實現營收3.5億元,同比增長65.49%。
跟汽車一樣,機器人同樣是未來的重要趨勢。
尤其是人形機器人的前景非常可觀,據《人形機器人產業研究報告》預測,2024年中國人形機器人市場規模將達到約27.6億元,到2029年達到750億元,將占世界總量的32.7%,占比位居世界第一。
大模型的思維鏈推理能力,能夠明顯提升機器人對于復雜任務的理解能力,并提供符合常識的任務拆解與規劃。尤其是具身感知模型與具身決策模型的結合,能夠進一步提升人形機器人在真實場景下的多模態感知與理解能力。
在復雜任務拆解、開放場景物體識別、多模態感知與理解等方面,星火大模型明顯提升了人形機器人的智能水平。在最近的在2024世界機器人大會,科大訊飛亮相了“大模型+具身智能”的人形機器人最新進展:
整體運動性能提升2倍,復雜任務拆解成功率超過95%,交互能力、運動性能進一步提升。
另外在產業賦能上,訊飛機器人超腦平臺已賦能420家機器人企業,深度鏈接1.5萬機器人開發者,與優必選、宇樹科技、智元機器人、銀河通用等人形機器人企業形成廣泛合作,未來預計有著充足的想象空間和強勁的產業推動力。
除了機器人,大模型浪潮也正在向消費電子終端和家電領域蔓延。
包括智能手機、智能辦公本、學習機等在內的消費電子終端的規模非常龐大,《2024年數字經濟報告》顯示到2029年全球物聯網設備數量將增至390億部。如果用大模型讓每臺終端都變得更智能,從而提升用戶體驗,也能創造更大的市場空間。中商產業研究院預測,2023年中國智能硬件市場規模將達到14031億元,預計2024年增至達15033億元。
以科大訊飛智能辦公本X3為例,其搭載了最新的訊飛星火智能技術,實現語音轉文字、智能筆記整理、多語種翻譯等高效辦公功能。用戶只需簡單操作,就能將會議內容、演講要點等語音信息實時轉化為文字記錄。這不僅大大提高了用戶工作效率,也助力了科大訊飛智能硬件業務的增長。根據最新發布的2024年半年報,科大訊飛智能硬件業務實現營收9億元,同比增長56.61%,增速遠超行業平均水平。
隨著新一輪以舊換新熱潮來襲,家電市場也迎來新的市場增量。而家電與大模型的結合,能夠為用戶創造更智慧的家居生活,也能為家電廠商、技術提供商帶來新的增長點。
比如,搭載訊飛星火認知大模型的電視語音助手將升級為全能的家庭中心,能夠輕松應對日程管理、智能家居控制等操作,也能讓孩子跟電視語音助手直接對話,練習口語、獲取知識等等,打造出新的教育場景。三星就結合訊飛星火認知大模型的能力,讓電視語音助手具備深層次理解、內容生成和知識問答等能力,極大提升了用戶體驗。
如今,星火大模型正成為教育、醫療、能源、汽車、家電、機器人等多個重要領域落地的首選。其不僅為AI時代的入口探索出更多可能性,也在結合實際場景進行應用落地,為用戶真正帶來技術紅利,為企業創造經濟效益,其本身也能夠獲得發展動能。
結語
《底層邏輯》一書中提出“戰略勢能”的概念,形象地說把一塊石頭抬到較高的山頂上就儲備了勢能。石頭向下滾動時,勢能就轉化為了動能。
現在的科大訊飛,正處在積蓄戰略勢能的時候,需要克服困難大量投入。隨著各項技術的深入和落地,戰略勢能將持續轉化為發展動能,其未來是值得期待的。