当前位置 首页 科技大崛起 第十八章 语义识别的难点

《科技大崛起》第十八章 语义识别的难点

作者:划过指尖 字数:3268 书籍:科技大崛起

  “宁总,官网流量突然大增!”

  “超过预期了吗?”

  “超了……五倍!”一直关注着流量的程序员大喊了出来。这远远超过预期!

  宁熙言脸上无喜无忧,在宣传效果超过预期的时候,她就知道了会有这样的结果,因此一点也不吃惊。

  “很好,现在就逐步放出消息吧。”

  超越时代公司官网同样也是十分简洁。原版的官网是白色背景墙上有一个占据大半个屏幕的树影,以及一个树枝上的人影,除此之外再无他物。

  这个官网是罗辑设计的,灵感来源自然是脑海中的科技树。按照罗辑的设想,每一个枝杈都应该可以点击,并且每一个枝杈都代表是一个时代,这样才符合他脑海里的东西。

  宁熙言虽然不太理解这么设计的原因,但是感觉这个方案很具有科幻感,十分符合公司的定位,也没有太多的意见。

  不过由于简洁的太过分,第一次点进来的人,估计都不知道怎么浏览信息,就是额外添加了些元素。在背景墙上添加了一些浅绿色的绿叶虚影,而人影所在的树枝的绿叶则是深绿色的。

  这样就给人一种十分明显的提示,这地方是可以点击的。

  “这太炫酷了!”正操作着鼠标的朱成兴奋的叫了起来,他没有在第一时间浏览信息,反而来回在树叶上点了数次。

  这个主页设计的很有感觉,和国内最大化给予用户视觉饱满度的设计截然不同,在看惯了那种不放过任何空白的网站之后,这种变化让朱成有些不太适用,但是却感觉很轻松。

  “就凭这个官网,我相信语音识别是这家公司做的。”作为华夏网民,最烦的就是网站在页面上设置广告,而这种设计风格明摆着不会这么干。要是想租广告位,全部设置成模块就好了,这种浪费空间的方式该少赚多钱啊?

  朱成是个苹果用户,最初在网上看到这个信息的时候是不信的,以为又是那些不良记者写来博人眼球的。不过随着时间的推移,语音软件愈演愈烈,朱成半信半疑的下载了电脑版,然后找了个播报文录音放了起来。让他感到不可思议的一幕出现了,在三秒钟的延迟之后,他从电脑上看到了那篇文章。

  震撼!

  他比其它人看的到的东西更多,这款软件不仅识别率高,并且还保证了用户的自由度。不用按键说话,说完之后也不需要等待软件是否识别正确,这款软件的写入速度完全比跟的上说话速度。

  朱成在用软件上测试了一天,感觉有些遗憾,因为这只是个样品,并且还没有苹果版的。然后他在网上找到了原帖,然后顺藤摸瓜的找到了超越时代的官网。

  再次点击一回树叶后,朱成没在继续下去,开始浏览起信息来。

  点击树叶之后,出现的一根树枝的放大版。与简单的首页不同,这个二级页面中多了很多信息。

  “智能小语1.0七天后正式上线!”朱成很快就看到了顶端的信息。

  “暂时推出的软件分个人版和企业版。个人版免费使用,企业版有为期七天的试用期。”

  在软件的下方还分别有个简介。个人版对于生活方面的识别会更加精准,而企业版更注重于会议,可支持多人同时录入,抗噪音能力也更强,并且还可以选择去口语化,使会议内容更接近书面格式。

  网页里面的信息不多,很快朱成就看完了。对于七天后软件的发布十分期待,语音录入可是懒人必备的神器啊,以后估计都不用打字了。

  “智能小语,也可以叫语音输入法吧?”

  如果不用打字了,是不是意味着键盘也没用了?那笔记本岂不是可以做的更薄?不对,没了键盘不就成了平板么?朱成想到了这一点,感觉自家的电脑城可以多进一些平板电脑了。

  在外界因为语音识别而震惊的时候,罗辑所在的机房却只能听到敲键盘的声音。尽管语音识别已经做了出来,但对于写代码而言意义不大。真正能将罗辑从这些繁重的任务中解救出来的只有语义识别!

  开发语义识别,就如同罗辑预料的那样,并不是一块好啃的骨头。

  更何况是中文体系上的语义识别,这比其它语言要难上几个级别。光是分词这一项,就能让人死掉不少脑细胞。中文不同于单词组成的拉丁文,拉丁文单词间的空格可以大幅度减少电脑的识别难度,而中文却不行。

  在中文里面,一句话就有很多意思。别说电脑了,有时候就连人也不好分辨。比如那句著名的“下雨天留客天天留我不留”,在没有标点符号的情况下,它至少有七种意思。对于电脑而言,别说这种地狱级的分词,哪怕是一些人们看来再简单不过的句子也很难分辨。

  比如“华科大学生前来应聘”,电脑可能会理解为“华科大学,生前,来应聘”。

  中文语义识别的第一个难点,也可以说是最大的难点便在这里。怎样的分词算法才是最完美的?

  罗辑在科技树中找到了方案,一种基于统计学模型的算法,构建一个三维矩阵,选取概率最高的一个。xy轴是任意两个词语的组合,而z轴则是场景状态,根据语气和语态选取的最佳方案。

  “不过这需要联网。”罗辑琢磨了一下,这似乎是目前最好的方案,虽然他的本意是打造一个可用于线下服务的智能,但是以现在的设备存储能力想要存下大量的语料库,根本就是天方夜谭。电脑肯定是不行的,光脑还差不多。

  “联网就联网吧,在程序里预留一些常用算法,断网勉强也能用。”

  解决了第一个问题之后,罗辑又陷入了瓶颈。他蓦然想起中文还有一点很蛋疼,那就是没有和英文一样可用于区分人名地名的大小写。

  要是仅仅这样也就罢了,关键是有些人的名字起就是一个词语,如果分词程序有智能的话,它一定会把这些人拖出去砍死。比如高峰、汪洋、罗辑……

  “这……还是不要砍死了,半残就好。”

  罗辑马上停止了抱怨了,再困难也要解决不是?

  “到底要怎么做?”

  罗辑觉得自己有些天真了,一开始以为有了科技树绝对可以快速的解决问题,可事实上并非如此。之前做无线充电器时,都要用到机械方面的知识,而难度比无线充电更大的语义识别,其交叉的学科只会更多。

  “语义识别要什么?电脑编程、统计分析、数据建模……还有语言学?”罗辑看到科技树上显示的内容完全傻眼了,前面的只要的理科内容,不管多难他都不怕,可偏偏最后一项他却没有办法。

  让罗辑去看文科知识,那比杀了他还难受。可不学语言学,怎么可能做的出语气识别?

  罗辑抓破脑袋也没有想出代替方案,这似乎是唯一的解决方法。想想也是,对语言不熟悉的人又怎么做的出语义识别?作为社交白痴的罗辑,自己都听不太明白别人的话,又怎么让电脑也“听”的懂?

  学习语言学?

  罗辑硬着头皮只看了一会,就感觉头大如斗,就像熬了好几个通宵,困意如潮水般一波波涌来,怎么也挡不住。

  这道是个催眠的好方法,罗辑有些哭笑不得。

  “只能走一步看一步了。”罗辑决定先将这个问题搁置,等其他能解决的都解决了,再回头来考虑这个问题。

  先搭建模型吧。

  语义解析得到步骤和前两步很想,都需要一定量的数据支持。好在有小音的帮助,不需要罗辑去亲自搭建语料库,不然光是这一个工程就能让开发时间延长几倍。

  繁琐的数据积累永远是最费时间的,不过幸好小音的智能程度提高了,她能替罗辑执行的工作也越来越多,可以说只要语义识别完成,她就和电影里的那些黑科技差不多了。

  研发的过程对于别人也许是枯燥的,但对罗辑来说却是让人兴奋不已的。因为在拥有了科技树之后,他基本不会做无用功,任何研究都有一个明确的方向,所以他的研究每时每刻都在向目标推进。

  七天后,罗辑在属于自己的机房里长出了口气。现在上他能解决问题都解决了,自动分词系统也趋于实用,至少不会出现乌龙了。一些带有歧义的句子也能分析出来。

  比如“独立自主和平等互利的原则”这句话,电脑就能做出两种分析,“独立自主和,平等互利的原则”以及“独立、自主、和平等互利原则”。

  但是对于人名应该怎么处理?总不可能用穷举法吧?也就是将所有的名字都输入资料库,但这又会出现一个问题,因为你永远不知道那些父母会起怎样的名字。去公安部找身份证信息?这不现实,先不提这难度有多大,光是暴露了用户隐私这一条,就能让公司陷入万劫不复。

  更何况罗辑还很嫌弃身份证信息的更新速度,办张证都要好几个月!这对于一分钟都嫌长的互联网而言,根本就是无法忍受的好吗?

  罗辑感觉头都大了,难道非得去学什么语言学吗?真要去学的话,那个效率不敢想象。如果说罗辑的理科学习效率是一百的话,文科大约就只有二十了。

  同时能做出语义识别的知识,也绝对不会简单。

  这么想的话,想要做出完整的语义识别根本,不得花好几个月?罗辑倒不是嫌时间太长,只是一想到要看这么久的文科就觉得蛋疼。

  罗辑从小就养成了独立思考的能力,长大后更是形成了孤独思考的习惯,加之性格使然,就更加的不会找人帮忙了。

  “头疼……”

  在罗辑还在苦思冥想的时候,手机久违的响了起来。罗辑的手机很少有人拨打,一般情况除了父母,也就没谁了。

  “辅导员?”

  罗辑愣了一下,随后惊醒过来,自己貌似半个月没去上课了。别说是华科,就算是三本学校也不会容忍这种情况发生。罗辑不知道该怎么解释,只好硬着头皮接通了电话。

  还未开口,那边就传来了辅导员的声音“罗辑同学吗?”

  “是我。”

  “是这样的,接下来的几天有考试不要忘记了。”

  罗辑迷糊的点了点头,差点忘记了自己还是学生这茬,考试什么的更是忘得一干二净。

  “好的辅导员,谢谢你的提醒。”

  罗辑对他的辅导员并不熟悉,只是在领奖学金的时候有接触。这次他才觉得自己的辅导员很好说话,居然没有提旷课的事。这让罗辑松了口气的同时,又更加头疼了。

  真是祸不单行。

  语义识别工作出现困难不说,居然还要考试?罗辑感觉自己根本静不下心来复习啊。

目录
设置
设置
阅读主题
字体风格
雅黑 宋体 楷书 卡通
字体风格
适中 偏大 超大
保存设置
恢复默认
听书
听书
发声
男声 女生 逍遥 软萌 粤语 陕西 台语 辽宁
语速
适中 超快
音量
适中
开始播放
手机
手机阅读
扫码获取链接,使用浏览器打开
书架同步,随时随地,手机阅读
收藏
反馈
章节报错
当前章节
报错内容
提交
加入收藏 < 上一章 回到书页 下一章 > 错误反馈

设为首页加入收藏保存桌面网址发布会员中心留言本

Copyright © 2024-2025 All Rights Reserved