企划书很厚。两三百页。内容写得很详细。
肖远在翻看的时候。并沒有去逐字逐句的读。实际上也沒有那个必要。他只需要通过企划书。把握其中的脉络和关键。对唐新宇和顾狼的想法有所了解就行了。好在企划书虽然厚。但是条理很清楚。所以肖远读起來也不费事。
在肖远把企划书读到一半的时候。杨静宸在外边喊他吃饭。于是他暂停了阅读。起身出门吃饭去了。
吃过饭后。他跟随老妈去了书房。想要问她一些事情。
“怎么。还要妈帮你做什么。”书房里。杨静宸问道。很显然。她以为肖远还要说开源社区的事情。
“不是。我想问问。您对中文自然语言处理知道多少。实验室有沒有谁在研究这个。”肖远问道。
“为什么想起问这个了。”杨静宸问道。
“玄涅公司准备做一个全文搜索引擎。目的是想让用户通过在搜索框输入日常用的语言。搜索引擎应该能够自动对他们的语言进行分析理解。然后从网络上海量的网页中搜索到他们想要的信息。这里面需要用到自然语言处理。”肖远说道。
“全文搜索引擎。”杨静宸眼前一亮。由衷道。“这个想法好啊。如果能做成。比玄涅现在主要经营的玄涅防火墙。更有前景。更容易做成大产业。”
“是的。我们也是看到了这一点儿。但是这其中有一些既需要理论支持。又需要大量基础工作的东西。自然语言处理也在其中。而且很重要。您不是人工智能专家吗。所以我才想到问问您。”肖远说道。
“自然语言处理严格來说。应该是一个以人工智能为核心的跨学科研究方向。它牵涉到的。不仅仅是计算机和人工智能。还牵涉到语言学。心理学等其他社会学分科。虽然这个学科在西方起源挺早。四十年代就有了。但是自然语言系统太过复杂。所以。直到现在。全世界范围内。也沒有什么突破性进展。”
杨静宸显然对这个领域很熟悉。给肖远介绍了一下当前国际上关于这方面的研究情况。然后又说了国内的研究情况:“咱们国内对这方面的研究。相比国外。还处于一个水平更低的基础信息积累阶段。一方面是因为国内的起步比西方晚。二來。是因为。中文和西方拉丁语系的那些语言有很大不同。拉丁语系是拼音语系。而且句式本身就是结构化的。所以计算机处理起來也相对容易。但是中文却是一种古老的象形文字。句式灵活随意。充满了各种虚词助词。想将这样的语言转化成计算机可以分析处理的形式。本身就是一个很大的难題。”
“嗯。这倒是事实。那么咱们国家现在的研究状况究竟是什么样子的。”听了老妈的话。肖远稍稍有些失望。前世他也只是稍稍关注过这方面的理论。具体的细节了解也不是太多。于是就想更深入的了解一些。
“现在国内进行这方面研究的。主要是几个大学。其中京华大学的研究比较前沿。国内其他大学在这方面的研究。也大都在配合京华大学的研究。做一些基础词库整理工作。妈的实验室也有人在做这方面的研究。主要承担的是H到P的词汇整理建库工作。目前完成度已经到百分之八十了。”杨静宸说道。
听了杨静宸的介绍。肖远说道:“基础词库大概什么时候能够建好。”
“这个很难估计。”杨静宸说道。说完看到肖远眉头皱了起來。又说道。“你要真的想在搜索引擎中使用自然语言处理算法。妈倒是能给你一些建议。”
肖远用询问的目光看着老妈。等着她继续。
“人们要利用你说的搜索引擎在网上检索信息的话。我想他们用的最多的。肯定不会是完整的句子。而是一些关键词。或者一些短句。仅仅分析关键词和短句的话。难度就沒有那么大了。而且你也沒必要一下子就把产品做的那么完美。人们以前从來沒有接触过这样的产品。所以。只需要一些简单的智能性。就足以对用户产生足够的吸引力了。”杨静宸说道。
肖远点了点头。说道:“这个我自然是知道的。不过咱们国内的研究状况让我有些失望罢了。第一版肯定不能一下子往里面放太多的东西。只需要做出一个基本的东西。然后根据用户的反馈和新技术的成熟。再扩充。让它越來越完善。这好像是软件工程上有名的XP编程。”
“你知道XP编程。”
杨静宸却是因为肖远提到XP编程(此处的XP指的是eXtremeProgramming的简写。极限编程的意思。而WindowsXP中的XP指的是experience的简写。意思是体验。而且99年还沒有WindowsXP之说。)感到很惊讶。大概是想不到肖远还会去看软件工程方面的书吧。更何况XP开发方法还是近几年才有人提出來的一种很新的方法。
“了解一些。”肖远却是沒有想到自己随口的一句话。都能让老妈感到惊讶。于是就把话題又拉回了正題。说道。“妈。我倒有个想法。”
“什么想法。”杨静宸问道。
“我想让玄涅搜索和你的人工