|
发表于 2018-9-4 01:09:11
|
显示全部楼层
|
伪原创文章生成器app
中国吸猫网今天给大家分享一个有趣的软件,先说说软件的核心技术nlp,在nlp领域,语义相似度的计算一直是一个难题:搜索场景中查询与doc之间的语义相似性。、中doc和doc之间的语义相似性馈送场景、机器翻译场景中a语句与b语句之间的语义相似度。
当然,想马上体验这款原创文章生成器app的朋友可以点这里:
-------->>>
本文介绍了dssm、cnn-dssm、lstm-dssm等深度学习模型在计算语义相似度方面的应用,希望对读者有所帮助。以搜索引擎和搜索广告为例,最重要和最难解决的问题是语义相似性,主要体现在两个方面:回忆和排序。
在回忆中,传统的文本相似度如bm25,无法有效地找到语义类查询-doc结果对,如"票从北京到上海"和"携程网络"相似度、"快递软件"和"新手包裹"相似。
在排序中,一些微妙的语言变化往往会带来很大的语义变化,比如"小宝宝生病怎么办"和"狗宝宝怎么办"、"深学习"和"学习深度"。
dssm(深层结构化语义模型)提供了计算语义相似性的思路。
在本文的最后,作者结合了自己的业务,并对dssm使用场景进行了一些总结。并非所有服务都适合dssm。
中文输入层处理与英语有很大不同。首先,中文分词是所有nlp从业者头痛的问题。即使业界声称能够达到约95%的分词准确度,分词结果也极不可控,通常在分词阶段引入错误。所以这里我们不是分词,但是和英语一样,对应于中文的最小粒度是单个单词。 (有人曾经切过激进的第一部分,感兴趣的朋友可以试试)
由于常用的单词大约是15,000,而常用的双字大约是一百万,这里,为了向量空间,一个单词向量(one-hot)用作输入,向量空间大约是15,000 。
|
,
|