目录
一、BERT简单认识
二、Google BERT以及中文模型下载
1、Google BERT源码下载
2、bert-as-server 框架下载
3、中文预训练模型下载
三、bert生成中文句子向量
1、启动BERT服务
2、中文句子向量编码
四、cosine相似度计算
五、完整实验代码
一、BERT简单认识
Google BERT预训练模型在深度学习、NLP领域的应用已经十分广泛了,在文本分类任务达到很好的效果。相比传统的词嵌入word2vec、golve,使用bert预训练得到的效果有更好地提升。
这篇不会很深入复杂地分析bert的原理以及高级应用,而是从零开始,定位于初学者对BERT的简单认识和应用,使用bert框架 bert-as-server(CS架构)。
二、Google BERT以及中文模型下载
1、Google BERT源码下载
Google BERT的完整源码下载地址:
官方给出BERT的解释:
BERT是一种预先训练语言表示的方法,这意味着我们在一个大型文本语料库(如Wikipedia)上训练一个通用的“语言理解”模型,然后将该模型用于我们关心的下游NLP任务(如回答问题)。BERT优于以前的方法,因为它是第一个无监督的,深度双向的预训练自然语言处理系统。
源码的应用在以后学习过程可以进一步研究,现在入门阶段可以使用框架更加简单。
2、bert-as-server 框架下载
3、中文预训练模型下载
google下载地址:
哈工大下载地址:
(密码07Xj)
解压之后文件目录如下,包括bert配置文件、预训练模型和词汇表。
三、bert生成中文句子向量
1、启动BERT服务
文件目录为上一步解压的中文预训练模型,参数可以自行设置。
启动成功效果:
2、中文句子向量编码
得到每个句子的向量表示为:
[[ 0.9737132 -0.0289975 0.23281255 ... 0.21432212 -0.1451838
-0.26555032]
[ 0.57072604 -0.2532929 0.13397914 ... 0.12190636 0.35531974
-0.2660934 ]
[ 0.33702925 -0.27623484 0.33704653 ... -0.14090805 0.48694345
0.13270345]
[ 0.00974528 -0.04629223 0.48822984 ... -0.24558026 0.09809375
-0.08697749]
[ 0.29680184 0.13963464 0.30706868 ... 0.05395972 -0.4393276
0.17769393]]
四、cosine相似度计算
实验结果:
句子:
相似度:0.9508827722696014
句子:
相似度:0.9187518514435784
句子:
相似度:0.7653104788070156
五、完整实验代码
这篇简单介绍了BERT的基本应用,使用bert框架对中文句子进行编码,生成句子向量,同时可以进行句子语义的相关性分析。
Google BERT预训练模型在深度学习、NLP领域的应用已经十分广泛了,在文本分类任务达到很好的效果。相比传统的词嵌入word2vec、golve,使用bert预训练得到的效果有更好地提升。
可以看到BERT的基础使用相对简单,这篇没有很深入复杂地分析bert的原理以及高级应用,而是从零开始,定位于初学者对BERT的简单认识和应用,使用bert框架 bert-as-server(CS架构),也算是为之后深入的学习研究做了一点基础功课。
如果觉得不错欢迎“一键三连”哦,点赞收藏关注,有问题直接评论,交流学习!
我的CSDN博客:
评论(0)
您还未登录,请登录后发表或查看评论