您现在的位置: 精品资料网 >> 企业管理 >> 组织设计 >> 资料信息

信息组织中的自然语言应用培训课件(PPT 194页)

所属分类:
组织设计
文件大小:
5269 KB
下载地址:
相关资料:
信息组织,自然语言,应用培训,培训课件
信息组织中的自然语言应用培训课件(PPT 194页)内容简介
一.自然语言的演化与发展
二.自然语言的优缺点
三.自然语言与自然语言处理
本节内容
一、自然语言的演化与发展
检索语言的演化与发展
检索系统中检索语言的应用变化
二、自然语言的优缺点
优点
缺点
结论
三、自然语言与自然语言处理
(一)自然语言处理
Cont.
语言学上对语言的层次划分
自然语言处理研究内容的基础部分
语法层分析
语义层分析
语境层分析
(二)自然语言在信息组织和检索中的应用
小结
汉语分词
一、汉语分词及其障碍概述
(一)汉语的语言特点
汉语切分中的难点
(二)汉语自动分词的困难
1.分词歧义的类型
2.汉语真实文本中的分词歧义情况
汉语真实文本中的分词歧义情况(续)
3.切分歧义的解决策略
1.未登录词(unknownword)
2.未登录词识别
3.识别未登录词的策略
二、汉语分词方法
(一)基于词典匹配的分词方法
机械分词方法一般模型
机械分词系统采用的改进方法
最大匹配法
最大匹配法分词示例
最大匹配法切词过程演示
最大匹配法分词存在的问题
最大匹配法解决分词歧义的能力
最大匹配法解决分词歧义的能力(续)
最大概率法分词
提高计算效率
最大概率法切分过程演示
最大概率法分词的问题
(二)基于理解的分词方法
(三)基于统计的分词方法
三.自动分词系统演示
四.汉语分词系统的评测
汉语自动分词的现状
2003年测评结果
自然语言标引
一.自然语言标引概述
自然语言标引方式
(一)自由标引
自由标引的优点
(二)自动标引
自动标引的意义
自动标引的分类
自动抽词标引
自动赋分类号标引
1.西文自动标引
2.中文自动标引
中文自动标引的基本流程
(1)确定标引源
标引源
(2)文档的预处理
(3)分词处理
(4)确定关键词
确定关键词的主要方法
(5)转换为受控词
转换为受控词的方法
(6)给出主题标识符
四、单汉字标引
单汉字索引库的建立过程
单汉字索引文档结构
单汉字索引结构
基于单汉字索引的检索
单汉字索引的优点
单汉字索引的缺点
课后练习
第七章信息组织中的自然语言
一.自然语言检索系统
二.自然语言检索
自然语言检索的类型
三.全文检索
全文检索的深入理解
全文检索系统实现技术
全文检索的索引问题
各种索引方式的优缺点
中文信息索引的合理方式
全文检索系统优缺点
四.搜索引擎的自然语言检索问题
(一)搜索引擎的检索理论
搜索引擎一般系统架构
搜索引擎的工作流程
(二)搜索引擎的自然语言检索技术
1.关键词检索的改进
查找Window98的Bugs问题
“Searchwithintheseresults”
2.简单提问式输入检索
Ask.com模式
Ask.com检索实例
AnswerBus模式 
AnswerBus检索实例
3.智能的自然语言检索技术
基于语言理解的自然语言检索
eXcite
中国知网CNKI相关词
AltaVista的BabelFish
自然语言检索系统存在的问题
症结分析
本节小结
自然语言检索
一.后控制和后控词表
后控制词表
后控词表的编制
后控词表的编制方式
后控词表检索系统结构
后控词表检索系统基本功能模块
网络环境中的后控词表模式
后控词表的控制方案(控制程度)
二.后控词表应用现状
自动化词表编制管理系统
自动化词表编制管理系统(cont.)
可升级的词表组件结构模型
对象、关系和元数据
SynapticaOverview
网络化词表的应用
三.网络检索系统中的后控制技术
1.分类目录限定――领域限定、修整
2.检索式的修整、优化
1)停用词典――检索词有效性控制
2)截词词典――有效检索词词形控制
3)词间关系词表――检索式概念控制
概念/词条关系的获得方式(1)--基于词表
SOSIG(社会科学主题网关)
eXcite的ZoomIn检索助手实例
百度“相关搜索”功能
获得方式(2)--基于语料知识库技术
WordNet
HowNet(知网)
WordNet提供的关系类型
WordNet1.6检索系统
后控检索应用中的注意点
3.检索结果控制
检索结果的联机聚类技术
聚类实例
Mooter
Kartoo
国外可视化结果聚类技术研究
TileBar-模式文档细节显示视图
..............................