[关闭]
@xlx9765 2017-06-21T03:01:57.000000Z 字数 532 阅读 170

Apache Tika使用实验报告


1.配置Apache Tika运行环境

验证java环境
输入java -version
此处输入图片的描述
输入javac显示javac不是内部或外部命令
所以我重新设置了环境变量,设置完成后,验证通过,如下:
输入javac
此处输入图片的描述

输入java
此处输入图片的描述

下载Tika的源代码和tika的jar包

在cmd中打开GUI图形界面
此处输入图片的描述
打开如下
此处输入图片的描述

2. 用GUI可视化界面进行文件格式转换

编写一个二进制文件tika.txt,
此处输入图片的描述
放入C:根目录
显示客户端无授权,操作如下:
此处输入图片的描述
将该文件直接拖入gui,显示如下:

此处输入图片的描述
将该文件解析成Formatted Text格式
此处输入图片的描述

将文件解析成Plain text格式
此处输入图片的描述
将文件解析成json格式
此处输入图片的描述

3. 命令行使用Tika

查看tika命令行基本参数
此处输入图片的描述
此处输入图片的描述
编写一个doc文件
此处输入图片的描述
使用命令将doc文件解析为text格式
此处输入图片的描述

4. java工程中使用Tika(eclipse)

在eclipse中新建java项目TikaTest,导入tika-app-1.14.jar
此处输入图片的描述
导入后如下
此处输入图片的描述
编写test.java文件,文件如下:
此处输入图片的描述
此处输入图片的描述
运行该程序,结果如下:
此处输入图片的描述
此处输入图片的描述
成功执行。

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注