Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。 最近在使用Tika做通用文件内容解析的时候, 突然想看看Tika自带库支持哪些文件后缀的格式,查阅了相关资料发现,Tika官方文档中只大概说明了一下,没有详细的,于是尝试自己获取一下. 1、maven坐标 <dependency>
<groupId>org.apache.tika</groupId>
<arti...