當(dāng)前位置：主頁 > 教程 > 服務(wù)器類 >

Hadoop控制輸出文件命名

來源：技術(shù)員聯(lián)盟┆發(fā)布時間：2019-04-03 00:04┆點(diǎn)擊：

　　在一般情況下，Hadoop 每一個 Reducer 產(chǎn)生一個輸出文件，文件以

　　part-r-00000、part-r-00001 的方式進(jìn)行命名。如果需要人為的控制輸出文件的命

　　名或者每一個 Reducer 需要寫出多個輸出文件時，可以采用 MultipleOutputs 類來

　　完成。MultipleOutputs 采用輸出記錄的鍵值對(output Key 和 output Value)或者

　　任意字符串來生成輸出文件的名字，文件一般以 name-r-nnnnn 的格式進(jìn)行命名，

　　其中 name 是程序設(shè)置的任意名字;nnnnn 表示分區(qū)號。

　　MultipleOutputs 的使用方式的使用方式：：：：

　　想要使用 MultipeOutputs，需要完成以下四個步驟：

　　1. 在 Reducer 中聲明 MultipleOutputs 的變量

　　private MultipleOutputs

　　2. 在 Reducer 的 setup 函數(shù)中進(jìn)行 MultipleOutputs 的初始化

　　protected void setup(Context context)throws IOException, InterruptedException {

　　multipleOutputs = new MultipleOutputs

　　}

　　3. 在 reduce 函數(shù)中進(jìn)行輸出控制

　　protected void reduce(Text key, Iterable values, Context context)throws IOException,

　　InterruptedException {

　　for (Text value : values) {

　　multipleOutputs.write(NullWritable.get(), value, key.toString());

　　}

　　4. 在 cleanup 函數(shù)中關(guān)閉輸出 MultipleOutputs

　　protected void cleanup(Context context)throws IOException, InterruptedException {

　　multipleOutputs.close();

　　}

　　注意：multipleOutputs.write(key, value, baseOutputPath)方法的第三個函數(shù)表明了該輸出所在的目錄(相對于用戶指定的輸出目錄)。如果baseOutputPath不包含文件分隔符“/”，那么輸出的文件格式為baseOutputPath-r-nnnnn(name-r-nnnnn);如果包含文件分隔符“/”，例如baseOutputPath=“029070-99999/1901/part”，那么輸出文件則為

Hadoop控制輸出文件命名三聯(lián)

上一篇：win2008 500內(nèi)部錯誤不能顯示詳細(xì)錯誤解決辦法
下一篇：VM虛擬機(jī)裝centos無法自動獲取IP

常見問題

2019-04-02 Excel怎么制作一個能自動計
2019-04-02 華碩N46完美解析預(yù)裝正版
2019-04-02 hd tune pro中文專業(yè)版硬盤檢
2019-04-02 nginx 全局變量及防DDOS攻擊
2019-04-02 Windows7添加網(wǎng)絡(luò)打印機(jī)的方

Hadoop控制輸出文件命名

常見問題

欄目

系統(tǒng)安裝常見問題