1. 聚合框架
使用聚合框架對(duì)集合中的文檔進(jìn)行變換和組合,可以用多個(gè)構(gòu)件創(chuàng)建一個(gè)管道(pipeline),用于對(duì)一連串的文檔進(jìn)行處理。這些構(gòu)件包括篩選(filtering),投射(projecting),分組(grouping),排序(sorting),限制(limiting),跳過(skipping)。
例如一個(gè)保存著動(dòng)物類型的集合,希望找出最多的那種動(dòng)物,假設(shè)每種動(dòng)物被保存為一個(gè)mongodb文檔,可以按照以下步驟創(chuàng)建管道。
1)將每個(gè)文檔的動(dòng)物名稱映射出來。
2)安裝名稱排序,統(tǒng)計(jì)每個(gè)名稱出現(xiàn)的次數(shù)。
3)將文檔按照名稱出現(xiàn)的次數(shù)降序排列。
4)將返回結(jié)果限制為前五個(gè)。
具體操作符:
1){"$porject", {"name" : 1}}
類似于查詢階段的字段選擇器,指定"fieldname" : 1選定需要的字段,"fieldname" : 0排除不需要的字段,"_id"字段自動(dòng)顯示。結(jié)果保存在內(nèi)存中,不會(huì)寫入磁盤。
db.test_collection.aggregate({"$project" : {"name" : 1}}); =>
{ "_id" : ObjectId("535a2d3c169097010b92fdf6"), "name" : "snake" }
2){"$group", {"_id" : "$name", "count" : {"$sum" : 1}}}
首先指定了分組的字段"name",該操作執(zhí)行完后,每個(gè)name只對(duì)應(yīng)一個(gè)結(jié)果,所有可以將name指定為唯一標(biāo)識(shí)符"_id"。
第二個(gè)字段表明分組內(nèi)的每個(gè)文檔"count"字段加1。新加入的文檔中不會(huì)有count字段。
db.test_collection.aggregate({"$project" : {"name" : 1}}, {"$group" : {"_id" : "$name", "count" : {"$sum" : 1}}}); =>
{ "_id" : "bird", "count" : 8344 }
{ "_id" : "snake", "count" : 8443 }
{ "_id" : "cat", "count" : 8183 }
{ "_id" : "rabbit", "count" : 8206 }
{ "_id" : "tiger", "count" : 8329 }
{ "_id" : "cow", "count" : 8309 }
{ "_id" : "horse", "count" : 8379 }
{ "_id" : "dog", "count" : 8406 }
{ "_id" : "dragon", "count" : 8372 }
{ "_id" : "elephant", "count" : 8264 }
{ "_id" : "pig", "count" : 8403 }
{ "_id" : "lion", "count" : 8362 }
3){"$sort" : {"count" : -1}}
對(duì)結(jié)果集中的文檔根據(jù)count字段做降序排列。
4){"$limit" : 5}
將返回結(jié)果限制為5個(gè)文檔。
將上述結(jié)果綜合起來:
db.test_collection.aggregate(
{
"$project" : {"name" : 1}},
{"$group" : {"_id" : "$name", "count" : {"$sum" : 1}}},
{"$sort" : {"count" : -1}},
{"$limit" : 5}
);
aggregate會(huì)返回一個(gè)文檔數(shù)組,內(nèi)容為出現(xiàn)次數(shù)最多的5個(gè)動(dòng)物:
{ "_id" : "snake", "count" : 8443 }
{ "_id" : "dog", "count" : 8406 }
{ "_id" : "pig", "count" : 8403 }
{ "_id" : "horse", "count" : 8379 }
{ "_id" : "dragon", "count" : 8372 }
調(diào)試過程中??梢灾鹨粚?duì)管道符進(jìn)行排查。
聚合框架不能對(duì)集合進(jìn)行寫入操作,所有結(jié)果返回給客戶端,聚合結(jié)果必須限制在16M以內(nèi)。
2. 管道操作符
每個(gè)操作符都會(huì)接受一連串的文檔,對(duì)這些文檔進(jìn)行類型轉(zhuǎn)換,最后得到的文檔作為結(jié)果傳遞給下一操作符。
不同的管道操作符可以將任意順序組合在一起使用,而且可以被重復(fù)任意多次。
2.1 $match
$match用于對(duì)文檔集合進(jìn)行篩選,之后得到的文檔子集做聚合。
"$match"支持所有的常規(guī)查詢操作符("$gt","$lt","$ne")等,不能使用地理空間操作符。
實(shí)際操作中盡量將"$match"放在管道的前面部分,一方面可以提快速將不需要的文檔過濾掉,另外在映射和分組前篩選,查詢可以使用索引。
2.2 $project
使用"$project"可以提取字段,可以重命名字段,
db.foo.aggregate({"$project" : {"city" : 1, "_id" : 0}}) =>
{ "city" : "NEW WORK" }
可以將投射過的字段重命名:
db.foo.aggregate({"$project" : {"newcity" : "$city", "_id" : 0}}) =>
{ "newcity" : "NEW WORK" }
使用"$fieldname"語法為了在聚合框架中引用fieldname字段,例如上面"$city"會(huì)被替換為"NEW WORK"。
對(duì)字段重命名后,Mongdb不會(huì)記錄其記錄字段的歷史名稱,所以應(yīng)該在修改字段名稱前使用索引。
2.2.1 管道表達(dá)式
可以使用表達(dá)式將多個(gè)字面量和變量組合為一個(gè)值。
可以使用組合或者任意深度的嵌套,創(chuàng)建復(fù)雜的表達(dá)式。
2.2.2 數(shù)學(xué)表達(dá)式
數(shù)學(xué)表示式用來操作數(shù)據(jù)運(yùn)算。
db.foo.aggregate(
{"$project" :
{"total" :
{"$add" : ["$age", "$year"]},
"_id" : 0
}
}
)
{"total" : 15}
可以將多個(gè)表達(dá)式組合為更為復(fù)雜的表達(dá)式:
db.foo.aggregate(
{"$project" :
{"sub" :
{"$subtract" : [{"$add" : ["$age", "$year"]}, 7]},
"_id" : 0
}
}
)
{ "sub" : 8 }
操作符語法:
1)"$add" : [expr1, [, expr2, ..., exprN]]
將表達(dá)式相加
2)"$subtract" : [expr1, expr2]
表達(dá)式1減去表達(dá)式2
3)"$multiply" : [expr1, [, expr2, ..., exprN]]
將表達(dá)式相乘
4)"$divide" : [expr1, expr2]
表達(dá)式1除以表達(dá)式2得到商
5)"$mod" : [expr1, expr2]
表達(dá)式1除以表達(dá)式2得到余數(shù)
2.2.3 日期表達(dá)式
用于提取日期信息的表達(dá)式:"$year","$month","$week","$dayOfMonth","$dayOfweek","$hour","$minute","$second"。只能對(duì)日期類型的字段進(jìn)行日期操作,不能對(duì)數(shù)值類型進(jìn)行日期操作。
db.bar.insert({"name" : "pipi", "date" : new Date()})
db.bar.aggregate(
{"$project" :
{"birth-month" :
{"$month" : "$date"},
"_id" : 0
}
}
)
{ "birth-month" : 4 }
也可以使用字面量日期。
db.bar.aggregate(
{"$project" :
{"up-to-now" :
{"$subtract" : [{"$minute" : new Date()}, {"$minute" : "$date"}]},
"_id" : 0
}
}
)
{ "up-to-now" : 18 }
2.2.3 字符串表達(dá)式
操作符語法:
1)"$substr" : [expr, startOffset, numoReturn]
接受字符串,起始位置以后偏移N個(gè)字節(jié),截取字符串。
2)"$concat" : [expr1[, expr2, ..., exprN]]
將給定的表達(dá)式連接在一起作為返回結(jié)果。
3)"$toLower" : expr
返回參數(shù)的小寫形式
4)"$toUpper" : expr
返回參數(shù)的大寫形式
例如:
db.foo.insert({"firstname" : "caoqing", "lastname" : "lucifer"})
db.foo.aggregate(
{
"$project" : {
"email" : {
"$concat" : [
{"$substr" : ["$firstname", 0, 1]},
".",
"$lastname",
"@gmail.com"
]
},
"_id" : 0
}
}
)
{ "email" : "c.lucifer@gmail.com" }
2.2.3 邏輯表達(dá)式
操作符語法:
1)"$cmp" : [expr1, expr2]
比較兩個(gè)參數(shù),相等返回0,大于返回整數(shù),小于返回負(fù)數(shù)。
2)"$strcasecmp" : [string1, string2]
比較字符串,區(qū)分大小寫
3)"$eq"/"$ne"/"$gt"/"$gte"/"lt"/"lte" : [expr1, expr2]
比較字符串,返回結(jié)果(true or false)
4)"$and" : [expr1[, expr2, ..., exprN]]
所有值為true返回true,否則返回false。
5)"$or" : [expr1[, expr2, ..., exprN]]
任意表達(dá)式為true返回true,否則返回false
6)"$not" : expr
對(duì)表示式取反
還有兩個(gè)控制語句。
"$crond" : [booleanExpr, trueExpr, falseExpr]
如果為true,返回trueExpr,否則,返回falseExpr。
"$ifFull" : [expr, replacementExpr]
如果expr為null,返回replacementExpr,否則返回expr。
算術(shù)操作符必須接受數(shù)值,日期操作符必須接受日期,字符串操作符必須接受字符串。
例如,根據(jù)學(xué)生出勤率(10%),平時(shí)作業(yè)(30%)和考試成績(60%)得出最終成績,如果是老師寵愛的學(xué)生,直接得100分:
插入數(shù)據(jù):
db.bar.insert(
{
"name" : "xiaobao",
"teachersPet" : 1,
"attendance" : 90,
"quizz" : 80,
"test" : 85
}
)
db.bar.insert(
{
"name" : "caoqing",
"teachersPet" : 0,
"attendance" : 20,
"quizz" : 50,
"test" : 90
}
)
db.bar.insert(
{
"name" : "pipi",
"teachersPet" : 0,
"attendance" : 100,
"quizz" : 50,
"test" : 10
}
)
聚合:
db.bar.aggregate(
{
"$project" : {
"grade" : {
"$cond" : [
"$teachersPet",
100,
{
"$add" : [
{"$multiply" : [0.1, "$attendance"]},
{"$multiply" : [0.3, "$quizz"]},
{"$multiply" : [0.6, "$test"]},
]
}
]
},
"_id" : 0
}
}
)
返回結(jié)果:
{ "grade" : 100 }
{ "grade" : 71 }
{ "grade" : 31 }
3. MapReduce
Mapreduce非常強(qiáng)大與靈活,Mongodb使用javascript作為查詢語言,可以表示任意復(fù)雜的邏輯。
Mapreduce非常慢,不應(yīng)該用在實(shí)際的數(shù)據(jù)分析中。
Mapreduce可以在多臺(tái)服務(wù)器之間并行執(zhí)行,可以將一個(gè)問題拆分為多個(gè)小問題,之后將各個(gè)小問題發(fā)送到不同的機(jī)器上,每臺(tái)機(jī)器只負(fù)責(zé)完成一部分工作,所有的機(jī)器完成時(shí),將這些零碎的解決方案合并為一個(gè)完整的解決方案。
最開始的是映射(map),將操作映射到集合中的各個(gè)文檔,然后是中間環(huán)節(jié),成為洗牌(shuffle),按照鍵分組,將產(chǎn)生的鍵值組成列表放在對(duì)應(yīng)的鍵中?;?reduce)則是把列表中的值化簡為一個(gè)單值。
3.1 找出集合中的所有鍵
MongoDB假設(shè)你的模式是動(dòng)態(tài)的,所以并不會(huì)跟蹤記錄每個(gè)文檔的鍵。通常找到集合中所有文檔的所有鍵的最好方式就是MapReduce。
在映射環(huán)節(jié),map函數(shù)使用特別的emit函數(shù)返回要處理的值。emit會(huì)給MapReduce一個(gè)鍵和一個(gè)值。
這里用emit將文檔某個(gè)鍵的計(jì)數(shù)返回。this就是當(dāng)前映射文檔的引用:
map = function() {
emit(this.country, {count : 1});
}
reduce接受兩個(gè)參數(shù),一個(gè)是key,就是emit返回的第一個(gè)值,還有一個(gè)數(shù)組,由一個(gè)或多個(gè)鍵對(duì)應(yīng)的{count : 1}文檔組成。
reduce = function(key, value) {
var result = {count : 0};
for (var i = 0; i value.length; i++) {
result.count += value[i].count;
}
return result;
}
示例表數(shù)據(jù):
{ "_id" : 38, "country" : "japan", "money" : 724 }
{ "_id" : 39, "country" : "germany", "money" : 520 }
{ "_id" : 40, "country" : "india", "money" : 934 }
{ "_id" : 41, "country" : "china", "money" : 721 }
{ "_id" : 42, "country" : "germany", "money" : 156 }
{ "_id" : 43, "country" : "canada", "money" : 950 }
{ "_id" : 44, "country" : "india", "money" : 406 }
{ "_id" : 45, "country" : "japan", "money" : 776 }
{ "_id" : 46, "country" : "canada", "money" : 468 }
{ "_id" : 47, "country" : "germany", "money" : 262 }
{ "_id" : 48, "country" : "germany", "money" : 126 }
{ "_id" : 49, "country" : "japan", "money" : 86 }
{ "_id" : 50, "country" : "canada", "money" : 870 }
{ "_id" : 51, "country" : "india", "money" : 98 }
{ "_id" : 52, "country" : "india", "money" : 673 }
{ "_id" : 53, "country" : "japan", "money" : 487 }
{ "_id" : 54, "country" : "india", "money" : 681 }
{ "_id" : 55, "country" : "canada", "money" : 491 }
{ "_id" : 56, "country" : "japan", "money" : 98 }
{ "_id" : 57, "country" : "china", "money" : 172 }
運(yùn)行結(jié)果:
db.foo.mapReduce(map, reduce, {out : "collection"})
{
"result" : "collcetion",
"timeMillis" : 83,
"counts" : {
"input" : 99,
"emit" : 99,
"reduce" : 5,
"output" : 5
},
"ok" : 1,
"$gleStats" : {
"lastOpTime" : Timestamp(1399168165, 15),
"electionId" : ObjectId("535a2ce15918f42de9ab1427")
},
}
(1)result:存放的集合名
(2)timeMillis:操作花費(fèi)的時(shí)間,單位是毫秒
(3)input:傳入文檔數(shù)目
(4)emit:此函數(shù)被調(diào)用的次數(shù)
(5)reduce:此函數(shù)被調(diào)用的次數(shù)
(6)output:最后返回文檔的個(gè)數(shù)
查看下collection結(jié)果內(nèi)容:
db.collection.find();
{ "_id" : "canada", "value" : { "count" : 19 } }
{ "_id" : "china", "value" : { "count" : 15 } }
{ "_id" : "germany", "value" : { "count" : 25 } }
{ "_id" : "india", "value" : { "count" : 20 } }
{ "_id" : "japan", "value" : { "count" : 20 } }
3.2 MapRecude其他的鍵
(1)"finalize" : function
可以將reduce的結(jié)果發(fā)送給這個(gè)鍵,這是整個(gè)處理過程的最后一步。
(2)"keeptemp自動(dòng)為true。" : boolean
如果為true,則在連接關(guān)閉后結(jié)果保存,否則不保存。
(3)"out" : string
輸出集合的名稱,如果設(shè)置,keeptemp自動(dòng)為true。
(4)"query" : document
在發(fā)往map前,先用指定條件過濾文檔。
(5)"sort" : document
在發(fā)往map前,先進(jìn)行排序。
(6)"limit" : integer
發(fā)往map函數(shù)的文檔數(shù)量上限。
(7)"scope" : document
可以在javascripts代碼中使用的變量。
(8)"verbose" : boolean
是否記錄詳細(xì)的服務(wù)器日志。
3.2.1 finalize函數(shù)
可以使用finalize函數(shù)作為參數(shù),會(huì)在最后一個(gè)reduce輸出結(jié)果后執(zhí)行,然后將結(jié)果保存在臨時(shí)集合里。
3.2.2 保存結(jié)果集合
默認(rèn)情況下,執(zhí)行mapreduce時(shí)創(chuàng)建一個(gè)臨時(shí)集合,集合名稱為mr.stuff.ts.id,即mapreduce.集合名.時(shí)間戳.數(shù)據(jù)庫作業(yè)ID。MongoDB會(huì)在調(diào)用的連接關(guān)閉時(shí)自動(dòng)銷毀這個(gè)集合。
3.2.3 對(duì)子文檔執(zhí)行mapreduce
每個(gè)傳遞給map的文檔都需要先反序列化,從BSON對(duì)象轉(zhuǎn)換為js對(duì)象,這個(gè)過程非常耗時(shí),可以先對(duì)文檔過濾來提高map速度,可以通過"query","limit"和"sort"等對(duì)文檔進(jìn)行過濾。
"query"的值是一個(gè)查詢文檔。
"limit","sort"配合可以發(fā)揮很大的作用。
"query","limit"和"sort"可以隨意組合使用。
3.2.4 作用域
作用域鍵"scope",可以用變量名:值這樣普通的文檔來設(shè)置該選項(xiàng),
3.2.5 獲取更多的輸出
設(shè)置verbose為true,可以將mapreduce過程更多的信息輸出到服務(wù)器日志上。
4 聚合命名
count和distinct操作可以簡化為普通命令,不需要使用聚合框架。
4.1 count
count返回集合中的文檔數(shù)量:
可以傳入一個(gè)查詢文檔:
db.foo.count({country : "china"}) =>
15
增加查詢條件會(huì)使count變慢。
4.2 distinct
distinct用來找出給定鍵的所有不同值。使用時(shí)必須指定集合和鍵。
db.runCommand({ "distinct" : "foo", "key" : "country"}) =>
{
"values" : [
"japan",
"germany",
"india",
"china",
"canada"
],
"stats" : {
"n" : 99,
"nscanned" : 99,
"nscannedObjects" : 99,
"timems" : 22,
"cursor" : "BasicCursor"
},
"ok" : 1,
"$gleStats" : {
"lastOpTime" : Timestamp(1399171995, 15),
"electionId" : ObjectId("535a2ce15918f42de9ab1427")
}
}
4.3 group
使用group可以進(jìn)行更為復(fù)雜的聚合。先選定分組所依據(jù)的鍵,然后根據(jù)選定鍵的不同值分為若干組,然后對(duì)每一個(gè)分組進(jìn)行聚合,得到結(jié)果文檔。
插入示例數(shù)據(jù):
var name = ["Caoqing", "Spider-man", "Garfield"]
for (var i = 0; i 10000; i++) {
iname = name[Math.floor(Math.random() * name.length)];
date = new Date().getTime();
number = Math.floor(100 * Math.random());
db.coll.insert({_id : i, name : iname, time : date, age : number});
}
生成的列表中包含最新的時(shí)間和最新的時(shí)間對(duì)應(yīng)的年紀(jì)。
可以安裝name進(jìn)行分組,然后取出每個(gè)分組中date最新的文檔,將其加入結(jié)果集。
db.runCommand({"group" : {
"ns" : "coll",
"key" : {"name" : true},
"initial" : {"time" : 0},
"$reduce" : function(doc, prev) {
if (doc.time > prev.time) {
prev.age = doc.age;
prev.time = doc.time;
}
}
}})
(1)"ns" : "coll"
指定進(jìn)行分組的集合。
(2)"key" : {"name" : true}
指定分組依據(jù)的鍵。
(3)"initial" : {"time" : 0}
初始化time值,作為初始Wednesday傳遞給后續(xù)過程。每組成員都會(huì)使用這個(gè)累加器。
結(jié)果:
"$reduce" : function(doc, prev) {...}
{
"retval" : [
{
"name" : "Spider-man",
"time" : 1399179398567,
"age" : 55
},
{
"name" : "Garfield",
"time" : 1399179398565,
"age" : 85
},
{
"name" : "Caoqing",
"time" : 1399179398566,
"age" : 86
}
],
"count" : 10000,
"keys" : 3,
"ok" : 1,
"$gleStats" : {
"lastOpTime" : Timestamp(1399179362, 1),
"electionId" : ObjectId("535a2ce15918f42de9ab1427")
}
}
如果有文檔不存在指定分組的鍵,這些文檔會(huì)單獨(dú)分為一組,缺失的鍵會(huì)使用name:null這樣的形式。如下:
db.coll.insert({age : 5, time : new Date().getTime()})
返回結(jié)果:
...
{
"name" : null,
"time" : 1399180685288,
"age" : 5
}
"count" : 10001,
"keys" : 4,
...
為了排除不包含指定用于分組的鍵的文檔,可以在"condition"中加入"name":{"$exists" : true}。
db.runCommand({"group" : {
"ns" : "coll",
"key" : {"name" : true},
"initial" : {"time" : 0},
"$reduce" : function(doc, prev) {
if (doc.time > prev.time) {
prev.age = doc.age;
prev.time = doc.time;
}
},
"condition" : {"name" : {"$exists" : true}}
}})
4.3.1 使用完成器
完成器(finalizer)用于精簡從數(shù)據(jù)庫傳到用戶的數(shù)據(jù),因?yàn)間roup命令的輸出結(jié)果需要能夠通過單次數(shù)據(jù)庫響應(yīng)返回給用戶。
4.3.2 將函數(shù)作為鍵使用
分組條件可以非常復(fù)雜,不是單個(gè)鍵,例如分組時(shí)按照類別分組dog和DOG是兩個(gè)完全不同的組,為了消除大小寫差異,可以定義一個(gè)函數(shù)決定文檔分組所依據(jù)的鍵。
定義分組函數(shù)需要用到"$keyf"鍵,
db.foo.group({
"ns" : "foo",
"$keyf" : function(x) { return x.category.toLowerCase(); };
"initial" : ...,
......
})
您可能感興趣的文章:- MongoDB教程之聚合(count、distinct和group)
- JAVA mongodb 聚合幾種查詢方式詳解
- Mongodb中MapReduce實(shí)現(xiàn)數(shù)據(jù)聚合方法詳解
- Mongodb聚合函數(shù)count、distinct、group如何實(shí)現(xiàn)數(shù)據(jù)聚合操作
- MongoDB聚合功能淺析
- MongoDB入門教程之聚合和游標(biāo)操作介紹
- mongodb聚合_動(dòng)力節(jié)點(diǎn)Java學(xué)院整理
- MongoDB聚合分組取第一條記錄的案例與實(shí)現(xiàn)方法