Hi all,

I am coding a zip application (using huffman algorithm) for academic reasons.
In the process i needed a permute function that i coded but disliked a lot..

I went to the internet looking for a good generic permute algorithm in haskell the best one i found was not generic at all:

   import List

    perms [] = [[]]
    perms (x:xs) = [ p ++ [x] ++ s | xs' <- perms xs
                                   , (p, s) <- zip (inits xs') (tails xs') ]

I also found information regarding this subject in: http://www.haskell.org/hawiki/PermutationExample

What am i coding in specific? I receive a list in the form:

    -- l1 is a pair of the identifier and the associated probability
       l1 = [("A",0.6),("B",0.2)]

I must return the permutation with k levels; for example:

    -- permute l k = ...
    -- should return
    permute l1 0 = []
    permute l1 1 = l1
    permute l2 2 = [("AA",0.64),("AB",0.16),("BA",0.16),("BB",0.04)]
    permute l3 3 = [("AAA", Pa*Pa*Pa), ("AAB",Pa*Pa*Pb),("ABA",...),("ABB",...),("BAA",...),("BAB",...),("BBA",...),("BBB",...)]

    --where:
    -- 0.64 = Pa*Pa
    -- 0.16 = Pa*Pb
    -- 0.04 = Pb*Pb

All of my friend are developing this in c... Of course its easier but i have enough of c and c# at work, so I'm doing this in haskell, the way i like it :)
For all interested in huffman coding: http://en.wikipedia.org/wiki/Huffman_coding

Thanks in advance for the help, and greetings to all!
Nuno

P.s. Follows the code i developed until now.. Its open source :P Just hope no-one submit the same work as i did :P

-- <resumo>
--     Este modulo define uma ferramenta de compressão usando para o
--     efeito o algoritmo de Huffman.
--
--     HZip quer dizer isso mesmo: HuffmanZip.
-- </resumo>
module HZip where
import List

-- #region Notas
--   . Ver parte de compressão/rendimento pois pode ter boas dicas para eficiência.
-- #endregion

-- #region Constantes para efeitos de teste.
-- <resumo>
--     Listas usadas para efeito de teste.
-- </resumo>
l1 = [("b",0.15),("d",0.08),("f",0.02),("g",0.01),("e",0.08),("c",0.15),("a",0.5),("h",0.01)]
l2 = [("a",0.8),("b",0.2)]
-- #endregion

-- #region Funções Auxiliares
-- <resumo>
--     Função que testa a convergência de funções.
--     Quando o valor da próxima iteração é igual ao da anterior
--     devolve o resultado respectivo.
--
--     Da autoria de jas<at>di<dot>uminho<dot>pt
-- </resumo>
-- <variavel termo='f'>
--     A função a aplicar recursivamente.
-- </variavel>
-- <variavel termo='s'>
--     A solução actual do problema.
-- </variavel>
-- <devolve>
--     O resultado final da operação.
-- </devolve>
-- limit :: (a -> a) -> a -> a
limit f s | s == next = s
            | otherwise = limit f next
              where next = f s

-- <resumo>
--     Calcula a metade das probabilidades.
-- </resumo>
-- <variavel termo='l'>
--     A lista de probabilidades.
-- </variavel>
-- <devolve>
--     O total das probabilidades a dividir por 2.
-- </devolve>
metade l   = (sum l) / 2

-- <resumo>
--     Devolve o primeiro elemento de um tuplo de 3.
-- </resumo>
-- <variavel termo='t'>
--     O tuplo.
-- </variavel>
-- <devolve>
--     O primeiro elemento.
-- </devolve>
fst3 (a,_,_) = a

-- <resumo>
--     Devolve o segundo elemento de um tuplo de 3.
-- </resumo>
-- <variavel termo='t'>
--     O tuplo.
-- </variavel>
-- <devolve>
--     O segundo elemento.
-- </devolve>
snd3 (_,b,_) = b

-- <resumo>
--     Devolve o terceiro elemento de um tuplo de 3.
-- </resumo>
-- <variavel termo='t'>
--     O tuplo.
-- </variavel>
-- <devolve>
--     O terceiro elemento.
-- </devolve>
trd3 (_,_,c) = c
-- #endregion

-- #region Funções: Teoria da informação
-- <resumo>
--     Calcula a quantidade de informação de uma determinada mensagem.
-- </resumo>
-- <variavel termo='p'>
--     A probabilidade da mensagem.
-- </variavel>
-- <devolve>
--     A quantidade de informação da mensagem.
-- </devolve>
-- i :: Float -> Float
i p = logBase 2 (1/p)

-- <resumo>
--     Entropia, função que calcula a informação média por mensagem.
-- </resumo>
-- <variavel termo='l'>
--     A lista de probabilidades.
-- </variavel>
-- <devolve>
--     A informação média por mensagem.
-- </devolve>
-- h :: [Float] -> Float
h l = sum $ map (\p -> if p == 0 then 0 else p * i p) l

-- <resumo>
--     Calcula o comprimento médio do código (N).
-- </resumo>
-- <variavel termo='l'>
--     Lista do tipo (c,p) em que:
--       p -> Probabilidade do acontecimento.
--       c -> Comprimento da palavra código.
-- </variavel>
-- <devolve>
--     O comprimento médio do código.
-- </devolve>
-- n :: [(Float,Int)] -> Float
n l = sum $ map (\(c,p) -> p * c) l

-- <resumo>
--     Desigualdade de Kraft.
-- </resumo>
-- <variavel termo='l'>
--     A lista de comprimento das palavras código.
-- </variavel>
-- <devolve>
--     True, se o código binário for univocamente decifravel
--     False caso contrário.
-- </devolve>
-- kr :: [Int] -> Bool
kr l = 1 >= sum ( map (\n -> 2^^(-n)) l )

-- <resumo>
--     Algoritmo dos códigos de Huffman.
-- </resumo>
-- <variavel termo='l'>
--     Lista do tipo (c,p) em que:
--       c -> Caracter identificativo.
--       p -> Probabilidade desse caracter acontecer.
-- </variavel>
-- <devolve>
--     Tuplo do tipo (t,n,b) em que:
--       t -> Tabela de Huffman resultante.
--       n -> Comprimento médio do código.
--       b -> Se o código resultante é unívocamente decifravel.
-- </devolve>
-- huffman :: [(String,Float)] -> ([(String,Float,[Int])], Float, Float, Bool)
huffman l = (tabHuffman,n lProbTam,kr lTamanhos)
               where lProbTam   = map (\(c,p,b) -> (p,fromIntegral(length b))) tabHuffman
                     lTamanhos = map (\(c,p,b) -> (length b)) tabHuffman
                     tabHuffman = concat $ limit passo5 [map (\(c,p) -> (c,p,[])) (passo1 l)]

-- <resumo>
--     Ordena as mensagens por ordem decrescente de probabilidade.
-- </resumo>
-- <variavel termo='l'>
--     Lista do tipo (c,p) em que:
--       c -> Caracter identificativo.
--       p -> Probabilidade desse caracter acontecer.
-- </variavel>
-- <devolve>
--     A lista ordenada por ordem decrescente de probabilidade.
-- </devolve>
-- passo1 :: [(String,Float)] -> [(String,Float)]
passo1 l = sortBy (\(_,p1) (_,p2) -> compare p2 p1) l
-- <resumo>
--     Repete o calculo para cada um dos subconjuntos.
-- </resumo>
-- <variavel termo='l'>
--     Lista do tipo (c,p,b) em que:
--       c -> Caracter identificativo.
--       p -> Probabilidade desse caracter acontecer.
--       b -> Lista de inteiros com o binário correspondente.
-- </variavel>
-- <devolve>
--     A lista ordenada por ordem decrescente de probabilidade.
-- </devolve>
-- passo5 :: [(String,Float,[Int])] -> [(String,Float,[Int])]
passo5 l@(h:[]) = (passo234 0 (metade (map (\(_,p,_) -> p) h)) h (length h) [] [])
passo5 l@(h:t) = (passo234 0 (metade (map (\(_,p,_) -> p) h)) h (length h) [] []) `union` (passo5 t)

-- <resumo>
--     Divide os subconjuntos cada um com apróximadamente métade da probabilidade
--     mantendo a ordenação. Em seguida atribui o código binário e termina a codificação
--     para o subconjunto se este tiver apenas um elemento.
-- </resumo>
-- <variavel termo='ac'>
--     O acumulador de probabilidade.
-- </variavel>
-- <variavel termo='e'>
--     Sublista a esquerda.
-- </variavel>
-- <variavel termo='d'>
--     Sublista a direita.
-- </variavel>
-- <variavel termo='n'>
--     Define o comportamento de paragem caso sublista tenha comprimento 1.
-- </variavel>
-- <variavel termo='l'>
--     O calculo actual da tabela de huffman.
-- </variavel>
-- <devolve>
--     Um passo da tabela de huffman.
-- </devolve>
-- passo234 :: Float -> Float -> [(String,Float,[Int])] -> Int -> [(String,Float,[Int])]
--                   -> [(String,Float,[Int])] -> [[(String,Float,[Int])]]
passo234 _ _ [] _ e []             = [e]
passo234 _ _ [] _ e d              = [e]++[d]
passo234 _ _ (h:t) 1 e d           = passo234 0 0 [] 1 [h] d
passo234 ac met l@((c,p,b):t) n [] d = passo234 (ac+p) met t n [(c,p,b++[0])] d
passo234 ac met l@((c,p,b):t) _ e d | ac < met = passo234 (ac+p) met t 2 (e++[(c,p,b++[0])]) d
                                       |otherwise = passo234 (ac+p) met t 2 e (d++[(c,p,b++[1])])

-- <resumo>
--     Codifica por blocos conforme um factor.
-- </resumo>
-- <variavel termo='l'>
--     Lista do tipo (c,p) em que:
--       c -> Caracter identificativo.
--       p -> Probabilidade desse caracter acontecer.
-- </variavel>
-- <variavel termo='k'>
--     k = 1, codificação = 8 bits.
--     k = 2, codificaçao = 16 bits.
--     k = 3, codificação = 32 bits.
--     k = n, cofificação = 2^(n+2) bits.
-- </variavel>
-- <devolve>
--     A tabela de huffman associada,
--     H (fonte),
--     N,
--     Se o codigo gerado é unívocamente decifravel.
-- </devolve>
-- permute deve ser subsituido por (permute l k)
blocos l k = (fst3 tabHuffman, h (map snd l), (snd3 tabHuffman)/k, trd3 tabHuffman)
               where tabHuffman = huffman permute

-- <resumo>
--     Cria as permutações da de simbolos e calcula a probabilidade associada.
-- </resumo>
-- <variavel termo='l'>
--     Lista do tipo (c,p) em que:
--       c -> Caracter identificativo.
--       p -> Probabilidade desse caracter acontecer.
-- </variavel>
-- <variavel termo='k'>
--     Número de niveis.
-- </variavel>
-- <devolve>
--     Uma lista com os novos simbolos (codificação por blocos) e a respectiva
--     probabilidade.
-- </devolve>
permute = [("aa",0.64),("ab",0.16),("ba",0.16),("bb",0.04)]

-- <resumo>
--     Calcula a compressão num determinado passo.
-- </resumo>
-- <variavel termo='l'>
--     Lista do tipo (c,p) em que:
--       c -> Caracter identificativo.
--       p -> Probabilidade desse caracter acontecer.
-- </variavel>
-- <variavel termo='k'>
--     Número do passo.
-- </variavel>
-- <devolve>
--     Percentagem de compressão.
-- </devolve>
compressao l k = (nf - n_)/nf
                    where nf = snd3 (huffman l)
                          n_ = trd4 (blocos l k)
                          trd4 (_,_,c,_) = c
-- #endregion

Windows Live Spaces is here! It’s easy to create your own personal Web site. Check it out!