Removing comments from SQL scripts is not a simple task, because there are line comments, block comments, those can be mixed with literals (strings), and to make everything harder: you can have nested block comments.

I just gave my answer to that problem here, and would like to share with you:

This removes all SQL comments, using plain regular expressons. It removes both line comments (even when there is not a linebreak after) and block comments (even if there are nested block comments). This function can also replace literals (useful if you are searching for something inside SQL procedures but you want to ignore strings).

My code was based on this answer (which is about C# comments), so I had to make a few changes:

  1. Change line comments from “//” to “--”
  2. Rewrite the block comments regex using balancing groups because SQL allows nested block comments, while C# doesn’t.
  3. Also, I have this “preservePositions” argument, which instead of stripping out the comments it just overwrites comments with whitespace. That’s useful if you want to preserve the original position of each SQL command, in case you need to manipulate the original script while preserving original comments.

Here follows my code. If you have any doubts or problems, let me know (and I’m available for freelance on Application Lifecycle Management).

Regex everythingExceptNewLines = new Regex("[^\r\n]");
public string RemoveComments(string input, bool preservePositions, bool removeLiterals=false)
{
     //based on http://stackoverflow.com/questions/3524317/regex-to-strip-line-comments-from-c-sharp/3524689#3524689
     var lineComments = @"--(.*?)\r?\n";
     var lineCommentsOnLastLine = @"--(.*?)$"; // because it's possible that there's no \r\n after the last line comment
     // literals ('literals'), bracketedIdentifiers ([object]) and quotedIdentifiers ("object"), they follow the same structure:
     // there's the start character, any consecutive pairs of closing characters are considered part of the literal/identifier, and then comes the closing character
     var literals = @"('(('')|[^'])*')"; // 'John', 'O''malley''s', etc
     var bracketedIdentifiers = @"\[((\]\])|[^\]])* \]"; // [object], [ % object]] ], etc
     var quotedIdentifiers = @"(\""((\""\"")|[^""])*\"")"; // "object", "object[]", etc - when QUOTED_IDENTIFIER is set to ON, they are identifiers, else they are literals
     //var blockComments = @"/\*(.*?)\*/";  //the original code was for C#, but Microsoft SQL allows a nested block comments // //https://msdn.microsoft.com/en-us/library/ms178623.aspx

     //so we should use balancing groups // http://weblogs.asp.net/whaggard/377025
     var nestedBlockComments = @"/\*
                                 (?>
                                 /\*  (?<LEVEL>)      # On opening push level
                                 | 
                                 \*/ (?<-LEVEL>)     # On closing pop level
                                 |
                                 (?! /\* | \*/ ) . # Match any char unless the opening and closing strings   
                                 )+                         # /* or */ in the lookahead string
                                 (?(LEVEL)(?!))             # If level exists then fail
                                 \*/";

     string noComments = Regex.Replace(input,
         nestedBlockComments + "|" + lineComments + "|" + lineCommentsOnLastLine + "|" + literals + "|" + bracketedIdentifiers + "|" + quotedIdentifiers,
         me => {
             if (me.Value.StartsWith("/*") && preservePositions)
                 return everythingExceptNewLines.Replace(me.Value, " "); // preserve positions and keep line-breaks // return new string(' ', me.Value.Length);
             else if (me.Value.StartsWith("/*") && !preservePositions)
                 return "";
             else if (me.Value.StartsWith("--") && preservePositions)
                 return everythingExceptNewLines.Replace(me.Value, " "); // preserve positions and keep line-breaks
             else if (me.Value.StartsWith("--") && !preservePositions)
                 return everythingExceptNewLines.Replace(me.Value, ""); // preserve only line-breaks // Environment.NewLine;
             else if (me.Value.StartsWith("[") || me.Value.StartsWith("\""))
                 return me.Value; // do not remove object identifiers ever
             else if (!removeLiterals) // Keep the literal strings
                 return me.Value;
             else if (removeLiterals && preservePositions) // remove literals, but preserving positions and line-breaks
             {
                 var literalWithLineBreaks = everythingExceptNewLines.Replace(me.Value, " ");
                 return "'" + literalWithLineBreaks.Substring(1, literalWithLineBreaks.Length - 2) + "'";
             }
             else if (removeLiterals && !preservePositions) // wrap completely all literals
                 return "''";
             else
                 throw new NotImplementedException();
         },
         RegexOptions.Singleline | RegexOptions.IgnorePatternWhitespace);
     return noComments;
}

Quick test:

var sql = @"select /* block comment */ top 1 'a' /* block comment /* nested block comment */*/ from  sys.tables --LineComment
union
select top 1 '/* literal with */-- lots of comments symbols' from sys.tables --FinalLineComment"
sql = @"create table [/*] /* 
  -- huh? */
(
    ""--
     --"" integer identity, -- /*
    [*/] varchar(20) /* -- */
         default '*/ /* -- */' /* /* /* */ */ */
);
            go"

Original code:

[select /* block comment */ top 1 'a' /* block comment /* nested block comment */*/ from  sys.tables --LineComment
union
select top 1 '/* literal with */-- lots of comments symbols' from sys.tables --FinalLineComment]
[create table [/*] /* 
  -- huh? */
(
    "--
     --" integer identity, -- /*
    [*/] varchar(20) /* -- */
         default '*/ /* -- */' /* /* /* */ */ */
);
            go]

 

RemoveComments(sql, true) // Filling comments with whitespace

[select                     top 1 'a'                                               from  sys.tables              
union
select top 1 '/* literal with */-- lots of comments symbols' from sys.tables                   ]
[create table [/*]    

(
    "--
     --" integer identity,      
    [*/] varchar(20)         
         default '*/ /* -- */'                  
);
            go]

RemoveComments(sql, true, true) //Filling comments and literals with whitespace

[select                     top 1 ' '                                               from  sys.tables              
union
select top 1 '                                             ' from sys.tables                   ]
[create table [/*]    

(
    "--
     --" integer identity,      
    [*/] varchar(20)         
         default '           '                  
);
            go]

Microsoft also has a parser included in SQL Server 2012 Feature Pack (just need to download SQLDom.msi). After installing this msi you just need to add a reference to C:\Program Files (x86)\Microsoft SQL Server\120\SDK\Assemblies\Microsoft.SqlServer.TransactSql.ScriptDom.dll and you can start parsing (and possibly removing comments) like described here.
However, this parser is very complex, and consequently very slow. If you only need to extract/remove comments, a Regex is a much faster solution. And also doesn’t depend on that external assembly. I have compared my regex to Microsoft’s parser using more than 3 thousand very large SQL scripts, and I achieved the exact same results (identical byte to byte), but hundreds of times faster.

If you need a contractor/freelancer for automation tasks on ALM/SQL/deployment, get in contact.

Uma dica para fazer o seu Smartphone valer R$ 2.000 a mais:

Cadastre-se no Bike Sampa, aquele programa da Prefeitura de São Paulo junto com o Banco Itaú que oferece o empréstimo/aluguel de bicicletas em vários pontos da cidade.

Você se cadastra no site, põe seu celular, põe cartão de crédito, escolhe um usuário e senha. Mas na hora de alugar a bicicleta, NÃO, não precisa usar a senha que você escolheu. Basta ligar para o serviço, digitar o número da estação que você está, e a bicicleta é liberada sem nenhuma checagem se de fato o celular está com você ou com o ladrão.

Se o ladrão roubar um celular que está cadastrado no sistema, e por exemplo a pessoa cadastrou dois passes (como eu fiz, um para mim e um para minha esposa), o ladrão vai facilmente ganhar duas bicicletas com uma cestinha laranja, sem nem precisar saber a sua senha.

E você, vai ser debitado em seu cartão R$ 1.000 por cada bicicleta que for retirada e não for devolvida.

Ou seja, meu celular passou a valer R$ 2.000 a mais !! Obrigado Itaú, e Prefeitura de São Paulo. Vocês precisam realmente aprender um pouco sobre SEGURANÇA da informação.

E para dar meus dois centavos, quero lembrá-los de um dos princípios básicos da segurança informação, o Two-factor Authentication. A idéia é simples: para se autenticar você precisará de algo que você TENHA (um celular, um token, etc), e de algo que você SAIBA. No caso do Bike Sampa, basta algo que você TENHA (o celular) e eles já te liberam bicicletas, quando o correto era também pedirem uma SENHA (algo que você SAIBA).

Sabendo que o custo por cada bicicleta extraviada é de R$ 1.000, eu me pergunto se realmente isso é uma FALHA de projeto ou se é algo INTENCIONAL pra arrecadarem um dinheirinho.

E fica a dica aos ladrões: ao roubarem um smartphone, não precisa nem procurar o aplicativo. Basta ligar para o Bike Sampa, e dar umas pedaladas por minha conta !!

Um amigo meu compartilhou no Facebook um vídeo (cujo link não existe mais) onde o Dr. Lair Ribeiro começa explicando o que é pH, depois começa a defender (como se fossem coisas comprovadas) que um pH alcalino é garantia de uma vida saudável e longa, e que o que faz as pessoas envelhecerem é o pH ácido. Ele vai explicando que refrigerantes fazem mal pois são ácidos, que alimentação ácida faz o seu sangue ficar ácido, que água é o único remédio para equilibrar o pH do corpo, e depois começa a falar que nem toda água é igual, que há águas que fazem bem e águas que fazem mal, por fim sugerindo que as pessoas devem tomar uma tal de “ÁGUA HEXAGONAL” que teoricamente teria não só o pH ideal mas também teria propriedades anti-oxidantes.

A primeira coisa curiosa é analisar a técnica de oratória.

  • O apresentador explica meia dúzia de conceitos que todo mundo conhece (como a definição pH) pra ir ganhando confiança do público, que passa a se envolver no desenvolvimento da teoria, pois no começo do discurso todos conceitos são bem leigos, então todos conseguem acompanhar.
  • Depois ele lança meia duzia de frases sensacionalistas pra causar impacto, apela para o emocional falando sobre a saúde dos “filhos que tomam veneno”, dos “pais que não gostam dos filhos”, etc.
  • Mais pra frente ele usa alguns termos em inglês (que quem entende inglês consegue imaginar do que se trata) para o público achar que ele realmente é expert no assunto e que entende mais do que o público.
  • Ele começa a dar entonações no discurso pra deixar as pessoas mais e mais envolvidas, como naquela parte em que ele fica explicando que o pH é uma escala logarítmica.
  • Ele lança algumas hipóteses como se fossem verdades (como a questão do câncer)
  • Por fim ele começa a tirar conclusões sem pé nem cabeça (ou seja, uma falácia), como a história de que o alimento altera o pH do corpo.

Como sou cético, fui pesquisar pra entender melhor, pesquisei a opinião de diversos médicos, biólogos e estudantes discutindo as teorias apresentadas no vídeo, e logo comecei a encontrar diversos links desmentindo a teoria. Algumas coisas que encontrei na minha pesquisa:

  • Existem muitas hipóteses relacionando a saúde com o pH do corpo, mas nada nunca foi provado (por isso que são hipóteses, e não Teorias ou Leis que são bem mais consistentes, pois exigem provas ou um escopo mais abrangente ). Ou seja, a hipótese é essencialmente um “palpite”, enquanto uma teoria é uma explicação mais abrangente que junta várias linhas de evidência, alegações e modelos.

  • Quem pesquisar um pouco vai achar gente dizendo que todas doenças (até o câncer) se devem ao pH. (Em alguns destes sites você encontrará também muito misticismo, viagens pra quinta dimensão, gnomos, teoria da conspiração, sites que vendem produtos místicos, etc etc)

  • Quem pesquisar um pouco também vai encontrar muita gente dizendo que o pH não muda por causa da alimentação (apenas por outros desequilibrios), e que qualquer desequilibrio alimentar (ex: excesso de acidez) é compensado pelos rins e eliminado na urina. (Pra mim me pareceram ser sites bem mais sérios, e que não vendiam nenhum tipo de misticismo).

  • Se for ver o discurso dos fabricantes de “água alcalina”, eles dizem que todos os males do mundo vem do pH ácido. Ex: http://www.ciacristal.com/blog/conteudo.php?ctdo=2

  • Se for ver o discurso do fabricante de refrigerante, vai ver eles desmentindo tudo. Ex: http://www.coca-colacompany.com/contact-us/coca-cola-rumors-facts Ex: http://www.rebic.com.br/boatos-e-mitos/a-acidez-dos-refrigerantes-causa-problemas-em-ossos-e-dentes/

  • Ou seja, tem que procurar fontes IMPARCIAIS. Segundo a Wikipedia: “A crítica comum da Coca-cola de que sua acidez tem níveis alegadamente tóxicos foi provada por pesquisadores como algo sem fundamentos, e por isso vários processos foram fechados nos tribunais americanos”.

A verdade é que tem muita gente desmentindo essa teoria da Dieta Ácida/Alcalina:

Na minha opinião, a medicina tem muitas hipóteses (ou seja, não provadas), poucas certezas, e ainda vai amadurecer muito. Ainda na minha opinião, o Lair Ribeiro tem um histórico questionável de produtos de auto ajuda, e teorias polêmicas e questionáveis, pra dizer o mínimo.

Como a maioria de nós não é biólogo nem médico, é muito fácil ouvir meia duzia de argumentos que parecem bem embasados e acreditar. E é aí que entra minha crítica sobre a oratória e sobre as falácias.

Pra exemplificar como ele é usa argumentos tendenciosos, vou falar sobre a “escala logaritmica”:

  • O pH=5 realmente tem 10x mais cátions H+ do que o pH=6.
  • Mas o pH=8 também tem 10x mais ânions OH- do que o pH=7.
  • Ou seja, a ordem de magnitude cresce logaritmicamente para os dois lados.
  • Então se o pH ideal é 7 (por exemplo), estar em 6 é “10x mais ácido do que deveria”, mas estar em 8 também é “10x mais alcalino do que deveria”.
  • No entanto o orador só reforça “o rápido crescimento” para ácido, como se para o alcalino a escala também não crescesse de forma logarítmica.

Por fim, resolvi pesquisar na Wikipedia sobre a tal Teoria da Dieta Ácida ou Alcalina, que propõe que devemos evitar alimentos e bebidas ácidos.

Segundo a Wikipedia, “faltam evidências significantes para comprovar a teoria”. Segundo outro artigo da Wikipedia, “as alegações não tem evidência médica e usam premissas contrárias ao atual entendimento da fisiologia humana”. O mesmo artigo também diz que a hipótese que correlacionava dieta ácida com osteoporose ultimamente está sendo descartada.

É óbvio que aqueles que querem vender placebo tentam desmerecer a Wikipedia, chamando ela de “cética”, etc. Então eu resolvi pesquisar sobre a tal “Água Hexagonal” que segundo um leitor me alertou no Brasil é vendida com o nome de Acqualive, e promovida pelo médico em questão.

Segundo a Wikipedia: Hexagonal water is a term used in a marketing scam[1][2] that claims the ability to create a certain configuration of water that is better for the body.[3] The term “hexagonal water” refers to a cluster of water forming a hexagonal shape that supposedly enhances nutrient absorption, removes metabolic wastes, and enhances cellular communication, among other things.[4] Similar to the dihydrogen monoxide hoax, the scam takes advantage of the consumer’s limited knowledge of chemistry, physics, and physiology.”

Ou seja, ela foi descrita como um “golpe de marketing que alega a possibilidade de criar uma disposição da água que seria melhor para o corpo”

A última frase mostra exatamente o que eu falei sobre como é fácil enganar os leigos: “O golpe se utiliza do conhecimento limitado que o consumidor tem sobre química, física e fisiologia”. Basta alguém mal-intencionado que domine a técnica da oratória, que ele consegue demonstrar uma conclusão errada (uma falácia) para os leigos acreditarem e comprarem placebo.

Mais sobre a pseudociência da água hexagonal aqui.

Recapitulando, os americanos inventaram um golpe, que provavelmente deve ser muito rentável, os brasileiros copiaram a idéia e contrataram um dos maiores oradores do país para ser o garoto propaganda da nova água que resolve todos os problemas de saúde, rejuvenesce, previne o câncer e a osteoporose.

O que me chateia mais não são os mal-intencionados que usam marketing e oratória para enganar o consumidor, mas sim as pessoas que não tem discernimento para entender os golpes e pesquisar a verdade. Me assusta ver como somos tão facilmente manipulados com pseudociência, falácias (conclusões feitas de maneira ilógica ou sem fundamento), e outras técnicas de persuasão.

O maior problema da falta de discernimento não é que somos manipulados há décadas como consumidores, mas sim que somos manipulados há séculos por governantes, imprensa, e líderes religiosos.

Veja bem, eu não estou dizendo que refrigerante é bom - eles são ruins, e eu próprio os evito. Mas eles são ruins pela quantidade de açúcar e pelos adoçantes questionáveis, e não pelo pH (como o vídeo alega), pois se o problema fosse o pH o suco de limão e de abacaxi também seriam veneno. O que estou dizendo é que não dá pra acreditar em pseudociência e transformar isso em histeria coletiva, como o pessoal faz no facebook. A pseudociência é igual ao Notícias Populares: só sobrevive através de gente que não questiona a informação que lê.

Já falei demais. Vou tomar uma água hexagonal pra recompor minhas energias…

EDIT: 06/Jan/2016: Diversas pessoas estão comentando aqui sobre “água ionizada”. É exatamente a mesma coisa que “água alcalina”, só mudaram o nome pra ver se enganam mais gente. Segundo o Inquirer, o Dr. Andrew Weil, famoso autor de livros e autoridade em nutrição(*) da Harvard, “os alegados benefícios pra saúde dos ionizadores e água alcalina são falsos. Poupe seu dinheiro”. Esta opinião é semelhante a de outro especialista, o Dr. True Ott, que diz que os benefícios atribuídos à água alcalina são baseados em “junk science” (pseudociência), e alerta ainda que excesso de água alcalina pode causar câncer e artrite.

(*) O médico em questão é “autoridade em nutrição”, e infelizmente ninguém pode dizer o mesmo do Lair Ribeiro. Temos que reconhecer que ele é um famoso escritor de best-sellers de auto ajuda, um dos maiores palestrantes/oradores do país, e de fato tem um histórico em cardiologia, mas suas contribuições para a nutrição se resumem a hipóteses divulgadas com uma boa pitada de sensacionalismo e com objetivos duvidosos.

EDIT: 24/Set/2016: Tem gente que é tão fanática que sai procurando evidências pra reafirmar suas convicções, e acaba ficando totalmente cega. Teve alguém que comentou abaixo colando diversos links de papers científicos, sendo que alguns dos links dizem claramente que não há nenhuma comprovação de que água alcalina tenha algum efeito na sua saúde, e outros links são de pesquisas que simplesmente não tem os resultados abertos então não dá pra concluir nada. Por favor usem o senso crítico.

EDIT: 24/Set/2016: Pra quem não acredita na Wikipedia, veja outros links:
Revista Galileo (Globo): Água alcalina não passa de estratégia de vendas
IG: Especialistas alertam que água alcalina não traz benefícios à saúde.
Outro blog que fez uma pesquisa muito boa que contradiz fortemente os benefícios da água alcalina.

EDIT: 1/Fev/2017: Pra quem “só acredita em médicos famosos”, vejam Dr. Drauzio Varella em entrevista afirmando que “Não há nenhuma publicação séria mostrando que água alcalina tenha qualquer efeito”.