Biçimlendirme koruyarak ve HTML bozmadan ise PHP substr () ve strip_tags () kullanarak

Ben çeşitli HTML etiketlerini dizeleri sıyırma olmadan ve HTML bozmadan (elimden içeriğin, orijinal değil) 100 karakter kesmek zorunda.

Original HTML string (288 karakter):

$content = "<div>With a <span class='spanClass'>span over here</span> and a
<div class='divClass'>nested div over <div class='nestedDivClass'>there</div>
</div> and a lot of other nested <strong><em>texts</em> and tags in the air
<span>everywhere</span>, it's a HTML taggy kind of day.</strong></div>";

Standard trim: 100 karakter ve HTML tatili Trim, elimden içerik ~ 40 karakter geliyor:

$content = substr($content, 0, 100)."..."; /* output:
<div>With a <span class='spanClass'>span over here</span> and a
<div class='divClass'>nested div ove... */

Stripped HTML: Çıkışlar doğru karakter sayılmasını ama açıkçası biçimlendirme kaybeder:

$content = substr(strip_tags($content)), 0, 100)."..."; /* output:
With a span over here and a nested div over there and a lot of other nested
texts and tags in the ai... */

Partial solution: etiketleri çıktısı temiz HTML kapatmak için HTML Tidy veya temizleyici kullanıyorum ama HTML 100 karakter gösterilir içerik değil.

$content = substr($content, 0, 100)."...";
$tidy = new tidy; $tidy->parseString($content); $tidy->cleanRepair(); /* output:
<div>With a <span class='spanClass'>span over here</span> and a
<div class='divClass'>nested div ove</div></div>... */

Challenge: çıkışı temiz HTML ve n karakter (HTML öğelerinin karakter sayısı hariç) için:

$content = cutHTML($content, 100); /* output:
<div>With a <span class='spanClass'>span over here</span> and a
<div class='divClass'>nested div over <div class='nestedDivClass'>there</div>
</div> and a lot of other nested <strong><em>texts</em> and tags in the

Şaşırtıcı, ama işler değil.

function html_cut($text, $max_length)
    $tags   = array();
    $result = "";

    $is_open   = false;
    $grab_open = false;
    $is_close  = false;
    $in_double_quotes = false;
    $in_single_quotes = false;
    $tag = "";

    $i = 0;
    $stripped = 0;

    $stripped_text = strip_tags($text);

    while ($i < strlen($text) && $stripped < strlen($stripped_text) && $stripped < $max_length)
        $symbol  = $text{$i};
        $result .= $symbol;

        switch ($symbol)
           case '<':
                $is_open   = true;
                $grab_open = true;

           case '"':
               if ($in_double_quotes)
                   $in_double_quotes = false;
                   $in_double_quotes = true;


            case "'":
              if ($in_single_quotes)
                  $in_single_quotes = false;
                  $in_single_quotes = true;


            case '/':
                if ($is_open && !$in_double_quotes && !$in_single_quotes)
                    $is_close  = true;
                    $is_open   = false;
                    $grab_open = false;


            case ' ':
                if ($is_open)
                    $grab_open = false;


            case '>':
                if ($is_open)
                    $is_open   = false;
                    $grab_open = false;
                    array_push($tags, $tag);
                    $tag = "";
                else if ($is_close)
                    $is_close = false;
                    $tag = "";


                if ($grab_open || $is_close)
                    $tag .= $symbol;

                if (!$is_open && !$is_close)


    while ($tags)
        $result .= "</".array_pop($tags).">";

    return $result;

Kullanımı örnek:

$content = html_cut($content, 100);

Ben bu icat iddia etmiyorum, ama sen ne istiyor ki CakePHP'de bir çok tam Text::truncate() yöntem var:

function truncate($text, $length = 100, $ending = '...', $exact = true, $considerHtml = false) {
    if (is_array($ending)) {
    if ($considerHtml) {
        if (mb_strlen(preg_replace('/<.*?>/', '', $text)) <= $length) {
            return $text;
        $totalLength = mb_strlen($ending);
        $openTags = array();
        $truncate = '';
        preg_match_all('/(<\/?([\w+]+)[^>]*>)?([^<>]*)/', $text, $tags, PREG_SET_ORDER);
        foreach ($tags as $tag) {
            if (!preg_match('/img|br|input|hr|area|base|basefont|col|frame|isindex|link|meta|param/s', $tag[2])) {
                if (preg_match('/<[\w]+[^>]*>/s', $tag[0])) {
                    array_unshift($openTags, $tag[2]);
                } else if (preg_match('/<\/([\w]+)[^>]*>/s', $tag[0], $closeTag)) {
                    $pos = array_search($closeTag[1], $openTags);
                    if ($pos !== false) {
                        array_splice($openTags, $pos, 1);
            $truncate .= $tag[1];

            $contentLength = mb_strlen(preg_replace('/&[0-9a-z]{2,8};|&#[0-9]{1,7};|&#x[0-9a-f]{1,6};/i', ' ', $tag[3]));
            if ($contentLength + $totalLength > $length) {
                $left = $length - $totalLength;
                $entitiesLength = 0;
                if (preg_match_all('/&[0-9a-z]{2,8};|&#[0-9]{1,7};|&#x[0-9a-f]{1,6};/i', $tag[3], $entities, PREG_OFFSET_CAPTURE)) {
                    foreach ($entities[0] as $entity) {
                        if ($entity[1] + 1 - $entitiesLength <= $left) {
                            $entitiesLength += mb_strlen($entity[0]);
                        } else {

                $truncate .= mb_substr($tag[3], 0 , $left + $entitiesLength);
            } else {
                $truncate .= $tag[3];
                $totalLength += $contentLength;
            if ($totalLength >= $length) {

    } else {
        if (mb_strlen($text) <= $length) {
            return $text;
        } else {
            $truncate = mb_substr($text, 0, $length - strlen($ending));
    if (!$exact) {
        $spacepos = mb_strrpos($truncate, ' ');
        if (isset($spacepos)) {
            if ($considerHtml) {
                $bits = mb_substr($truncate, $spacepos);
                preg_match_all('/<\/([a-z]+)>/', $bits, $droppedTags, PREG_SET_ORDER);
                if (!empty($droppedTags)) {
                    foreach ($droppedTags as $closingTag) {
                        if (!in_array($closingTag[1], $openTags)) {
                            array_unshift($openTags, $closingTag[1]);
            $truncate = mb_substr($truncate, 0, $spacepos);

    $truncate .= $ending;

    if ($considerHtml) {
        foreach ($openTags as $tag) {
            $truncate .= '</'.$tag.'>';

    return $truncate;

Bir HTML parser kullanın ve metin 100 karakterden sonra durdurun.

Kullanım PHP'nin bir HTML parçasını normalleştirmek için DOMDocument class:

$dom= new DOMDocument();
$dom->loadHTML('<div><p>Hello World');      
$xpath = new DOMXPath($dom);
$body = $xpath->query('/html/body');

Bu soru, bir earlier question benzer ve ben kopyaladım ve burada bir çözüm yapıştırılan ettik. HTML kullanıcılar tarafından sunulmuş ise de onmouseover="do_something_evil()" veya <a href="javascript:more_evil();">...</a> gibi potansiyel JavaScript saldırı vektörlerinin süzmek gerekir. HTML Purifier bu sorunları yakalamak ve çözmek için tasarlanmış ve çok daha kapsamlı ben sonrası olabilecek herhangi bir kod daha vardır edildi gibi. Araçları

Sen kullanmanız gerekir Tidy HTML. Sen dize kesti ve ardından etiketleri kapatmak için Tidy çalıştırın.

Ne olursa olsun başında devlet 100 sayısı konuların, aşağıdaki meydan gösterir:

  • output the character count of strip_tags (the number of characters in the actual displayed text of the HTML)
  • HTML biçimlendirme yakın tutmak
  • herhangi bir tamamlanmamış HTML etiketi

Here is my proposal: Bascially, I parse through each character counting as I go. I make sure NOT to count any characters in any HTML tag. I also check at the end to make sure I am not in the middle of a word when I stop. Once I stop, I back track to the first available SPACE or > as a stopping point.

$position = 0;
$length = strlen($content)-1;

// process the content putting each 100 character section into an array
while($position < $length)
    $next_position = get_position($content, $position, 100);
    $data[] = substr($content, $position, $next_position);
    $position = $next_position;

// show the array

function get_position($content, $position, $chars = 100)
    $count = 0;
    // count to 100 characters skipping over all of the HTML
    while($count <> $chars){
        $char = substr($content, $position, 1); 
        if($char == '<'){
                $char = substr($content, $position, 1);
            } while($char !== '>');
            $char = substr($content, $position, 1);
echo $count."\n";
    // find out where there is a logical break before 100 characters
    $data = substr($content, 0, $position);

    $space = strrpos($data, " ");
    $tag = strrpos($data, ">");

    // return the position of the logical break
    if($space > $tag)
        return $space;
    } else {
        return $tag;

Bu da onlar yer alacak düşünüldüğünde dönüş kodları vb sayacaktır, ben onları kaldırılmış değil.

Burada kesici benim bir deneyin. Belki siz bazı hatalar yakalayabilirsiniz. Sorun, ben diğer ayrıştırıcıların ile bulunan, doğru yakın etiketleri yoktur ve onlar bir kelime (filan) ortasında kesilmiş olmasıdır

function cutHTML($string, $length, $patternsReplace = false) {
    $i = 0;
    $count = 0;
    $isParagraphCut = false;
    $htmlOpen = false;
    $openTag = false;
    $tagsStack = array();

    while ($i < strlen($string)) {
        $char = substr($string, $i, 1);
        if ($count >= $length) {
            $isParagraphCut = true;

        if ($htmlOpen) {
            if ($char === ">") {
                $htmlOpen = false;
        } else {
            if ($char === "<") {
                $j = $i;
                $char = substr($string, $j, 1);

                while ($j < strlen($string)) {
                    if($char === '/'){
                    elseif ($char === ' ') {
                        $tagsStack[] = substr($string, $i, $j);
                $htmlOpen = true;

        if (!$htmlOpen && $char != ">") {


    if ($isParagraphCut) {
        $j = $i;
        while ($j > 0) {
            $char = substr($string, $j, 1);
            if ($char === " " || $char === ";" || $char === "." || $char === "," || $char === "<" || $char === "(" || $char === "[") {
            } else if ($char === ">") {
        $string = substr($string, 0, $j);
        foreach($tagsStack as $tag){
            $tag = strtolower($tag);
            if($tag !== "img" && $tag !== "br"){
                $string .= "</$tag>";
        $string .= "...";

    if ($patternsReplace) {
        foreach ($patternsReplace as $value) {
            if (isset($value['pattern']) && isset($value["replace"])) {
                $string = preg_replace($value["pattern"], $value["replace"], $string);
    return $string;